主题 : 微软语音识别达到速录水平 科大讯飞你颤抖了吗?
千山同一月 万户尽皆春 千江有水千江月 万里无云万里天
级别: 总版主

UID: 998
精华: 0
发帖: 604963
威望: 528524 点
无痕币: 3089 WHB
贡献值: 0 点
在线时间: 61678(时)
注册时间: 2008-12-25
最后登录: 2024-03-29

0 微软语音识别达到速录水平 科大讯飞你颤抖了吗?


据科技博客TechCrunch北京时间报道,微软公司在当地时间周日宣布,其对话式语音识别系统的出错率达到5.1%,创下目前为止的最低水平,超过了去年微软人工智能及研究事业部一组研究人员所实现的5.9%出错率,达到了专业速录员的同等水平。
在今年的5月份,微软对中文的语音识别错误率仍然停留在5.9%,但是在短短的三个月后,微软的研究人员通过改进微软语音识别系统,基于神经网络的声学和语言模型得到了进一步优化,错误率得到了显著的降低,目前出错率下降至5.1%,正在加快追赶科大讯飞3%的出错率,更重要的是,微软目前着眼的是中文、英文以及日语三种语言的识别和转换,而科大讯飞目前只着重于中文语言的识别,面对微软语音识别的不断提升,科大讯飞的核心产品语音识别系统会受到微软同类产品的冲击甚至替代吗?
我们分析一下这两者的优劣便知;
微软VS科大讯飞

微软:微软公司提供在Windows平台上的语音识别和语音合成应用程序开发包,简称SAPI,该语音引擎支持多种语音的识别和朗读,包括英文、日文、中文等。微软推出的应用编程接口API,虽然现在不是业界标准,但是应用比较广泛。
主要优点
1.语音识别引擎位于本地,便于访问,识别速度较快;
2.待识别音频的大小、时长无限制。
主要缺点
1.缺少其他平台的支持,仅支持windows平台;
2.语音识别引擎不够庞大,识别精准度相对科大讯飞仍然较低。
科大讯飞:科大讯飞为开发者提供了语音应用开发平台,提供语音合成、语音听写、语音识别、声纹识别等服务,为语音应用开发爱好者提供方便易用的开发接口,使得用户能够基于该开发接口进行多种中文语音应用开发。
主要优点
1.支持平台丰富,各个平台上都有相应的详细SDK文档;
2.语音识别引擎较庞大,对中文的识别精度较高;
3.中文方言的识别种类丰富;
4.具端点检测功能,便于划分识别文本的句子。
主要缺点
1.识别引擎位于服务器端,须远程访问,识别速度相对较慢;
2.需要使用1028端口,在某些地方会有使用限制。
通过上述优缺点比较来看,微软虽然语言识别速度较快但识别成功率仍然不及科大讯飞,与此同时,微软语音识别的端口适用上更好,能更加方便的介入第三方运用程序,但中文方言种类的识别度来看仍不及科大讯飞的全面,科大讯飞的方言识别种类现已超过20种,因此就中文的适配来看,科大讯飞目前仍然占有相对的优势,但这种优势并没有形成技术上的壁垒,微软技术追赶的脚步已经逐步加快。
科技的比拼是动态的,如果研发投入不足,今日的领先很有可能成为明日的落后甚至替代。

盈利方面:净利润的逐季度下降严重制约了讯飞研发投入的再升级
微软对研究与开的投入力度是众所周知、有目共睹的。早在2014年微软的研发投入已经高达104亿美元排名世界第四,研发投入常年位居世界前十位,微软研究院中有超过1000位科学家和工程师,他们在世界各地的研究室中研究着跨领域项目。他们开发的产品和各种合作项目为应对和解决全球性的挑战做出了贡献。
科大讯飞虽然持续加大了在语音识别领域的核心技术研发,为此从16年底相应的营业和管理成本已经大幅增加,进而导致了利润的逐季度下降,今年二季度科大讯飞的归属净利润同比下降超过82%!净利润的急速下滑将严重制约了研发投入的再次升级,而随着研发投入的落后,最终在语音识别技术领域就可能会被微软等技术研发实力更强的公司所超越。
而科大讯飞的核心技术就在于语音识别,一旦在技术上被超越或者替代,公司的相关产品受众就会相应减小,基于公司高速发展的高预期高估值也会大幅下调,届时二级市场公司的股票就可能会面临一定程度的下跌。所以,控制公司的运营成本和管理成本现已成为讯飞的当务之急。
级别: 六行秋雁
UID: 289336
精华: 0
发帖: 1603
威望: 10487 点
无痕币: 14428 WHB
贡献值: 0 点
在线时间: 274(时)
注册时间: 2017-09-06
最后登录: 2022-03-19

 谢谢楼主分享!
Total 0.129708(s) query 5, Time now is:03-29 05:59, Gzip enabled 粤ICP备07514325号-1
Powered by PHPWind v7.3.2 Certificate Code © 2003-13 秋无痕论坛