博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
创新性应用深度学习,IBM在语音识别领域取得了里程碑式突破
阅读量:7212 次
发布时间:2019-06-29

本文共 894 字,大约阅读时间需要 2 分钟。

最近,IBM的一个研究团队他们在语音识别上创造了一个新的业界纪录,在使用的情况下词错误率为5.5%,接近于人类的错误率5.1%。人们一般会在所听到的20个单词中遗失其中的一到两个。在一次五分钟左右的对话中,大约会遗失80个词。

\\

中包括技术的应用和的集成。其中语音识别模型使用了(LSTM,Long Short Term Memory)和 语言模型。在声学模型上,他们使用了三个模型的分数融合(Score Fusion)。第一个模型是有多特征输入的LSTM,第二个模型是经过说话者对抗多任务学习(Speaker-adversarial Multi-task Learning)训练后的LSTM。第三个模型是具有25个卷积层与时间扩张(Time-dilated)卷积的残差网络(ResNet)。最后一个模型不仅从正向的例子中学习,而且也使用了负向的例子,因此当类似的语音模式重现时,会具有更好的表现。

\\

来自蒙特利尔大学蒙特利尔学习算法实验室(Montreal Institute for Learning Algorithms )的对语音识别技术是如此评论的:

\\
\

在过去的几年中,尽管在语音识别或物体识别等人工智能领域取得了巨大的进展,技术上也已经接近于人类的水平,但在科学上依然存在着挑战。诚然,标准的基准测试并非总能揭示真实数据的多样性和复杂度。例如,不同的数据集对于不同的任务会呈现出不一样的敏感性,而且结果十分依赖于如何对被测试人员进行评估,比如使用专业的誊写员进行语音识别测试。

\
\\

他也指出,IBM的这项研究将声学模型与语言模型应用于神经网络与深度学习,有助于推进语音识别技术的发展。

\\

另据一些语音识别相关的新闻报道,IBM已将添加到他们的“”服务中。这一技术有助于一些用例的实现,例如识别交谈中的各方发言者。所有这些成就所带来的技术有助于解决人类耳朵、声音和大脑交互复杂性的问题。

\\

查看英文原文:

\\

感谢对本文的审校。

\\

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至。也欢迎大家通过新浪微博(,),微信(微信号:)关注我们。

转载地址:http://bbgum.baihongyu.com/

你可能感兴趣的文章
构建ASP.NET MVC4+EF5+EasyUI+Unity2.x注入的后台管理系统(16)-权限管理系统-漂亮的验证码...
查看>>
学习VI的强文,新工作需要呀
查看>>
使用html和css的一些经验
查看>>
GNU的ar,ranlib和nm
查看>>
《Linux内核设计与实现》读书笔记(十九)- 可移植性
查看>>
如何查看ubuntu下显卡驱动是否已经成功安装
查看>>
都是假期惹的祸,该如何安慰自己?
查看>>
ImageTag小案例
查看>>
BIND9源码分析之UDP数据处理
查看>>
php 验证类
查看>>
AndroidManifest.xml配置文件
查看>>
PHP文件包含漏洞剖析
查看>>
用户反馈:对 Rafy 开发框架的一些个人建议
查看>>
C# ASP.NET B/S模式下,采用lock语法 实现多用户并发产生不重复递增单号的一种解决方法技术参考...
查看>>
android中ListView点击和里边按钮点击不能同时生效问题解决
查看>>
.tar.bz2文件解压命令
查看>>
算法思想
查看>>
【jquery】hover方法
查看>>
ubuntu官方源列表网址
查看>>
CGRectInset、CGRectOffset、等对比整理
查看>>