IBM研讨院发布主动为新闻播报生成字幕的AI模型_雷火平台官网app下载-雷火官网app下载安卓

IBM研讨院发布主动为新闻播报生成字幕的AI模型

发布时间：2024-02-04 09:13:11 来源：雷火平台

IBM研讨院发布主动为新闻播报生成字幕的研讨，使用长短期回忆（LSTM）网络和声学神经网络模型，调配辅佐的言语模型，研讨团队与澳洲一家语音和查找科技公司Appen一起协作，在两项测验试验中，语音辨认系统的错误率分别为6.5%和5.9％，而人类辨认的错误率分别为3.6%和2.8%。

IBM指出，在对话式电话语音范畴中，语音辨认系统有必要处理失真、来自多个不同电话信道的随性语音录音，还包括多种说话风格，且对话式语音还会有多个对话者堆叠、中止、重新开始和重复承认的语音。

而新闻广播的语音辨认使命更具应战，由于还需要处理多人说话风格、多种布景噪音，和广泛的新闻范畴内容，乃至是多种体裁的混合内容，像是现场采访、电视节目的编排内容等。

为了可以成功地辨认杂乱的语音内容，为新闻播报内容生成字幕，IBM研讨团队经过语音辨认技能，创建了一套深度神经网络，该深度神经网络集成了长短期回忆网络和深度残差网络（residual network，ResNet），以ResNet为根底打造的声学模型是含有多达25层卷积层的深度卷积式网络，用1,300个小时、多种不同的新闻内容数据，来练习生成字幕的模型。

上一篇：大型KTV舞台全彩p381LED显示屏多少一平米

下一篇：液晶广告机出现黑屏闪屏等问题时我们该怎么办_关于液晶广告机出现黑屏闪屏的解决办法_深圳液广晶厂家_品牌_报价_中亿睿科技

IBM研讨院发布主动为新闻播报生成字幕的AI模型

NAVIGATION

CONTACT

NAVIGATION

CONTACT