CN
EN
当前位置: 首页 > 新闻动态
IBM研讨院发布主动为新闻播报生成字幕的AI模型

发布时间:2024-02-04 09:13:11   来源:雷火平台

  IBM研讨院发布主动为新闻播报生成字幕的研讨,使用长短期回忆(LSTM)网络和声学神经网络模型,调配辅佐的言语模型,研讨团队与澳洲一家语音和查找科技公司Appen一起协作,在两项测验试验中,语音辨认系统的错误率分别为6.5%和5.9%,而人类辨认的错误率分别为3.6%和2.8%。

  IBM指出,在对话式电话语音范畴中,语音辨认系统有必要处理失真、来自多个不同电话信道的随性语音录音,还包括多种说话风格,且对话式语音还会有多个对话者堆叠、中止、重新开始和重复承认的语音。

  而新闻广播的语音辨认使命更具应战,由于还需要处理多人说话风格、多种布景噪音,和广泛的新闻范畴内容,乃至是多种体裁的混合内容,像是现场采访、电视节目的编排内容等。

  为了可以成功地辨认杂乱的语音内容,为新闻播报内容生成字幕,IBM研讨团队经过语音辨认技能,创建了一套深度神经网络,该深度神经网络集成了长短期回忆网络和深度残差网络(residual network,ResNet),以ResNet为根底打造的声学模型是含有多达25层卷积层的深度卷积式网络,用1,300个小时、多种不同的新闻内容数据,来练习生成字幕的模型。