当会议室音频不能可靠地到达远程拨入的与会者时,总是令人沮丧。不良的声音和干扰总是会降低线路另一端的清晰度和清晰度,因此,Microsoft语音和对话研究小组的科学家最近提出了一种系统,该系统可以通过利用智能手机,笔记本电脑和平板电脑内置的麦克风来提高音频质量。 他们在计划于2019年格拉茨Interspeech会议上发表的论文(“ 使用异步远距离麦克风进行会议转录 ”)中描述了他们的工作-这是丹麦项目的一部分,该项目是Microsoft超越传统麦克风阵列以捕获会议对话的努力。 主要研究人员吉冈拓T(Takuya Yoshioka)在博客中写道:“我们方法的核心思想是利用与会者通常会参加会议的笔记本电脑和智能手机之类的任何互联网连接设备,并实际上在云中形成一个临时麦克风阵列。” 发布随附的论文。“通过我们的方法,团队将能够选择使用已经带到会议中的手机,笔记本电脑和平板电脑来实现高精度转录,而无需专用硬件。 从理论上讲,它比执行过程简单。吉冈指出,音频保真度在不同设备之间变化很大,并且不同麦克风捕获的语音信号彼此不对齐。挑战加剧了,设备的数量及其相对位置在会议之间是不一致的。 微软团队的解决方案是一个端到端系统,该系统从收集来自不同麦克风的声音信号并执行波束成形(该技术有效地使麦克风阵列对来自特定方向的声音更加敏感)开始,由识别关系的模型精心安排在信号之间。在波束成形的过程中,信号在被合并,注释并发送回会议参加者之前,先向下游馈送到语音识别和说话者区分(识别)模块。 研究人员报告说,在定性测试中,使用三个和七个麦克风,他们的AI系统分别比单个设备系统好14.8%和22.4%,当录制的语音中有10%包含一个以上的说话者时,其差错率达到13.6%。 。他们指出,他们的系统并不完美-有时会由于重叠的语音而绊倒-但他们说这是朝着不需要专用设备的水晶般清晰的会议音频迈出的令人鼓舞的一步。 Yoshioka和同事在论文中写道:“总的来说,我们的研究表明了多个异步麦克风在现实情况下满足转录的有效性。” “ [W] e可能获得更好的空间覆盖范围,因为…设备将倾向于分布在房间周围和扬声器附近。同样,在许多使用情况下,与会人员很自然会带上他们的个人设备,然后重新使用他们的个人设备,以提供更好的转录质量。” 微软对转录的研究体现在去年夏天的Microsoft 365中,该研究获得了自主的语音到文本转换功能,使与会人员可以搜索视频转录本。几个月后,Microsoft 在OneDrive和SharePoint中推出了音频和视频文件的自动转录。