语音信号处理(基于AI的语音信号处理技术)
语音信号处理(基于AI的语音信号处理技术)一、语音信号
技术思想及原理分析
语音唤醒的原理是让模型学习特定唤醒词的语音信号特征,当输入设备捕捉到一定阈值范围内的语音信号时,当前设备将会被唤醒,否则平时设备都处于待机状态。比如小米音箱这款产品,我们在使用的时候,一般都会喊一声"小爱同学",然后再让它执行我们的命令,比如换一首歌,或者减小音量。这个"小爱同学"所发出的语音信号就是模型要学习的标签,当模型学到一定的标签数量时,下次再听到这个标签的声音时,就会做出反应,设备也就被唤醒了。语音唤醒的方法有很多,有基于传统机器学习的方法,也有基于深度学习的方法,这里只分享一些目前比较流行的深度学习方法,比如有基于CNN的Keyword Spotting模型、基于CRNN的Keyword Spotting模型、基于SEQ2SEQ的Keyword Spotting模型等。无论是那种方法,一般会将先语音波形图转成频谱图,频谱图通过Mel滤波器组得到Mel频谱,然后在Mel频谱上进行倒谱分析,获得Mel频率倒谱系数MFCC,MFCC就是语音的特征;这时候,语音就可以通过一系列的倒谱向量来描述了,每个向量就是每帧的MFCC特征向量。这样就可通过这些倒谱向量对语音分类器进行训练和识别了。
应用场景及商业价值
目前市场上几乎所有的智能语音产品都有语音唤醒装置,在执行任何一句命令之前,都要加上一个关键词来唤醒设备,其主要功能在于更好地执行命令,以及节能和延长设备使用寿命,如果一台语音设备没有唤醒装置,就意味着它无时无刻都是开机状态的,想要对它发号施令,就要求设备的智能程度非常高才行,不然设备很难判断你是在对它发号施令,还是在和你的朋友聊天,另外一直开机对能源的消耗和设备的使用寿命都损耗不少。
二、语音命令
技术思想及原理分析
语音命令顾名思义就是对智能设备发号施令,然后让它执行。前面在介绍语音唤醒的时候提到过,语音唤醒和语音命令的关系,语音唤醒是让设备处于工作状态下,然后才会执行语音命令。所以语音命令一定是语音唤醒之后的工作,不然语音命令将变得毫无意义。语音命令主要是一些简短的语音词汇所组成的信息,比如打开台灯、关闭台灯、灯光调亮一点、灯光条暖一点等等类似这样的带有动词的词汇都可以算是命令性词汇。其处理原理和过程也是和语音唤醒是一样的,都是通过对人发出的声波经过一系列的变化而得到的语音信号特征,最后对特征进行分类处理。
应用场景及商业价值
语音命令的应用在日常生活中也很常见,比如生活中常见的手机导航、Windows电脑程序导航、小米音箱、百度地图导航,以及一些K12的教育产品,基本都是以语音命令来控制程序的。语音命令控制程序的优势是方便快捷,对于老人和小孩,以及上肢行动不便的人更为方便。
三、声纹识别
技术思想及原理分析
声纹识别是对一个人发出的声音和存留的声音进行匹配,声纹识别作为一种生物信息被应用在各种程序中作为识别密码。它和指纹识别、人脸识别一样,在识别前,首先需要对被识别人的识别信息进行采样存库,方便以后对比识别。在深度学习中,声纹识别和语音唤醒、语音命令等其他语音操作方式一样,都是先对接收到的声波进行转换,得到频谱图,进而使用梅尔频谱倒数分析,进行特征提取。
应用场景及商业价值
声纹识别的应用主要用在一些用户信息登录识别验证等敏感的场景,其作用和键盘输入识别验证、指纹识别验证、人脸识别验证的一样。声纹识别对环境的要求较高,一般来说比较安静的环境发声识别效果较好;反之,如果环境嘈杂,则识别验证的效果较差。另外一个人的声音是随着年龄、身体状况的变化而变化的,所以并不是很稳定。虽然声纹识别有一些缺点,但是也有其优点,主要是声音获取相对容易,只要环境较为安静,声音的验证也更方便,使用者接受程度较高。
四、语音识别(STT)
技术思想及原理分析
语音识别就是对发出的语音进行一系列的转换,从波形图最终翻译成对应的文字信息,这个过程中有一个中间的特征来对应两边的语音和文本。简单来说就是先把语音转成某种特征图,然后让特征图对应到文本信息上。由于是从声音转换成文本,也称为STT(speech to text)。语音转文本的具体技术和语音唤醒使用的技术一样,先要把波形图转成频谱图,然后根据梅尔频率倒谱系数进行特征提取,有了特征就可以对应指定的文本信息了。
应用场景及商业价值
语音识别的好处是,可以代替键盘快速输入文本信息。比如在某些聊天软件上和对方沟通时,想要发送给对方的是文字信息,但是又不方便键盘输入,这个时候就可以使用语音识别技术来自动将语音转换成文字后再发送。此外,广义的语音识别包括了所有的语音操作技术,包括语音唤醒、语音命令等一系列和语音相关的技术。
五、语音合成(TTS)
技术思想及原理分析
语音合成与语音识别的应用方向刚好相反,语音识别是STT(speech to text),而语音合成是TTS(text to speech),从二者的名称中就可以看出,语音合成的输入是文本信息,输出是声音信息。在技术上可以看成是STT的逆向操作。目前的语音合成方法主要有拼接合成语音和参数合成语音两种。
应用场景及商业价值
虽然目前的语音合成技术还不是非常成熟,但是在一些要求不太高的应用中已经开始应用了。目前语音合成的应用主要在新闻广播行业较为广泛,比如搜狗AI合成主播,有了AI合成主播,就可以帮助新闻机构做一些简单的广播了。当然国外有人拿这个技术配合上图像合成技术,造了一段总统讲话的视频,表情和声音还都挺像的,不仔细甄别,还真看不出来。
燕麦为什么苦(燕麦米怎么有苦味)许多人都会在减肥健身时食用燕麦片,这是为什么呢?今天我来给大家说道说道。首先,我们要来说说到底什么是燕麦片燕麦片是燕麦粒轧制而成,呈扁平状,直径约相当于黄豆粒,形状完整的一种食品。
猪蹄炖什么(猪蹄炖什么煲汤营养最好)大家好,我是第一美食的阿飞,阿飞有更多的家常菜供大家参考!几乎生过孩子的都喝过这碗汤!猪蹄汤是我们传统汤里,普及度相当高,里面含的胶原蛋白也让它拥有了一个养生汤的名号,今天我们就炖
哪个鱼胶好(花胶排行榜)花胶也就是鱼胶,营养价值非常丰富,富含胶原蛋白,有很好的美容养颜功效,因此非常受女性的喜爱。然而现在市面上的花胶种类繁多,那么花胶那种比较好?花胶品种排名是什么?花胶排骨汤的做法是
鸭肉怎么做好吃(鸭肉可以配哪些菜炒)吃烤鸭剩下的鸭肉,配上洋葱辣椒,用豆瓣酱炒一炒,酱香浓郁,别具风味。炒好的烤鸭可以就米饭吃,也可以用饼夹着吃,空口吃最过瘾。By和月香用料六月香豆瓣酱1大勺六月鲜轻盐酱油1勺味达美
白酒不能和什么一起吃(喝酒和什么相克会致死)酒是人们沟通的纽带,酒文化也是很悠久。日常生活中,大家没事儿来两杯,聚会和生意场合更是不喝倒不罢休。除了一些练出的酒量,还需要注意一些小细节,避免不健康饮酒。一,白酒不宜搭配啤酒喝
心脏早搏是怎么回事(心脏早搏最佳治疗方法)心脏早搏是怎么中老年人群最担心自己得心脏病,其实心脏病的种类是很多的,有一种心脏早搏,可能大家都听说过吧。那么,心脏早搏是什么原因引起的呢?大家肯定也十分关心这种疾病的危害性,那么
早搏的症状是什么感觉(心脏有问题的12个信号)您是否有时会突然感到心慌心悸胸闷,和同龄人相比很容易感到体力匮乏容易疲劳甚至有时头晕的症状?那您得注意了,建议您最好去做一下心电图检查。因为这是室早的常见症状,那么室早到底是什么?
如何计算生辰八字(生辰八字怎么算?)如何计算生辰八字(生辰八字怎么算?)日常生活中算命这东西有很多人信也有很多人不信,不管你信不信,到了一生中最重要的几个时刻,难免会请人算下择个好日子。就算年轻人不算,父母长辈也肯定
生辰八字算五行!(生辰八字与五行测算)生辰八字算五行!(生辰八字与五行测算)俗话说的好,一个人的一生若想有一个很好的发展与一份很不错的事业,除了靠七分的打拼以外,还有那剩下的三分就是靠运气。你可以不相信命运,但你不得不
生辰八字算姻缘(生辰八字算姻缘从何而来?)生辰八字算姻缘(生辰八字算姻缘从何而来?)部分农村人的封建思想与迷信的观念,还是很难得到改变。相信农村的朋友带伴侣回家时,都会有这样的一个经历,比如父母从年龄上告知与伴侣不和,或者
春联贴法左右顺序(对联的上联是贴门左边还是右边?)春联贴法左右顺序(对联的上联是贴门左边还是右边?)我们常说,现在的农历新年,越来越没有年味了,那是因为现在过年的仪式越来越少了。小时侯过年,刚进腊月就开始准备,杀年猪,扫阳尘,置新
钢琴谱怎么看(初学者怎么看懂钢琴谱简谱)细心的家长和老师们不难发现,练琴时孩子的样子总是风格迥异,有着自己的想法,总结起来可以分为两大类,一类是弹琴的时候眼睛离不开乐谱,一不看谱就没办法弹下去另一类就是眼睛一直盯着自己的
标点符号有哪些(常用标点符号名称)标点符号的种类1点号主要用来表示语言中的停顿和语气。点号有七种句号(。)问号(?)感叹号(!)顿号()逗号(,)分号()冒号()2标号主要用来标明词语或句子的性质和作用。常用的有七
五线谱怎么看(快速看五线谱)初学者弹钢琴容易碰到不少难题,其中复杂的五线谱,不仅需要乐理知识来熟悉,还需要正确的方法和足够的练习来驾驭。从中央C开始,记住键盘C音的位置。键盘上的C音往往的弹琴时识别音符的基准
五线谱教程(最全的五线谱基础教程)五线谱教程(最全的五线谱基础教程)最下面第一条线叫做第一线,往上数第二条线叫第二线,再往上数是第三线第四线,最上面一条线是第五线。由于音符非常多,所以线与线之间的缝隙也绝对不能浪费
钢琴指法(钢琴指法对照表)钢琴指法(钢琴指法对照表)我们先来说说贝都因人柏柏尔人和摩尔人到底是些什么人?贝都因人贝都因人在读古兰经阿拉伯半岛是世界上最大的半岛,阿拉伯就是荒凉的沙漠的意思,希腊人称这里的居民
钢琴怎么练(零基础学钢琴)学习钢琴这几年成为很多成人追逐的一项技能。有的人是为了完成小时候那个抓不住的梦想,有的人是喜欢钢琴曲的轻快柔和的感受,还有的人喜欢钢琴带给自己精神上的愉悦。那么无论是任何原因,成人
怎么学好唱歌(免费学唱歌入门教程)这是一个网络红人的时代,唱歌也能获得收益,成为创业的一种手段。今天,小编要为尚在入门阶段,励志成为下一代歌王天后的盆友们,带来一篇通俗易懂的无基础学唱歌教学。五音不全怎么学唱歌,无
电子商务网站分析(电子商务网站分析报告)电子商务网站分析(电子商务网站分析报告)当下各大电商平台蓬勃发展的时代,电商网站的数据分析也越来越火热,后台收到了不少朋友私信关于电商网站数据分析的问题,今天我简单从六个方面来说流
exe电子书下载网站(电子书下载网站)exe电子书下载网站(电子书下载网站)数据传媒时代,想要给自己一点时间,坐下来读一本书,像在学校一样静心学习,工作后有很多条件限制,那么电子书不失为一种很好的选择,今天就来为大家提
电子管发烧音响(电子管发烧知多少)电子管发烧音响(电子管发烧知多少)电子管种类电子管种类繁多,型号庞杂,在音频领域可作如下分类1。按用途分类在音响领域电子管按其用途可分为电压放大管功率放大管整流管稳压管等。2。按管
电子琴教学(最全面的电子琴指法教学!)电子琴教学(最全面的电子琴指法教学!)第一讲看手其实有许多人都想学钢琴电子琴,往往望而却步,大多认为自己手指太短(即短指)而放弃了,这是一个重大的错误!!!其实手指短并不影响钢琴的