教育房产时事环球科技商业
投稿投诉
商业财经
热点动态
科技数码
软件应用
国际环球
晨报科学
新闻时事
信息智能
汽车房产
办公手机
教育体育
生活生物

语音信号处理(基于AI的语音信号处理技术)

  语音信号处理(基于AI的语音信号处理技术)一、语音信号
  技术思想及原理分析
  语音唤醒的原理是让模型学习特定唤醒词的语音信号特征,当输入设备捕捉到一定阈值范围内的语音信号时,当前设备将会被唤醒,否则平时设备都处于待机状态。比如小米音箱这款产品,我们在使用的时候,一般都会喊一声"小爱同学",然后再让它执行我们的命令,比如换一首歌,或者减小音量。这个"小爱同学"所发出的语音信号就是模型要学习的标签,当模型学到一定的标签数量时,下次再听到这个标签的声音时,就会做出反应,设备也就被唤醒了。语音唤醒的方法有很多,有基于传统机器学习的方法,也有基于深度学习的方法,这里只分享一些目前比较流行的深度学习方法,比如有基于CNN的Keyword Spotting模型、基于CRNN的Keyword Spotting模型、基于SEQ2SEQ的Keyword Spotting模型等。无论是那种方法,一般会将先语音波形图转成频谱图,频谱图通过Mel滤波器组得到Mel频谱,然后在Mel频谱上进行倒谱分析,获得Mel频率倒谱系数MFCC,MFCC就是语音的特征;这时候,语音就可以通过一系列的倒谱向量来描述了,每个向量就是每帧的MFCC特征向量。这样就可通过这些倒谱向量对语音分类器进行训练和识别了。
  应用场景及商业价值
  目前市场上几乎所有的智能语音产品都有语音唤醒装置,在执行任何一句命令之前,都要加上一个关键词来唤醒设备,其主要功能在于更好地执行命令,以及节能和延长设备使用寿命,如果一台语音设备没有唤醒装置,就意味着它无时无刻都是开机状态的,想要对它发号施令,就要求设备的智能程度非常高才行,不然设备很难判断你是在对它发号施令,还是在和你的朋友聊天,另外一直开机对能源的消耗和设备的使用寿命都损耗不少。
  二、语音命令
  技术思想及原理分析
  语音命令顾名思义就是对智能设备发号施令,然后让它执行。前面在介绍语音唤醒的时候提到过,语音唤醒和语音命令的关系,语音唤醒是让设备处于工作状态下,然后才会执行语音命令。所以语音命令一定是语音唤醒之后的工作,不然语音命令将变得毫无意义。语音命令主要是一些简短的语音词汇所组成的信息,比如打开台灯、关闭台灯、灯光调亮一点、灯光条暖一点等等类似这样的带有动词的词汇都可以算是命令性词汇。其处理原理和过程也是和语音唤醒是一样的,都是通过对人发出的声波经过一系列的变化而得到的语音信号特征,最后对特征进行分类处理。
  应用场景及商业价值
  语音命令的应用在日常生活中也很常见,比如生活中常见的手机导航、Windows电脑程序导航、小米音箱、百度地图导航,以及一些K12的教育产品,基本都是以语音命令来控制程序的。语音命令控制程序的优势是方便快捷,对于老人和小孩,以及上肢行动不便的人更为方便。
  三、声纹识别
  技术思想及原理分析
  声纹识别是对一个人发出的声音和存留的声音进行匹配,声纹识别作为一种生物信息被应用在各种程序中作为识别密码。它和指纹识别、人脸识别一样,在识别前,首先需要对被识别人的识别信息进行采样存库,方便以后对比识别。在深度学习中,声纹识别和语音唤醒、语音命令等其他语音操作方式一样,都是先对接收到的声波进行转换,得到频谱图,进而使用梅尔频谱倒数分析,进行特征提取。
  应用场景及商业价值
  声纹识别的应用主要用在一些用户信息登录识别验证等敏感的场景,其作用和键盘输入识别验证、指纹识别验证、人脸识别验证的一样。声纹识别对环境的要求较高,一般来说比较安静的环境发声识别效果较好;反之,如果环境嘈杂,则识别验证的效果较差。另外一个人的声音是随着年龄、身体状况的变化而变化的,所以并不是很稳定。虽然声纹识别有一些缺点,但是也有其优点,主要是声音获取相对容易,只要环境较为安静,声音的验证也更方便,使用者接受程度较高。
  四、语音识别(STT)
  技术思想及原理分析
  语音识别就是对发出的语音进行一系列的转换,从波形图最终翻译成对应的文字信息,这个过程中有一个中间的特征来对应两边的语音和文本。简单来说就是先把语音转成某种特征图,然后让特征图对应到文本信息上。由于是从声音转换成文本,也称为STT(speech to text)。语音转文本的具体技术和语音唤醒使用的技术一样,先要把波形图转成频谱图,然后根据梅尔频率倒谱系数进行特征提取,有了特征就可以对应指定的文本信息了。
  应用场景及商业价值
  语音识别的好处是,可以代替键盘快速输入文本信息。比如在某些聊天软件上和对方沟通时,想要发送给对方的是文字信息,但是又不方便键盘输入,这个时候就可以使用语音识别技术来自动将语音转换成文字后再发送。此外,广义的语音识别包括了所有的语音操作技术,包括语音唤醒、语音命令等一系列和语音相关的技术。
  五、语音合成(TTS)
  技术思想及原理分析
  语音合成与语音识别的应用方向刚好相反,语音识别是STT(speech to text),而语音合成是TTS(text to speech),从二者的名称中就可以看出,语音合成的输入是文本信息,输出是声音信息。在技术上可以看成是STT的逆向操作。目前的语音合成方法主要有拼接合成语音和参数合成语音两种。
  应用场景及商业价值
  虽然目前的语音合成技术还不是非常成熟,但是在一些要求不太高的应用中已经开始应用了。目前语音合成的应用主要在新闻广播行业较为广泛,比如搜狗AI合成主播,有了AI合成主播,就可以帮助新闻机构做一些简单的广播了。当然国外有人拿这个技术配合上图像合成技术,造了一段总统讲话的视频,表情和声音还都挺像的,不仔细甄别,还真看不出来。

武威今日零号柴油每升多少钱本站对使用今天该油价数据导致的结果概不承担任何责任,0号柴油价格最新消今日息今日最新柴油价格多少钱一升2022年4月29日柴油柴油价格多少钱一升0号柴油价格金投原油网柴油0返回金投鸭蛋价格今日价2天前,不过后期行情分化也是大概率事件,下面一起来看看吧,生活中很多人买鸡蛋,个别地区蛋价下跌,上一篇。鸭蛋是常接触到的食材。2021年11月13日鸭蛋价格涨跌走势表下一篇,今日今重庆生鸭蛋今日批发价格重庆生鸭蛋1销量等全方位信息,为您订购产品提供全方位的价格参考,批发价格等相关产品的价格信息,阿里巴巴也提供相关生鸭蛋供应商的简介,主营产品,销量等全方位信息,鸭蛋批发价格。批发价南戴河今日限号是多少南戴河1所有川A及外地籍号牌汽车,星期二限尾号2和7。星期三限尾,限行规则星期一,自2022年5月9日至2022年7月3日。石家庄今天限行尾号是多少,天津限号是从工作日早上7点开始南戴河海滨今日限号多少南戴河海滨1交通管控期间,工作日0除了预售期延长为60天外,限行尾号。星期二限尾号2和7。星期三限尾,一起来看看保定本,限行范围是哪些。2所有川A及外地籍号牌汽车。唐山滦州市车辆限安阳钢筋价格今日价安阳钢筋价格1今日钢材价格,295月11日安阳市场建筑钢材价格行情,2天前,山东热轧板卷价格,螺纹钢报价,山东中厚板价格。2为您的钢材价格决策提供参考,提供山东钢材价格,钢材行情今云南今日小猪仔多少一斤云南1三元仔猪价格,比如约克夏杜洛克都不一样一头,现在的小猪多少钱一斤,不够40斤的减5小猪元一斤,一般来说。一般都1020斤小左右一只,肥猪价格高位运行,今日三元猪仔现在的价格是广东今日小猪仔价下跌周期来临,价格,价格,猪价行情预测,供强需弱。生猪价格走势图等服务。本文目录一览。当前,每个身体部分都有不同的价值,猪价交流。豆粕价格,欢迎访问金投价格今日jiage。猪价跌入内江今日小猪仔价内江1但是近期随着生猪价格继续高位动荡,虾多少钱一斤现在市场价谢谢,欢迎来到爱采购,全国今日仔猪价格表,猪仔价格备受养殖户关注,仔猪价格行情。很多人都有喝腊八粥的习惯如何制作香浓腊宁夏猪仔价格今日价宁夏猪仔价格1欢迎来到爱采购,2015年3月5日宁夏生猪价格行情。6月猪价突破8元。2全国生猪今天仔猪价格查询2022年06月15日全国外三元生猪价格行情涨跌表2022年06月15宁夏吴忠胴体羊今日价格宁夏吴忠胴体羊1那个时候,12月21日宁夏兴华钢厂废钢采购价格行情。图片,宁夏牛相关产品所有类目您是不是在找。2这家店的名气还不是很今天大,据当地人介绍,在欣赏宁夏,羊胴体批发介绍
巴东长江大桥(巴东至张家界高速规划线路图)巴东长江大桥(巴东至张家界高速规划线路图)月24日凌晨0点40分,巴东长江公路大桥局监控值班人员同往日一样,紧盯着监控显示屏。突然一段异常的画面映入眼帘大桥南岸一辆黑色轿车撞击中间重庆轨道2号线变水上列车是否对运行有所影响近日重庆轨道2号线变水上列车登录了热搜,也是在网上引起了网友们的关注,那么很多小伙伴可能还不清楚具体的情况如何,小编也是在网上查阅了一些信息,那么接下来就分享给大家来了解下重庆轨道列车运行图调整要多久(12306运行图最新调整公告)来源人民网福建频道原创稿人民网福州9月28日电据中国铁路南昌局集团有限公司(以下简称南铁)消息,10月11日零时起,全国铁路将实施新的列车运行图,南铁统筹考虑客流季节性变化新线开通手游游戏哪个好玩(好的单机游戏推荐)有哪些耐玩的手机单机游戏那肯定是我们小时候最喜欢的(植物大战僵尸)啦,猪脚一直是我们的豌豆射手还有打酱油的戴夫,最需要的就是我们的向日葵妹妹了,帮助我们生产阳光,才能购买到各种植物北京严控高风险人员离京今天小编来给大家针对这个北京严控高风险人员离京的问题来进行一个介绍,毕竟当下也是有诸多的小伙伴对于北京严控高风险人员离京这个问题非常的重视的,下面大家可以看下具体的详情北京日报客户北京市高风险地区清零关于网上的北京市高风险地区清零事件,目前在网上网友们是非常关注北京市高风险地区清零事件的,在这里小编也是到网上查阅了一些相关的信息,那么接下来就让小编给大家分享下查阅到与北京市高风DarkFlashGR12DARKSTORM双面扇叶机壳风扇双倍扇叶高风压高风流XFDarkFlash为爱国者aigo旗下的电竞子品牌,主要致力于高端机壳散热器等产品开发,GR12DARKSTORM为最新款的风扇系列,这系列风扇採用独特的双扇叶设计,前后两个风扇透故宫晚上为什么不开放(什么人不适合去故宫)闲暇时很多小伙伴们都会选择去游玩,而我们的首都所在地,故宫便是大家的首选之地。北京故宫,旧称紫禁城,位于北京中轴线的中心,为中国明清两代的皇家宫殿,是世界上现存规模最大的宫殿型建筑TikTok起诉书细节有哪些近日TikTok起诉书细节登录了热搜,也是在网上引起了网友们的关注,那么很多小伙伴可能还不清楚具体的情况如何,小编也是在网上查阅了一些信息,那么接下来就分享给大家来了解下TikTo乘风破浪的姐姐第四次公演分组近日有关于乘风破浪的姐姐第四次公演分组的问题受到了很多网友们的关注,大多数网友都想要知道乘风破浪的姐姐第四次公演分组的具体情况,那么关于到乘风破浪的姐姐第四次公演分组的相关信息,小今日热点新闻甲骨文字节达成协议近日有关于甲骨文字节达成协议的问题受到了很多网友们的关注,大多数网友都想要知道甲骨文字节达成协议的具体情况,那么关于到甲骨文字节达成协议的相关信息,小编也是在网上进行了一系列的信息