针对房产中介平台无法及时获取成交信息的现象,语音识别关键词的应用能够有效解决这个问题。不过,你知道获取关键词后的筛选与识别是怎么做的吗?正文将为你揭晓答案。 近年来随着互联网、GPU/CPU硬件的发展,语音识别的准确率有了很高的提升,并开始在商业上进行应用。不管是国内百度的小度助手,还是Google Assistant、亚马逊Alexa,早已不再满足于"语音助手"的身份,在功能上开始向语音对话、内容服务、IoT设备管理等方向演进,几乎所有的互联网巨头都对语音势在必得。 人工智能慢慢步入了我们的生活,为我们带来便利的工具值得去挖掘。语音识别技术在房产市场是如何应用的呢?除了语音助手外,期望能通过语音识别功能帮助业务提升效率。本文复盘了语音识别关键词在房产中的应用,以此总结项目中的收获和不足,也期待对您有所帮助。 平台供给房源,但房源成交后,不能及时获取成交信息。所以需要从房主、经纪人、平台三方去考虑如何获取到成交信息: 从房主切入,可以在房主小程序/APP提供房主停售的入口,也可以通过短信或者模板消息触达到房主,提醒房主若有成交,及时反馈给平台。 从经纪人切入,可以提供反馈机制,通过成功反馈赠送积分的方式,激励经纪人主动反馈。 从平台切入,平台已通过阿里的虚拟号,获得经纪人和房主的通话录音,可通过语音转文字识别出疑似成交的房源。 语音转文字 为保护房主隐私,平台从阿里购得AXB中间号,阿里提供通话录音及转文字功能,识别的文字通过接口回调到平台,依赖于阿里转文字效率,所以文字识别会有时间延迟,在识别策略中,会考虑时间的因素。有了文字后,下一步要提取关键词,识别成交房源。 关键词识别分析 1. 目标:通过录音关键词识别出成交的房源。 2. 指标:召回率和准确率是对策略质量评估的方法,可以通过召回率、准确率、误判率等检验上线后的质量评估。召回率代表策略对问题的解决程度,而准确率、误判率代表策略有没有带来其他伤害。 召回率=识别总数/理想成交数 准确率=识别成交数/理想成交数 误判率=误判数/识别总数 3. 影响因素: ①录音转文字的准确度 ②关键词的准确度 ③经纪人拨打电话的频次 ①和③受外部因素制约,本次版本暂时不考虑,重心放至关键词的准确度上。 4. 需要人工干预:由于以上三个制约因素,识别的结果不一定100%准确,平台需要安排专职人员对识别结果进行人工判断,防止误判。 提取关键词 拉取3000条录音转文字数据,用Excel初步分析,过滤不需要的重复词,例如语音词、象声词、问候词等,再用Wordart(https://wordart.com/)分析,找到关键词。 1.0版本 1. 关键字提取时间:通话录音转换文字成功后,每30min对未处理的内容识别一次。 2. 识别策略:若录音内容中,涉及如下关键字,则认为该录音命中"疑似成交"关键词。 ①卖完 ②已经卖了 ③暂时不卖 ④我不卖了 ⑤卖了好久了 ⑥早都卖了 3. 增加人为审核操作,并记录处理人和处理时间 4. 识别结果中展示识别文本和录音,可随时校验结果 策略质量评估 1. 召回率、准确率和误判率分析 对上线后一天的数据进行了分析,召回了25条数据,其中19条命中成交,6条误判,还有7条数据没有识别出。 对误判数据进行分析,"卖完"这个关键词出现在误判里的频次很高,针对该关键词,下一步需要优化识别策略。 对未识别数据进行分析,"卖了"这个关键词出现的频次很大,但这个关键词争议较大,会出现在经纪人的问话中,例如:"您卖了吗?"如果用它识别,误判率会很高。 2. 功能问题 ①同一房源存在多条录音,每条录音都要处理,较繁琐。 ②平台上房源下架有统一接口,所以审核和下架是两个分开的功能操作,审核房源后,遵循排序规则:待处理>已处理,数据自动下沉,寻找当前房源做下架处理较繁琐。 ③处理状态没有显示在列表上,不能直观看见处理结果。 1.1版本 1. 规则优化 针对1.0上线,拉了1000条录音进行分析,发现显性关键词命中率很高,所以优先判断显性关键词,若无显性关键词,通过非显性关键词和时间维度去判断,一般房子卖了,经纪人的通话都会很短。 ①判断文字中是否有以下关键词,若有,则认为疑似成交: 已经卖了、暂时不卖、我不卖了、卖了好久了、早都卖了、先不卖了、不想卖了 ②若无上述关键词,则判断语音时长,若时长<1min,且包含下列关键词,则认为疑似成交: 不卖了、卖了、卖完、没有了、撤了、下架、取消 2. 功能优化 (1)状态优化:列表显示状态"未处理、已成交、未成交"3种。 (2)若一个房源有多条未处理的数据,处理最近时间的一条,该房源所有之前未处理的数据状态变更为相应的状态,处理时间&处理人同理。 (3)列表刷新逻辑优化:完成"审核"后不刷新列表,仅变更状态、处理人、处理时间等相关数据。再次进入菜单,才刷新整个页面。 策略质量评估 召回率、准确率和误判率分析 对上线后一天的数据进行了分析,召回了26条数据,其中12条命中成交,14条误判,还有1条数据没有识别出。 通过上面的数据发现:增加非显性关键词+时间的识别,准确率增加,但是也召回了很多非成交数据,所以误判率也增高。虽然满足宁可错杀一千,也不能漏一个的原则,但还会拉更多的数据进行分析,优化时间维度的策略。 上述案例中,通过优化关键词策略,提高召回率,运用了策略质量评估方法,判断召回造成的影响,下一步要降低误判率。 在实际操作中,录音转文字的准确度影响也很大(见上图),我们也做了相关的数据统计,在未识别数据中,有30%的数据属于文字准确度不高导致的,这个无法避免,机器对噪音的抗噪性不够强,另外,语音识别并没有理解语义,若双方都用方言讲话,识别的准确率会更低。 语音识别,在这几年有了极大的发展,从算法到模型都有了质的变化,在加上语音领域(语音合成等)的其他研究,语音技术陆续进入工业、家庭机器人、通信、车载导航等各个领域中。本项目借助语音识别技术转文字,再通过文字关键词识别出成交房源,让语音识别在房产市场得到应用。