快生活 - 生活常识大全

对外汉语学习产品需求文档


  迄今为止,真正有利于中华文化传播的产品少之又少,为什么英语学习工具内容多样且可定制化,而没有一款内容和体验与之匹配的汉语学习工具呢?
  说明:
  第三块的 3.2-3.4 属于技术理论,参考了字节跳动的内容推荐机制,非常棒的功能实现,表示膜拜……其他内容都是我从行业和自我体验中启发的,现在的汉语学习工具基本是以字典形式服务于用户。我个人很推崇 Rossetta Stone,当初能快速掌握菲律宾语还要感谢 YouTube 的优质分享内容。结合自我的学习经历,语境和应用非常的重要。为什么英语学习工具内容多样且可定制化,而没有一款内容和体验与之匹配的汉语学习工具呢?
  一、项目背景
  截止2018年底,全球学习汉语的人数超过1.5亿,全球掀起的汉语热让不少汉语学习工具出现并发挥作用,但迄今为止,真正有利于中华文化传播的产品少之又少。
  经过调查,大多数线上汉语学习应用软件可分为两类,第一类是搭配语音或笔画书写的英汉-汉英词典工具,方便用户查找生字,了解词义。第二类是根据HSK(测试母语非汉语者的汉语水平的国际汉语能力标准化考试)级别分类,推送不痛不痒的内容资讯平台。另外,虽然在YouTube、Facebook上有不少关于汉语乃至中国的内容,存在部分优秀的UGC内容,但整体内容质量褒贬不一,题材真实性不确定,但作为汉语爱好者,为找到优质内容来学习,无疑增加了工作量。
  在今天,不少中国的互联网产品走向世界,他们通过大量的假设与验证保证自身产品的本土化,满足当地使用人群的需求,但在内容上对于中国文化输出的贡献却寥寥无几。英语学习应用软件多种多样,但汉语学习软件的种类和内容丰富度却乏善可陈。另外,中华文化博大精深,中国掌握着重要的国际话语权,近几年,中国的强大使不少西方国家的政治家大肆宣扬中国威胁论。在这样的环境背景下,我国更需要拥有良好的文化输出端口,互联网应用正是一个非常好的契机。
  与其说对外汉语听看App是一款学习工具,不如说是一款汉语应用与中华文化输出平台。我们的目标是直接触达国际上的汉语爱好者,不仅让他们了解中国的现在,也了解中国的过去,由此增进他们学习汉语的乐趣。我们不会简单地将一部字典装入用户的口袋,对用户的其他需求置之不理。通过运用人工智能领域的机器学习算法,我们将向不同的用户推荐他们真正感兴趣的内容,在初期阶段做到千人千面。
  我们的目的在于提高用户学习汉语的乐趣,集结大量优质生动的汉语材料,包括视频、音频和文字内容,结合用户的个人标签与行为偏好,展现好玩有趣的在线汉语文化内容,后期将可能鼓励用户自主发布内容,通过机器学习与用户行为数据定制排序模型,推进社区分享良好运作,打造优质的汉语文化多媒体分享平台。
  汉语正成为国际化程度发展最快的语言。随着中国经济的快速发展、对外交往的日益广泛和国际地位的不断提高,世界各国对汉语学习的需求与日俱增。据统计,近年来,学习汉语的人数不断增加,世界上把汉语当作外语学习的人数已经超过1亿,有100多个国家的2500余所大学和越来越多的中小学开设了汉语课程。
  二、用户定位
  作为母语非汉语的学习者,在汉语学习中常常遇到发音声调不准确,词义理解不清晰,语言表达不到位等问题,甚至于多年的汉语学习者,包括长年居住在中国的外国友人,对汉语交流中的文化理解与行为表达上还有很大的改进空间。
  根据多位专业的汉语教师反馈,造成汉语学习困难的原因可归类为汉语音调多变、汉字数量大、近义词多、词义多变、学习者理解不到位等,汉字除了常用的4500字外,还有生僻的繁体字、方言文字、多音字、谐音字等,因此,汉语词义的理解与发音是学习者需要攻克的难题,汉语听力和阅读是汉语学习过程的重要环节。
  在应用中了解语义,通过了解中华历史与文化有助于学习者快速掌握汉语知识,与我们小时候的语文课通过课文理解了解词义和发音类似,所不同的是,内容表现形式更丰富,不限于文字,还有视频和音频,更能提高学习者的兴趣,且响应了互联网用户在碎片化时间的使用需求,打造除了学校与职场之外的第三汉语应用与文化学习平台。
  同时,通过学习,能够流利使用汉语沟通交流的外国友人分享如何学好汉语的方法,与我们的产品定位不谋而合。
  模仿:丢掉母语,从0开始
  环境:多和本地人交流,了解文化
  看电视:提高听力和口语
  学歌:汉字变成拼音
  纠正:及时纠正,手机查询,朋友纠正
  一颗想学好的心
  花时间和不断重复
  分析用户的汉语学习动机和学习内容,从用户对汉语学习的阶段考虑,目标用户主要分为正在学习汉语的用户、想要学习汉语的用户与对中华文化感兴趣的用户,他们在汉语学习中、在语言交流中、在文化认知中遇到哪些问题将是我们关注的重点。
  用户.png
  三、产品详情
  产品的业务目标为全球的汉语爱好者提供更多汉语材料以丰富汉语学习语言环境。
  用户与产品管理
  3.1 内容选材
  内容展示根据题材分类,大致可分为下图:
  KnowMoreChinese内容选材.png
  我们知道,中国的国粹包括刺绣、剪纸、围棋、瓷器、茶道、汉服、京剧、中医、武术、书法、麻将、京剧、国画、医学、烹饪等,中华文化丰富度极高,可展示的内容选择性高。这些内容有助于中华文化传播与汉语学习,另外除了《舌尖上的中国》,还有母语非汉语的网红创作者的分享内容,部分内容示例如下:
  网红博主:MYBY孟言布语、歪果仁研究社等
  纪录片:《舌尖上的中国》《功夫少林》等
  动画:《哪吒传奇》《西游记》《狐妖小红娘》等
  歌曲:《盗将行》《生僻字》《千字文》等
  3.2 学习能力分析
  推荐内容前需要先了解用户对汉语的掌握程度才能定向推送。引导新用户完成语言测试是内容推荐的前提,这里我们不会让用户进行复杂的测试,只是通过数量十道以内的题目了解用户的汉语听说读写能力与汉语词汇量,根据选择结果评级,方便后期推送用户能快速理解的内容,让用户免于学习疲劳。通过评级测试与用户阅读数据,可以调整推荐排序模型,更加精准推送内容。
  产品学习路径
  3.3 内容推荐
  从用户、环境与内容三个维度拟合出用户对内容满意度的函数,第一个维度是内容,提取不同内容类型的特征做好推荐。第二个维度是用户特征,包括各种兴趣标签,职业、年龄、性别等,还有其他模型刻画出的隐式用户兴趣等。第三个维度是环境特征,用户在工作场合、通勤、旅游等不同的场景,信息偏好有所偏移。结合三方面的维度,模型会给出一个预估,即推测推荐内容在这一场景下对这一用户是否合适。
  推荐模型中,点击率、阅读时长、点赞、转发都是可以量化的目标,能够用模型直接拟合做预估,依据线上提升情况及时掌握推送效果。如果我们服务用户众多,在指标评估的基础上,其他要素如广告和特型内容频控,要考虑吸引用户回答为社区贡献内容。内容和普通内容混排的效果如何频控等问也需要考虑。处于维护内容良好生态和社会责任的考量,对低俗内容的打压,标题党、低质内容的打压,重要新闻的置顶、加权、强插,低级别账号内容降权都是算法本身无法完成,需要进一步对内容进行干预。
  典型的推荐算法有协同过滤模型,监督学习算法Logistic Regression模型,基于深度学习的模型,Factorization Machine和GBDT等。推荐系统依靠灵活的算法实验平台,支持包括模型结构调整的多种算法组合,根据业务场景不同,模型架构会有所调整。
  典型推荐特征包括相关性特征,环境特征,协同特征和热度特征。
  典型推荐特征
  提取特征后进行模型训练,使用Storm集群实时处理样本数据,包括点击、展现、收藏和分享等,每收集一定量的用户数据就更新推荐模型,将涵盖原始特征和向量特征的模型参数存储在高性能服务器集群中,线上服务器记录实时特征,导入到Kafka文件队列中,然后进一步导入Storm集群消费Kafka数据,客户端回传推荐的label构造训练样本,随后根据最新样本进行在线训练更新模型参数,最终线上模型得到更新。
  另外,随着用户量和内容量的增加,为缓解模型统计负担,避免所有内容全部由模型预估,需要设计一些性能极致的召回策略对内容做截断,从内容库中高效地筛选符合用户口味的部分内容。推荐模型的特征抽取与找回策略都需要用户侧和内容侧的各种标签,所以内容分析和用户标签挖掘是搭建推荐系统的基石。
  特征提取与分析
  内容分析包括文本分析,图片分析,音频分析和视频分析,作用不限于用户兴趣建模,帮助内容推荐和生成频道内容。除了语义标签外,还需要考虑时空特征和质量相关特征,单依据协同特征不好把握内容分析粒度,内容粒度越细,冷启动能力越强,每个层级粒度不同,要求也会随之变化。
  相比单独的分类器,利用层次化分类算法能更好地解决数据倾斜的问题,元分类器类型可包括SVM、CNN与RNN的协同算法,例如文本分类的实体词识别算法,基于分词结果和词性标注选取候选,期间可能根据知识库做一些拼接,确定某些词汇结合效果能映射实体的描述,如果结果映射多个实体还要通过词向量、主题分布甚至词频本身等去掉歧义,最后进行相关性模型计算。
  3.4 用户标签
  用户标签主要包括兴趣特征、身份特征和行为特征。用户标签建立相关的数据处理策略较多。噪声过滤,通过停留时间短的点击,过滤标题党。热点惩罚,对用户在一些热门文内容上的动作进行降权处理。理论上,传播范围较大的内容,置信度会下降。时间衰减,用户兴趣会发生偏移,因此策略更偏向新的用户行为,随着用户动作的增加,老的特征权重会随时间衰减,新动作贡献的特征权重会更大。惩罚展现,如果推送内容没有被点击,相关特征(类别,关键词,来源)权重会被惩罚。与此同时,考虑到其他因素影响,全局背景,相关内容推送量的多寡,以及直接跳出和不感兴趣信号等也是重要参考依据。
  特征分类
  批量计算框架,每日抽取昨天的日活用户过去的动作数据,前期可使用Hadoop集群上批量计算结果。随着用户数增加,兴趣模型种类和其他批量处理任务都在增加,涉及到的计算量加大,需要采用流式计算框架,使用Storm集群实时处理用户动作数据,每收集一定量的用户数据就重新计算一次用户兴趣模型,用高性能存储系统支持用户兴趣模型读写。
  用户标签的搭建
  3.5 评估分析
  对推荐效果可能产生影响的因素包括候选内容集合的变化,找回模块的改进与增加,推荐特征的增加,推荐系统架构的改进,算法参数的优化与规则策略的改变等,纪要兼顾短期指标也要顾及长期利益,保护用户与生态平衡,注意协同效应的影响。
  四、功能详情
  产品立足为内容多样且丰富的汉语传播与语感培养工具,我们要让用户觉得实用好用,值得信赖。界面展示直观明了,不需要太多操作,用户打开即可看到推送的内容,选择播放或下一个,还可以收藏起来,另外通过用户的喜欢、收藏和不感兴趣,我们也能进一步了解用户喜好,进一步改进内容标签与用户标签,让后期的内容匹配更精准。
  功能框架
  4.1 注册与登录
  用户首次打开应用,出现注册与登录页面,通过手机号码或邮箱账号生成账号ID,设置密码,选择性别和出生年月,上传头像完成注册,注册成功后直接登录,进入应用。其中键盘输入的信息需要进行格式判断,密码必须为6-18位的字母与阿拉伯数字组合。昵称输入只能由字母或阿拉伯数字,字母开头,至少含有3个字母,不支持特殊字符,需要屏蔽敏感字符。出生年份的范围为1940-2019年。
  注册与登录原型图
  4.2 听观感功能
  内容主要以视频、音频和文字这三种主要的多媒体形式展示,主要通过视觉和听觉对让用户了解汉语与中华文化。首页展示除了搜索外,还有视频、音频和文字三种媒体分类,用户可以自由切换媒体类型,通过喜欢和不感兴趣选项抒发自己对内容的喜好程度,将喜欢的内容收藏方便后期浏览。
  首页的原型图
  4.3 内容智能推荐
  不同内容对用户的吸引力度也不同,影响用户学习的因素不限于用户的年龄、汉语学习动机、当前汉语水平等。推荐机制大致为根据用户在注册时候完善的性别和年龄信息,向其推送内容,同时结合用户所使用的设备版本、地理定位、使用时间段等信息打标签,将具有同类标签的用户浏览历史进行筛选出重合度较高的内容,向该用户推荐。
  我们将定义用户标签与内容标签,通过算法将二者标签匹配,通过模型训练校正标签定义。
  五、后台管理
  用户使用产品的历史数据信息将及时反馈到后台管理系统,这有助于产品运营策略的拉新、促活和留存,有助于产品未来的迭代方向与功能调整。
  同时,我们将为用户提供哪些内容分类,重点推荐哪些内容,内容更新频率与浏览数量的关系如何平衡等这些与内容填充相关的问题也需要有效管理并通过用户使用情况进一步调整。我们的后台管理系统初版可分为账户管理、内容管理和商业收益三大模块。
  5.1 账户管理模块
  用户以访客身份访问并首次注册,从首次登录到最近的登录时间与访问时长等数据信息的记录,将有助于我们了解用户的基本信息与使用习惯,从记录每位用户的浏览记录到分析大范围的用户活跃度情况,账户管理可以帮助我们更加了解我们的用户。
  个人用户的基本信息如下图:
  用户信息记录
  5.2 内容管理模块
  内容的质量和数量将影响着用户体验,除了内容分类与库存管理外,我们还需要了解用户对内容的消费情况,主要体现在内容的被浏览量、点击量、被推荐量、被赞量等,结合用户管理可以推出有效的产品运营和产品迭代策略。
  内容管理记录
  5.3 商业收益模块
  免费内容,类似于今日头条、网易云音乐、漫中文这种资讯推送类的是可免费获取。 收费内容则更有针对性针对于用户的购买,推送有版权、去广告和更有针对性的内容,并有检查作业等feedback功能。
  六、用户运营
  产品运营需要吸引新用户,维系老用户,主要分为日常运营和活动运营。
  日常运营:汉语爱好者一般对中华文化习俗、建筑艺术等有较浓的兴趣,通过中国特色节日或文化名人如孔子为主题定期推出一系列的信息科普与文化传播。
  活动运营:当用户使用产品一段时间后,对汉语和中国文化有一定了解,此时推出竞答活动,用户通过几道选择题测试自己的汉语水平,看到测试排行榜,了解自己的段位,还可以推荐朋友来测试,引发传播。
  七、商业化
  内容与工具型产品的商业化,从应用内可以有商业广告合作、衍生实体产品营销与增值服务三种方式。 商业广告可分为开屏广告和应用内广告,开屏广告的合作方主要为品牌商,在协定日期内展示海报。应用内广告投放依据用户标签定向推荐,更精准地面向用户群,呈现样式与内容接近,减少用户对广告的敏感感知,尽量不影响用户体验。
  衍生实体产品主要与中华文化、汉语学习相关,对用户是有说服力且会产生购物欲望的,可以通过限量小规模试验,营销反响效果好的情况下再推出其他产品,同时不会因滞销导致库存积压。 增值服务的需求来源于用户的使用反馈,涉及到产品后期的功能变化,同时需要运营协助。产品功能支持用户通过眼看耳听来学习汉语,增值服务可以通过手动如找不同、选择或排序等巩固汉语学习。
  八、结语
  产品初期的功能布局以简洁高效为主,内容建设以质优易懂为主,让用户使用产品,依赖产品并相信产品,打造汉语学习优秀内容平台。
  以后的某天,我回看自己的这篇文章会觉得当初自己的水平真的有限,不够好,但是这个想法可以被实现,可以帮助更多的汉语学习爱好者。
网站目录投稿:安晴