快生活 - 生活常识大全

专门用途英语小型多模态语料库的构建


  葛艳青 陈兆军
  【摘 要】多模态语料库在多媒体交互技术支持下收集音频、视频等语料,全面记录语言运用的真实语境,从多个模态分析语言在语音、语义、语用等方面的全貌。专门用途英语小型多模态语料库的提出具有新颖性和必要性,对专门用途英语教学具有改革意义。
  【关键词】多模态语料库;专门用途英语;Elan软件
  一、引言
  专门用途英语(English for Specific Purposes, 简称ESP),是指与某种特定职业或学科相关的英语,当前ESP语言分析方法还局限于针对单一模态的语言本体的分析与研究,其教学活动还囿于"语法-翻译"法为主的静态的信息输出模式。[1] 多模态语料库的建设及相应研究已成为语料库语言学的新起之秀,堪称语料库的4.0版。[2] 传统的语料库多以文本为语料,多模态语料库不仅具有传统的文本,更具有音频、视频等以多种模态形式存在的信息,语料中蕴含的多种信息为语言教学及研究提供了丰富的资源。现阶段的专门用途英语语料库主要是文字语言单模态的语料库,那么构建专门用途英语小型多模态语料库,可以完整地记录下语料的多模态信息,更好地从多模态理论视角对专门用途英语展开研究。
  二、专门用途英语小型多模态语料库的建设构想
  专门用途英语不仅要关注普通的语料文本,更要关注相应的学科知识,对语料库研究提出了新的挑战。当代专门用途英语语料库表现出三大发展趋势—语料库的专门/小型化、语料数据的(交际)多模态化和语料库的本土化。[3] Sinclair早在2003 年的语料库语言学国际会议上指出,大型语料库建设的势头已缓,取而代之的是小型语料库。在努力建立超大型的、综合性的语料库的同时,建立更多的、具有专业性的和相对较小的ESP语料库将是未来语料库语言学发展的趋势。[4]
  (一)确定构建的软件平台
  多模态语料库的建设需要借助文本、音视频等处理技术和数据管理与检索技术。言语、手势和身体姿势等多模态话语研究均可在ELAN软件的帮助下完成,此软件也可适用于多模态语料库建设。[5] 国内多模态语料转写与标注大多使用ELAN 这款工具。此软件在话语分析、态势语研究、语言存档、口语语料库建设等方面被广泛使用[4]。通过文献考察和初步试用,我们认为ELAN因具有的特点比较适合用于专门用途英语多模态语料库建设。
  (二)语料的收集
  在确定该语料库语料的来源过程中,要依据专门用途英语的特点,要选取具有针对性、代表本专业领域英语语言特征的语料,注重不同类型语料分布的合理性。要在本专业领域内的英语真实会话文献,相关专业领域信誉比较高的专业教材,尽量覆盖研究内容的各种情况,选取具有代表性的语料。语料的选择过程中,要能够最大限度地反映相关专业的语言特征、体现其话语的真实性。在本专业领域英语真实会话交际中,语料包括专业教材、工具书、会话文献、专业论著等材料,它们的分布不同,因此语料的选择比例也要尽量与专业化的实际情况相一致,以便增强专门用途英语语料的实用性。例如:具有专业特征的高频度词汇、语篇中的句式、修辞特征等要素的分析,则可以对本专业英语句法的构成规则进行梳理。
  (三)元数据的创建
  多模态语料的创建过程中,通常要根据研究需要赋予语料一些具体的信息,首先需要确定用于描述语料属性的元数据规范,将收集到的语料分门别类地打上标签。语料库的建设需要取样语料具有代表性,话语产生的环境及说话人的背景等信息都会影响多模态分析,这些信息就是语料的元数据(也称元信息(Meta-data)。针对专门用途英语各学科领域的特点,在语料库建设中,既需要标记这些语料的共有属性,也需要针对每一类语料制定其特有属性。首要要利用工具Arbil创建该语料的元数据,主要标注语料的性质,主题,时间,地点、长度等信息,创建新的元数据文件。然后以IMDI保存元数据文件。最后,用ELAN等软件对特定音频、视频语料按着一定的要求进行切分与标注。
  (四)语料的切分与转写
  由于多模态语料库的特殊性,语料切分是多模态语料加工中的一个难点。ELAN软件中的切分单位通常是以音频、视频中话语的停顿而构成的片段为分割。ELAN软件提供了比较方便的转写界面,软件会自动播放切分片段的语音,转写人员可以把所听到的内容在界面中直接输入。完成转写后,然后将语料保持并以某种格式(包括Text Grid、TXT等)输出。然后对输出语料进行分词,再重新录入或导入到ELAN等软件中。最后如实、详尽地将语音转写为文本,这需要在初步转写少量多类型语料的基础上制定一个转写规范,并随着语料的丰富和转写的深入不断修订。
  (五)语料的标注
  在标注过程中应特别注意"标注集的科学性和可靠性,尽量避免主观性和片面性,使语料库的标注尽可能地反映语言的真实面貌;特别注意语料库标注集的标准化和规范化,提高标注结果的共享程度" [6]。Elan等软件支持对音频和视频文件的多层标注,建设专门用途多模态语料庫时可以依据据语料库的检索需求设定详细的标注信息。
  三、结语
  专门用途英语小型多模态语料库的构建,有利于由单模态向多模态深化发展,能够实现和保证语言材料的真实性,提供大量真实语境中的真实会话、专业文献等案例的使用,突出专业性和实践性,为专门用途英语教学研究提供了一种新的手段和方法,为学生个性化学习、碎片化学习、探究式学习提供资源支持。
  【参考文献】
  [1]刘宇. 多模态话语理论观照下的专门用途英语教学模式研究[J].成都航空职业技术学院学报,2012(2):32-34.
  [2]黄立鹤.语料库4.0:多模态语料库建设及其应用[J].解放军外国语学院学报,2015(3):1-7.
  [3]黄大岗,秦羿,徐赛颖.专门用途英语语料库:挑战、理据与愿景[J].宁波大学学报(人文科学版)2010(5):48-51.
  [4]崔维霞,王均松.国内学科专业语料库研究现状及发展趋势[J].西安外国语大学学报,2013(1):55-58.
  [5]张振虹,何美,韩智.大学公共英语多模态语料库的构建与应用[J].山东外语教学,2014(3):5O-55.
  [6]冯志伟.语料库与计算语言学研究丛书[M].北京:世界图书出版公司,2013.
网站目录投稿:采珍