快生活 - 生活常识大全

大数据时代数字图书馆面临的困境与出路


  【摘要】伴随大数据时代的来临,客户对信息资源的需求与日俱增,因而图书馆的信息存储和配套服务也发生了明显的改变。为数众多的非结构化数据和半结构化数据剖析及发掘内含的价值将会成为图书馆的重要业务。在此形势下,图书馆的服务形式也应当作出相应的调整。
  【关键词】大数据时代;数字图书馆;困境;机遇;信息存储
  "大数据"一词最初于《自然》杂志中出现。3年后,美国McKensey公司发布对大数据问题的相关研究报告,指出数据已经广泛存在并应用于世界各行各业中,被看做是一种重要的生产要素。统计显示,人们对海量数据的充分利用和挖掘,有力地推动着新一轮生产率的显著提升及消费者盈余浪潮的出现。事实证明,大数据不仅被应用于物理、生物等基础科学领域,其在通信、军事等方面也已受到极大的关注。例如,Farecast系统对美国航班票价的前瞻预测。我国的淘宝网是B2C系统的翘楚,它采用大数据分析手段,获得了史无前例的销售总额。因此,企业已将大数据当作一种具备巨大潜能的生产力。IDC检测显示,世界数据量每两年翻一番,说明近两年生成的数据量等同于以前生成的所有数据量,大数据从本质上转变了各行各业的数据使用方式。
  一、大数据时代的数字图书馆
  (一)大数据的主要特征。如今"大数据"已被广泛用于描述结构化及非结构化数据。此类数据容量庞大,结构较为复杂,难以用常规的数据库及软件技术开展存储和后期处理。它的特点通常被归结为4个"V",显示容量、速度、多样性和价值四个维度。其中,容量(Volume)正逐渐扩大数据集合的规模。速度(Velocity)所指向的数据一般依照数据流的形式动态出现,时效性较强。多样性(Variety)指向的大数据种类很多,它涵盖了结构化、半结构化和一些非结构化的数据类型。价值维度(Value)指向的数据量丰富,有潜在的巨大经济收益。大数据帮助人们更新自身的认知,有助于新的价值的创造。同时,大数据还能调整市场、组织机构,协调政府和公民的关系。
  (二)大数据和数字图书馆。数字图书馆以计算机技术应用、网络通信技术和数字化处理技术为基础,近年来在国内外蓬勃发展,硕果颇丰,不过仍有生搬常规图书馆功能、信息共享能力不足、特色功能不突出等缺陷,给其迅速发展带来了不利影响。随着大数据时代的来临,数字图书馆正不断突破自身局限,现阶段已发展为图书情报学研讨的重点。在世界信息发展史上,2009年,欧洲一些先进的数字图书馆与科研机构确立了合作关系,旨在提升互联网获取信息的简易度。2012年,美国正式启动大数据研究发展计划,硬性规定政府与大学、公司合作,以面对"大数据"时代的挑战。不少公司开始运用大数据来分析读者的阅读偏好及习惯,建立知识服务智能分析引擎,以便更好地服务不同的需求。例如,哈佛图书馆把"大数据"引进数字图书馆,定期公布大数据结果。此外,欧洲大国也在緊锣密鼓地进行大数据的存储、研究分析。
  二、大数据背景下数字图书馆面临的困境
  (一)数字图书馆和实体图书馆的"同质"问题。该问题主要体现在两个方面:其一是和实体图书馆资源同质性,其二是用户的同质性。研究发现,数字图书馆集中解决的问题为数据资源数字化、音视频信息的转换、存储和其它相关技术的深度拓展,但欠缺海量数据的深度加工和管理服务。另外,从长期发展趋势来看,数字图书馆必须对数字资源开展深层开发,更深入地挖掘、收集和利用初始数据,以期形成数据资源为主导的发展模式和方向。此外,技术的差距虽容易弥补,但收集数据的意识却严重欠缺。由此带来的对数据的重要性认识不足,严重制约着数字图书馆的进一步发展。在用户的同质问题领域,当前数字图书馆资源的内容一般为馆藏资源的数字化,实体图书馆用户存在普遍的同质化现象。此外,部分数字图书馆自有一套系统,不能完全走出实体图书馆的象牙塔,完成不同用户在信息领域的共享和使用。
  (二)数字图书馆存在非结构化的数据空白。大数据可分为两类:一为结构化数据,它存储于数据库内部,能够采用二维表的结构以实现。另一种为半结构化或者非结构化数据。常见的E-mail、办公文档、Web上各种形式的信息即为此类数据。目前数字图书馆集中于文献资料类数据库的建设,非结构化的数据明显不足,同时这类数据没有充足的大数据分析,使得数字图书馆难以有效渗入到企业等用户群体中。伴随着物联网、云计算、社交网等新型渠道与技术的拓展,涌入了大量的数据日志、E-mail、网络新闻等未经整理的信息资源。同时,数字图书馆并未对相关统计数据、书籍借阅情况进行加工处理,使得该种半结构化或非结构化数据明显不足。与此同时,统计结果显示到2012年,非结构化数据所占比例已拓展到互联网数据的75%左右。在大数据的背景下,大数据的缺乏易使数字图书馆沦为实体图书馆的象牙塔。对其分析技术的滞后,会使数字图书馆难以很好地融入用户的细节服务中。非结构化数据有待进一步开发,它能优化数字图书馆的资源结构,适应新时代发展的需要,进一步满足用户的需求。对此类大数据的分析,可展示传统渠道无法确定的重要关系,能够锁定更为深入、准确的用户,提升对用户的理解并采用智慧的解决方式,最终提升数字图书馆的市场竞争力。
  (三)数字图书馆存在于象牙塔中,缺乏创新激励。党的十八大以来,党中央高度重视技术创新,提出企业为主体、市场为导向,产学研结合的创新体系。反观当下我国的数字图书馆,仍然存在于象牙塔中,缺乏创新引导。数字图书馆建立的初衷本为实现任何人在任意的时间地点获取所需的知识。然而目前,大多数数字图书馆的服务是建立在门户网站的基础上。极少数字图书馆把其服务领域拓展到移动通信、电视网等网络平台,并开设移动图书馆等服务,并且其服务功能也相对有限。整体上看,我国的数字图书馆没有做到及时跟进用户的需求及习惯变化,创新理念匮乏,服务机制尚未真正建立,无法实现与业务流程的高度融合。数字图书馆被束之高阁,缺乏创新的活力。
  (四)数字图书馆无法满足新的研究需求。科学研究模式的改变,对数字图书馆提出了更高的要求。在海量数据、协同创新、第四范式等新理念的推进下,数字图书馆需要不断满足新的研究需求。大数据背景下的研究需求集中于数据驱动方面的探索,该研究注重面向问题本身、面向数字和模拟技术、面向决策支持,对创新有更高的要求。对数据科学的依赖,使研究更加关注数字图书馆的大数据利用效率。但是,当前数字图书馆在大数据应用方面明显不足,难以适应科学研究的需要。
  三、数字图书馆的发展战略
  (一)应用大数据转变数字图书馆的资源建设方式。数字图书馆应深入开发现有数字资源,一方面要注重各类半结构化或非结构化数据的建设工作,另一方面要加强对原有大数据的挖掘与收集,并采用适当的方式加以储存和利用,最终打造一条以数据资源为主导的发展新方式。第一,要加快对新型数字图书馆应用平台的开发利用,从而有效管理异质文档和元数据,实现对结构化和非结构化数据的统筹管理。第二,随着教育、文化、科研等领域逐步迈向信息化、数字化,社交网络等数字内容已逐步成为重要的信息资源。例如广泛使用的搜索引擎即为信息资源的组织者,使用谷歌、百度等开展信息查询已成为信息搜索的第一选择。因此,数字图书馆可学习搜索引擎对信息搜索的技术,对集成网络下数字元素统一开放。依照用户的要求对所需内容进行链接,将自己转变为信息社会知识服务的纽带。此外,积极建立有大数据特色的数据库。真正能体现不同图书馆的差别在于对图书馆所属单位或相关机构特色资源的开发利用。关于这一点,国内外已开始行动。例如美国国会图书馆推出的专题特色库、我国北大开发的历史地理数据库、拓片专题等。在大数据的背景下,数字图书馆需不断提升自身特色资源的开发与建设能力。信息时代数据呈几何级增长,新类别数据正不断出现。与此同时,数据结构亦日趋复杂。数字图书馆在新形势下正发生显著的变化。在日新月异的数字信息环境下,数字图书馆必须开放集成网络环境中的各项数字信息。
  (二)运用大数据推动数字图书馆的改革创新。大数据存在的意义并非容量大、形式多样,而在于一种全新的方式对数据开展存储、组织和分析,以此获得更多的价值。大数据的挖掘需要高速获得丰富的结构化、半结构化或非结构化数据。因此,大规模数据的不断增长,给图书馆自身基础设施建设提出了严峻的挑战。由于成本的制約,大数据使用机构在建设硬软件资源时向中低端大规模计算机集群倾斜。同时,具备复杂结构的数据对数据库的要求更为严格。如今,数据库的管理技术已日渐成熟,它能较好地应对结构化大数据。例如著名的Sq1 Server、Oracle等,都拥有突出的结构化数据管理能力,同时覆盖优秀的数据库功能,并且生成了比较稳定的模式和方法,对数字图书馆的资源揭示有重要的推动作用。此外,对相对复杂的非结构或半结构化的数据信息,有关数据管理拓展性方面的内容受到了很大的冲击,因而在大数据时代急需一批可以处理大型非结构化数据的操作工具及运行平台。目前以Hadoop为代表,其文件系统及处理模式能高效地管理各类结构化或非结构化数据,为数据处理提供便利。大数据独特的分析能力还能辅助数字图书馆拓宽业务范围,从传统的对资源及相关服务的一般检索转换到资源的深度聚合上,很好地满足了各类用户对情报的统计分析需求,实现对知识的探索评价。事实上,海量数据中包含着很多价值很高的情报信息。要想从繁琐的数据中发掘知识,找出其价值并积极利用,帮助人们更好决策,需要对数据开展非常规报表的深度剖析。人们不仅满足于了解当下发生的事情,还希望通过数据预测将来会发生何事,以使自己的行动更具主动性。例如对客户流失状况的分析。应用大数据分析平台还能推动可视化分析、图形分析、语义识别、数据管理等方面的发展,便于获取新知识。
  (三)以大数据为基础,提升数字图书馆的服务质量。一是提供个性化服务。随着时代的发展,用户更多地希望从海量数据中获得针对自己的个性化服务,由"个人计算机"向"个人计算"转变。个人计算存在很大差别,在大数据的支撑下数字图书馆能按用户的需求,开展深度分析及预测,并依据用户的偏好及特征推送相应的个性服务,这对数字图书馆的服务质量有本质提升。二是按需服务。大数据背景下数字图书馆的信息服务根植于用户的需求体验。通过用户的需求反馈,并非图书馆存在何种资源就利用什么资源,而应依据自身的需求,统筹管理数据库资源、网络资源等,创建涵盖物理图书馆的信息环境。大数据数字图书馆广泛应用了云计算、传感网等新兴技术,能做到快捷检索需要的数据,有利于知识的挖掘,在提供一般知识的同时,还传递了隐藏的有意义的信息。三是不确定性服务。这是大数据时代数字图书馆的重要特征。它与用户信息需求并非一一对应的关系,存在多种解释。针对数据的处理要求,会形成知识服务解答的集合。大数据使解答更具灵活性,允许不精确的出现。对容错标准的放宽,使人们大大增加了可获得的数据,并能使用这些数据处理新的事情,获得更理想的结果。四是智能型服务。体现在其服务项目以预测分析为基础,是一种真正意义上的智能型服务。图书馆从传统意义上的知识集聚地变为知识的处理与加工地。预测是大数据的核心,它以科学算法为基础。在其指导下,数字图书馆可依据研究主题,跟进相关领域的著作资源,掌握该领域的科研动态。它对学术趋势的把握,方便用户了解新的热点研究问题,为有针对性地开展科学研究打下基础。
  四、结束语
  数字图书馆是我国信息化战略的一个重要构成要素。在大数据技术的背景下,应积极研究融合数据、新兴处理手段、创新思路为一体的多功能数字图书馆。实现数据和多种信息资源相互融合的操作框架。伴随大数据应用在数字图书馆建设中的逐步深入,势必能推动数字图书馆丰富自身内涵,实现服务的优化和增值。
  【参考文献】
  [1]毕强,闫晶,李洁.大数据时代数字图书馆服务转型面临的新形势与新要求[J].情报理论与实践,2017,40(12):12-16.
  [2]温相雄.探究大数据时代数字图书馆面临的机遇和挑战分析[J].科研,2017(2):296.
  [3]文杰.大数据时代下数字图书馆发展创新服务的必要性[J].河南图书馆学刊,2015,35(11):124-125.
  [4]张睿丽.浅谈大数据时代数字图书馆面临的机遇和挑战[J].社会科学:全文版,2016(7):198-199.
  [5]朱丽萍.大数据时代数字图书馆信息服务中个人隐私保护研究[J].图书馆学刊,2017(2):128-131.
  [6]张新慧.大数据时代数字图书馆面临的机遇和挑战[J].长江丛刊,2017(1):195.
  [7]成玉峰.大数据时代数字图书馆面临的机遇和挑战浅谈[J].长江丛刊,2017(8):151.
  [8]倪菊.大数据时代下的数字图书馆信息安全问题研究[J].科技视界,2018(1):101-102.
网站目录投稿:沛容