【摘要】本文从信息技术发展推动企业档案数字化出发,提出利用中国知网来充实丰富馆藏资源,特别介绍了中国知网及电力勘测设计知识服务平台特点、功能及比较评估,最后展望未来利用知识管理系统建成知识驱动型的创新文化企业。 【关键词】档案数字化;数字档案;中国知网;知识管理 福建省电力勘测设计院(以下简称福建院)建院至今积累了大量的档案资源,随着信息技术的发展,这些档案资料的载体逐渐数字化、信息化,并要求对数字档案资源进行有效管理和在线利用,为此,数字档案馆建设成为福建院档案信息化建设的重点,在机读目录数据库建设、馆藏档案数字化、档案网站建设、数字档案馆实施方面均取得了长足进展,档案信息化建设全面、有序、系统发展。为充实丰富数字档案馆馆藏,福建院数字档案馆建设后续工作,即馆藏档案数字加工也是档案数字化建设的重要内容,这是今后相当长一段时间内福建院的档案工作重点,同时,对院购买的纸质规程规范及图书,外购大量的信息资源,包括电子规程规范、图书、期刊、论文等外部信息资源,通过与电力标准化信息系统、中国知网链接,减少了或免购了规程规范、图书、期刊等纸质版,使知识的传递速度增快,满足生产的需要,有效地提高生產效率,还大大的减少了档案库房和档案装具,从而降低保管成本。下面详细介绍中国知网及电力勘测设计知识服务平台,并利用该平台补充丰富福建院馆藏资源。 一、知网平台及电力勘测设计知识服务平台技术特点 (一)基于云计算非结构化数据库技术。知网云数据库系统KBASE能够实现对PB级异构非结构化资源进行存贮、检索、管理,具有优异的全文检索性能和强大的海量非结构化数据存储管理能力,拥有超过500万词汇量的、大百科式的概念关系词典,具备业界领先的中文智能信息处理能力。云数据库系统KBASE可以支撑大数据分析计算的海量非结构化知识资源库管理,该系统是目前管理数据量最大,检索速度最快的全文检索系统,其性能和稳定性经受住了近20年大规模商业海量数据分析系统应用的考验。 (二)自动XML数据加工技术。自动XML数字资源加工主要是对数字出版物的内容进行XML化的结构化数据加工,并对数据进行规范化处理,XML数据获取技术采用版面理解技术、自动标注技术、主题词标引、自动分类技术对数字资源进行深度加工处理,形成结构化XML数字资源。 (三)自然语义处理技术。对中外文自然语言的字、词、句、篇、章的输入、输出、识别分析、理解、生成等操作和加工。实现的技术包括:单词、主题词的理解和切分;全文文本存贮和检索;自然语言问答系统;关键词自动抽取;自动文摘、自动分类;人名、地名、机构名、专有名词等命名实体的辨识和自动提取等。 (四)大数据挖掘处理技术。基于知识挖掘技术开发的知识元检索系统,提供概念定义搜索、图片搜索、图形搜索、表格搜索、数值搜索等多源异构大数据系统的检索与分析功能以及学术趋势分析、智能翻译助手等知识服务功能。根据数字化编辑生产需要,研发了人机结合的自动标引技术和自动生产流水线,建设了500万概念关系语义词典库。 (五)知识组织技术。知识组织是对知识客体进行整理、加工、控制等一系列组织化的过程及方法。在网络信息社会,知识组织的目的是向网络用户提供经过整序、分析、处理的网络信息。知识组织相关技术主要有知识元、知识网络、语义网络。 (六)知识关联分析处理技术。一是共现分析方法。将各种信息载体中的共现信息定量化的分析方法,以揭示信息的内容关联和特征项所隐含的寓意。二是共词分析。主要对具体某一组词分别两两统计它们在同一篇文献中出现的次数,在此基础上对这些词进行分层聚类,揭示出这些词之间的亲疏关系,进而分析这些词所代表的学科和主题结构演变。三是共引分析。指两篇文献同时被后来的其他文献所引用。具有共引关系的文献之间借共引强度体现彼此间的关联度和内容的相似性,同时基于共引关系所形成的文献共引网络将学科之间的关联与亲疏直观地呈现出来。四是作者耦合分析。指两个作者共同引用的文献越多,他们的研究兴趣越接近。原理主要是将两个作者通过引用文献的次数作为统计样本,通过构造矩阵,聚类分析的方式,计算作者之间的相似度,进而分析具有相同研究方向的作者。五是知识网络路径分析。通过对已知的知识节点和网络结构等信息进行分析,来预测网络中尚未产生知识节点之间关联的可能性。六是社会化复杂网络计算分析。由社会学家根据数学方法、图论等发展起来的定量分析方法,社会网络分析法可以从多个不同角度对社会网络进行分析,包括中心性分析、凝聚子群分析、核心—边缘结构分析以及结构对等性分析等。 (七)知识可视化技术。知识可视化以数据分析技术、知识网络分析技术为基础,利用图形设计、认知科学来构建、传达和表示复杂知识的图形图像手段,除了传达事实信息之外,知识可视化的目标还在于传输人类的知识,并帮助他人正确地重构、记忆和应用知识。知识可视化展示技术主要有知识地图和知识图谱。 (八)KNS知识网络服务平台构建技术。在知识组织元数据规范方面,已经在期刊、学位论文、会议论文、新闻报纸、年鉴与统计年鉴、政策法规、专利、标准、科技成果、图书专著、百科、词典、手册、海外文献等多种知识制定了元数据规范标准,保证了知识数据的准确规范。在知识组织广度与深度方面,已经实现在多源、多语言、多模态类型的异构知识文献中,对主题、作者、机构、关键词、出版物、基金、数值、公式、表格、图片等多种元数据的自动标引、分类、存储及检索技术的研发,数据在准确率和召回率保持国内领先地位。在知识组织粒度方面,已经实现对知识文献数据的XML碎片化加工标引技术,将文献知识组织的粒度细化到章节、段落、甚至是语句。细粒度的知识组织保证了知识概念语义网络的准确性。在知识组织形式方面,已经实现知识检索导航平台——KNS知识服务平台、基于知识元的知识网络的构建——知网节系统,以及初步建立了基于学术概念的RDF语义网络。 二、知网电力勘测设计平台功能结构模块介绍 (一)业务导航。业务导航展示电力勘测设计单位的主要业务类型,包括火力发电、水力发电、风力发电、核电、其他新能源、输配电、工程造价、工程总承包、工程监理、电力节能、安全标准化以及经营管理等方面。点击每个导航节点,即可进入该导航节点的检索结果页面。 (二)产业情报。产业情报主要是电力相关的资讯,包括产业动态(勘测设计行业、同行动态)、市场资讯(工程信息、招投标信息)、电力动态(电力产业规划、电力体制改革、发电动态、输配电动态)、最新科技(前沿技术、技术标准制修订、专利技术、科技成果)、政策法规(电力政策法规、工程建设、投资管理、财金税费)等。该模块内容可以辅助领导决策层获取电力行业的发展趋势和热点问题,掌握同行竞争者的现状,为领导决策层确定本单位的发展方向,制定发展战略和经营目标,提供情报支撑。 (三)热门专题。平台展示了目前电力勘测设计单位关注的六大热门专题——1000MW超超临界、特高压、BIM模型、大数据应用、能源互联网、国际工程索赔。这些专题是电力勘测设计单位在发展中遇到的新问题,或者是与其自身发展密切相关的行业发展大环境。这些专题的设置为电力勘测设计院解决发展中遇到的问题提供了经验借鉴、解决方法、解决方案等。 (四)科技创新。平台展示了发电技术(火电、水电、核电等)、电网技术(输变电、配电)、勘测技术(水文气象、测量、岩土工程)、环境评价、水土保持,以及电力及相关行业国家标准、行业标准、国外标准、中国专利、海外专利、科技成果等具体栏目。这些栏目内容涵盖了火电、水电、核电、风电与新能源、输配电等电力工程规划、勘测、设计等方面的技术规范、规程、标准、工程技术、案例、经验总结等,环评技术、水保技术以及电力及相关行业的标准、专利、科技成果等,为生产人员攻关工作中的技术难题提供了文献支撑。 (五)阅览室。平台主要展示了电力、建筑、环境等方面的原版出版物——期刊、报纸、工具书、年鉴。该模块主要为电力勘测设计单位提供原版出版物,为工作人员整刊阅读文献的需求提供服务。点击每本刊物的封面,即进入该刊的整刊阅读页面。 三、知网总库与电力勘测设计知识服务平台比较及评估 (一)知网总库。知网总库种类齐全覆盖面广,内容覆盖自然科学、工程技术、农业、哲学、医学、人文社会科学等各个领域。资源涵盖期刊、报纸、博士、硕士、会议、年鉴、统计年鉴、专利、成果、图片、法律、外文等。同时总库按照10大专辑,168个小专题划分,方便大家按照学科查找。 (二)电力勘测设计知识服务平台。《电力勘测设计知识服务平台》通过运用CNKI知识发现网络平台技术(KNS6.6)、数据整合、数据挖掘等技术将与电力勘测设计单位业务相关的电力工程规划、勘测、设计,工程总承包、工程监理、环评、水土保持方案编制,标准、专利、科技成果以及企业经营管理等文献资源从CNKI海量资源中提取出来单独成库,并邀请行业内的专家指导设置专业导航,形成电力勘测设计单位的知识服务信息化平台。 (三)知网总库与电力勘测设计知识服务平台对比。 根据价格对比分析,在相同的资源情况下,如果使用《电力勘测设计知识服务平台》费用比使用《中国知网总库》费用节省,同时《电力勘测设计知识服务平台》不仅具备知网总库的功能,同时还能实现知识热点、竞争情报、市场动态等知识推送。还对资源进行模块划分,方便大家阅读;且平台页面比知网总库页面更具针对性及专业性,更符合设计人员的阅读习惯。 四、结语 福建院于2004年開始使用中国知网数据,从知网发文情况统计,在福建省电力行业,福建院发文情况排在第一位,属于学术研究前端,在省内占据重要地位。知网《电力勘测设计知识服务平台》为福建院的转型发展、产业提升、科技创新提供智力支持,为企业领导决策层、电力规划、电力勘测、电力设计等生产研发部门、职能部门等关键岗位工作人员提供业务知识和决策支撑。未来平台将与福建院知识管理系统平台资源整合,打破知识孤岛现状,员工可以通过统一检索的方式很快获取到需要的知识,促进内部的知识共享和交流,实现多种多样数据库和业务系统之间跨系统的知识关联,建成知识驱动型的创新文化企业。