教育房产时事环球科技商业
投稿投诉
商业财经
热点动态
科技数码
软件应用
国际环球
晨报科学
新闻时事
信息智能
汽车房产
办公手机
教育体育
生活生物

国内科学家团队发布超大规模AI预训练模型

  北京智源人工智能研究院发布四个超大规模人工智能预训练模型,统称为“悟道1.0”,涵盖中文语言、多模态、认知、蛋白质预测四个领域,是帮助国内企业、机构开发人工智能应用的大型基础设施。
  “悟道1.0”由智源研究院学术副院长、清华大学唐杰教授领衔,带领来自北京大学、清华大学、中国人民大学、中国科学院等单位的100余位AI科学家团队联合攻关,同时与快手、搜狗、360、阿里、新华社等龙头企业共同研发工业级示范性应用。
  智源研究院院长黄铁军教授介绍,近几年这轮人工智能浪潮的基本特点是“数据+算力+算法=模型”,模型浓缩了训练数据的内部规律,是实现人工智能应用的载体。近年来人工智能的发展,已经从“大炼模型”逐步迈向了“炼大模型”的阶段,通过设计先进的算法,整合尽可能多的数据,汇聚大量算力,集约化地训练大模型,供大量企业使用,是必然趋势。
  智源研究院2020年10月启动“悟道”项目,研发规模大(主要体现为参数量)、智商高、具备类人认知能力、统一对多模态数据的理解和建模、满足各种应用需要的预训练模型,特别是注重中文语料的采集和训练。
  四大模型:中文、多模态、认知、蛋白质预测
  “悟道”模型技术委员会主任、智源研究院学术副院长唐杰教授介绍,“悟道1.0”先期启动了4个大模型的研发。
  以中文为核心的预训练语言模型“悟道·文源”目前模型参数量达26亿,具有识记、理解、检索、数值计算、多语言等多种能力,并覆盖开放域回答、语法改错、情感分析等20种主流中文自然语言处理任务,技术能力已与GPT-3齐平。
  其目标是构建完成全球规模最大的中文预训练语言模型,在文本分类、情感分析、自然语言推断、阅读理解等多个任务上超越人类平均水平,探索具有通用能力的自然语言理解技术,并进行脑启发的语言模型研究。
  超大规模多模态预训练模型“悟道·文澜”,目前模型参数量达10亿,基于从公开来源收集到的5000万个图文对上进行训练,是首个公开的中文通用图文多模态预训练模型。
  其目标是突破基于图、文和视频相结合的多模态数据的预训练理论难题,并最终生成产业级中文图文预训练模型和应用,并在多个评测应用上超过国际最高性能。
  该模型已对外开放API,并有两款小应用,可以为用户上传的照片配文,或搭配最合拍的音乐。
  面向认知的超大规模新型预训练模型“悟道·文汇”,目前参数规模达113亿,在AI作诗、AI作图、AI制作视频、图文生成、图文检索、复杂推理等多项任务中的表现已经接近突破图灵测试,可以应用在电商行业自动撰写商品文案等场景。
  其目标是研发出千亿至万亿级参数量的、更通用、且性能超越国际水平的预训练模型,搭建预训练模型体系,从认知角度研究通用人工智能,发展模型基于逻辑、意识和推理的认知能力。
  超大规模蛋白质序列预测预训练模型“悟道·文溯”,已在蛋白质方面完成基于100GB UniParc数据库训练的BERT模型,在基因方面完成基于5-10万规模的人外周血免疫细胞(细胞类型25-30种)和1万耐药菌的数据训练,同时搭建训练软件框架并验证其可扩展性。
  其目标是以基因领域认知图谱为指导,研发出十亿参数规模、可以处理超长蛋白质序列的超大规模预训练模型,在基本性能、可解释性和鲁棒性等多个方面达到世界领先水平。
  WuDaoCorpora:全球最大中文语料数据库
  在科研方面,“悟道1.0”取得了多项国际领先的AI技术突破,与现有同类算法及模型相比提升了训练速度,提高了识别准确度和效率。不过更值得一提的是该项目建设并开放了全球最大中文语料数据库WuDaoCorpora。
  WuDaoCorpora数据规模达2TB,超出之前全球最大的中文语料库CLUECorpus2020十倍以上,同时着重去除了数据中包含的隐私信息,防止了隐私泄露。
  WuDaoCorpora的数据来源丰富,包括新闻咨询、评论、百科、论坛、博客、学术论文等,使得该数据集能够适用于不同种类的自然语言处理任务,训练出的模型泛化性更强。
  此外,WuDaoCorpora数据标签的完备性较高,语料中包含医疗、法律、金融等领域标签,可以依据需求抽取某个特定领域的数据,用于训练该领域的模型,也可以用于对大模型进行微调,构建某一特定领域的应用。
  该数据集不仅为“悟道”项目提供了数据支撑,还可被用于中文自然语言处理领域的多种任务模型训练,包括文本生成模型、词嵌入模型、问答对话模型等,对于国际自然语言处理领域的发展将有着积极的促进作用。
  【来源:cnBeta.COM】

中国空间站新跨越!长征五号B火箭运抵发射场中国空间站建设进展神速,捷报频传!据中国载人航天办公室官方消息,执行问天实验舱发射任务的长征五号B遥三运载火箭已完成出厂前所有研制工作,于2022年5月29日安全运抵文昌航天发射场NASA正在太空中制造能检测光线的人眼设备作为本周早些时候发射到国际站的SpaceXCrew4任务的一部分,NASA正在推进一项在太空制造有机视网膜的实验。NASA跟康涅狄格州法明顿的LambdaVision公司进行了合作全球首次!中国成功发射临近空间空基平台火箭据央视消息,4月24日上午,中国科学院大气物理研究所北京星箭天航空间技术公司合作的临近空间空基平台火箭地面发射试验,在青海海西州茫崖市冷湖镇成功进行。火箭飞行高度达到预期,数据回收祝融号累计行驶1875米!700GB火星原始数据到手2021年5月15日,执行我国首次火星探测ldquo祝融号rdquo火星车成功实现火星着陆。马上就要一年的时间,ldquo祝融号rdquo现在怎么样了?据天问一号祝融火星车官微消息今日中国航天日!距离中国首颗卫星上天已52年4月24日,为中国航天日,距离2016年设立航天日,至今已经走过7个年头,在此期间,中国航天又取得了一个又一个的瞩目成就。52年前,中国第一颗人造地球卫星东方红一号发射成功,由此,国家航天局我国将着手组建近地小行星防御系统据央视新闻报道,近些年,随着功能不同的各类卫星和航天器数量不断增多,所产生的空间碎片为后续发射任务的轨道规划和运行提出了更高的要求。因此,为了能够更好地利用太空空间,我国将建设完善亚马逊与SpaceX等公司获NASA太空通信合同据国外媒体报道,亚马逊的卫星项目SpaceX的星链网络和其他卫星公司从NASA获得了总计2。785亿美元的太空通信合同。NASA正着手用私人建造的系统取代目前在轨道上的现有卫星网络腾讯视频再次宣布涨价上热搜!网友晒图会员充到了2043年4月20日消息,腾讯正式对腾讯视频VIP和超级影视VIP会员价格进行调整,两大类型会员12种会员类型中,腾讯视频VIP月卡以及超级影视VIP的多项套餐价格等5种会员价格保持不变,剩100公里!我国科学家创造量子直接通信最远纪录4月13日消息,据新华社报道,我国科学家近日设计出一种相位量子态与时间戳量子态混合编码的量子直接通信新系统,成功实现100公里的量子直接通信。100公里,听起来并不算远,但这是目前NASA公布最新的关键性ArtemisI月球火箭测试计划美国宇航局(NASA)正计划进行修改后的ArtemisIldquo湿式彩排rdquo,主要集中在核心级的燃料箱,以及临时低温推进级(ICPS)上的最小推进剂操作及地面系统上。由于修我国成功发射高分三号03星实现1米分辨率1天重访来自中国航天科技集团消息,4月7日7时47分,在我国酒泉卫星发射中心,长征四号丙运载火箭点火起飞,成功将高分三号03星送入预定轨道,发射取得圆满成功。这颗卫星主要用于获取可靠稳定的
中国空间站新跨越!长征五号B火箭运抵发射场中国空间站建设进展神速,捷报频传!据中国载人航天办公室官方消息,执行问天实验舱发射任务的长征五号B遥三运载火箭已完成出厂前所有研制工作,于2022年5月29日安全运抵文昌航天发射场NASA正在太空中制造能检测光线的人眼设备作为本周早些时候发射到国际站的SpaceXCrew4任务的一部分,NASA正在推进一项在太空制造有机视网膜的实验。NASA跟康涅狄格州法明顿的LambdaVision公司进行了合作全球首次!中国成功发射临近空间空基平台火箭据央视消息,4月24日上午,中国科学院大气物理研究所北京星箭天航空间技术公司合作的临近空间空基平台火箭地面发射试验,在青海海西州茫崖市冷湖镇成功进行。火箭飞行高度达到预期,数据回收祝融号累计行驶1875米!700GB火星原始数据到手2021年5月15日,执行我国首次火星探测ldquo祝融号rdquo火星车成功实现火星着陆。马上就要一年的时间,ldquo祝融号rdquo现在怎么样了?据天问一号祝融火星车官微消息今日中国航天日!距离中国首颗卫星上天已52年4月24日,为中国航天日,距离2016年设立航天日,至今已经走过7个年头,在此期间,中国航天又取得了一个又一个的瞩目成就。52年前,中国第一颗人造地球卫星东方红一号发射成功,由此,国家航天局我国将着手组建近地小行星防御系统据央视新闻报道,近些年,随着功能不同的各类卫星和航天器数量不断增多,所产生的空间碎片为后续发射任务的轨道规划和运行提出了更高的要求。因此,为了能够更好地利用太空空间,我国将建设完善亚马逊与SpaceX等公司获NASA太空通信合同据国外媒体报道,亚马逊的卫星项目SpaceX的星链网络和其他卫星公司从NASA获得了总计2。785亿美元的太空通信合同。NASA正着手用私人建造的系统取代目前在轨道上的现有卫星网络腾讯视频再次宣布涨价上热搜!网友晒图会员充到了2043年4月20日消息,腾讯正式对腾讯视频VIP和超级影视VIP会员价格进行调整,两大类型会员12种会员类型中,腾讯视频VIP月卡以及超级影视VIP的多项套餐价格等5种会员价格保持不变,剩100公里!我国科学家创造量子直接通信最远纪录4月13日消息,据新华社报道,我国科学家近日设计出一种相位量子态与时间戳量子态混合编码的量子直接通信新系统,成功实现100公里的量子直接通信。100公里,听起来并不算远,但这是目前NASA公布最新的关键性ArtemisI月球火箭测试计划美国宇航局(NASA)正计划进行修改后的ArtemisIldquo湿式彩排rdquo,主要集中在核心级的燃料箱,以及临时低温推进级(ICPS)上的最小推进剂操作及地面系统上。由于修我国成功发射高分三号03星实现1米分辨率1天重访来自中国航天科技集团消息,4月7日7时47分,在我国酒泉卫星发射中心,长征四号丙运载火箭点火起飞,成功将高分三号03星送入预定轨道,发射取得圆满成功。这颗卫星主要用于获取可靠稳定的