教育房产时事环球科技商业
投稿投诉
商业财经
热点动态
科技数码
软件应用
国际环球
晨报科学
新闻时事
信息智能
汽车房产
办公手机
教育体育
生活生物

国内科学家团队发布超大规模AI预训练模型

  北京智源人工智能研究院发布四个超大规模人工智能预训练模型,统称为“悟道1.0”,涵盖中文语言、多模态、认知、蛋白质预测四个领域,是帮助国内企业、机构开发人工智能应用的大型基础设施。
  “悟道1.0”由智源研究院学术副院长、清华大学唐杰教授领衔,带领来自北京大学、清华大学、中国人民大学、中国科学院等单位的100余位AI科学家团队联合攻关,同时与快手、搜狗、360、阿里、新华社等龙头企业共同研发工业级示范性应用。
  智源研究院院长黄铁军教授介绍,近几年这轮人工智能浪潮的基本特点是“数据+算力+算法=模型”,模型浓缩了训练数据的内部规律,是实现人工智能应用的载体。近年来人工智能的发展,已经从“大炼模型”逐步迈向了“炼大模型”的阶段,通过设计先进的算法,整合尽可能多的数据,汇聚大量算力,集约化地训练大模型,供大量企业使用,是必然趋势。
  智源研究院2020年10月启动“悟道”项目,研发规模大(主要体现为参数量)、智商高、具备类人认知能力、统一对多模态数据的理解和建模、满足各种应用需要的预训练模型,特别是注重中文语料的采集和训练。
  四大模型:中文、多模态、认知、蛋白质预测
  “悟道”模型技术委员会主任、智源研究院学术副院长唐杰教授介绍,“悟道1.0”先期启动了4个大模型的研发。
  以中文为核心的预训练语言模型“悟道·文源”目前模型参数量达26亿,具有识记、理解、检索、数值计算、多语言等多种能力,并覆盖开放域回答、语法改错、情感分析等20种主流中文自然语言处理任务,技术能力已与GPT-3齐平。
  其目标是构建完成全球规模最大的中文预训练语言模型,在文本分类、情感分析、自然语言推断、阅读理解等多个任务上超越人类平均水平,探索具有通用能力的自然语言理解技术,并进行脑启发的语言模型研究。
  超大规模多模态预训练模型“悟道·文澜”,目前模型参数量达10亿,基于从公开来源收集到的5000万个图文对上进行训练,是首个公开的中文通用图文多模态预训练模型。
  其目标是突破基于图、文和视频相结合的多模态数据的预训练理论难题,并最终生成产业级中文图文预训练模型和应用,并在多个评测应用上超过国际最高性能。
  该模型已对外开放API,并有两款小应用,可以为用户上传的照片配文,或搭配最合拍的音乐。
  面向认知的超大规模新型预训练模型“悟道·文汇”,目前参数规模达113亿,在AI作诗、AI作图、AI制作视频、图文生成、图文检索、复杂推理等多项任务中的表现已经接近突破图灵测试,可以应用在电商行业自动撰写商品文案等场景。
  其目标是研发出千亿至万亿级参数量的、更通用、且性能超越国际水平的预训练模型,搭建预训练模型体系,从认知角度研究通用人工智能,发展模型基于逻辑、意识和推理的认知能力。
  超大规模蛋白质序列预测预训练模型“悟道·文溯”,已在蛋白质方面完成基于100GB UniParc数据库训练的BERT模型,在基因方面完成基于5-10万规模的人外周血免疫细胞(细胞类型25-30种)和1万耐药菌的数据训练,同时搭建训练软件框架并验证其可扩展性。
  其目标是以基因领域认知图谱为指导,研发出十亿参数规模、可以处理超长蛋白质序列的超大规模预训练模型,在基本性能、可解释性和鲁棒性等多个方面达到世界领先水平。
  WuDaoCorpora:全球最大中文语料数据库
  在科研方面,“悟道1.0”取得了多项国际领先的AI技术突破,与现有同类算法及模型相比提升了训练速度,提高了识别准确度和效率。不过更值得一提的是该项目建设并开放了全球最大中文语料数据库WuDaoCorpora。
  WuDaoCorpora数据规模达2TB,超出之前全球最大的中文语料库CLUECorpus2020十倍以上,同时着重去除了数据中包含的隐私信息,防止了隐私泄露。
  WuDaoCorpora的数据来源丰富,包括新闻咨询、评论、百科、论坛、博客、学术论文等,使得该数据集能够适用于不同种类的自然语言处理任务,训练出的模型泛化性更强。
  此外,WuDaoCorpora数据标签的完备性较高,语料中包含医疗、法律、金融等领域标签,可以依据需求抽取某个特定领域的数据,用于训练该领域的模型,也可以用于对大模型进行微调,构建某一特定领域的应用。
  该数据集不仅为“悟道”项目提供了数据支撑,还可被用于中文自然语言处理领域的多种任务模型训练,包括文本生成模型、词嵌入模型、问答对话模型等,对于国际自然语言处理领域的发展将有着积极的促进作用。
  【来源:cnBeta.COM】

太阳耀斑大爆发可能在本周引发明亮的极光据外媒CNET报道,本周太阳将释放一系列的太阳耀斑和日冕物质抛射。据SpaceWeather。com的天文学家TonyPhillips说,一个名为AR2824的太阳黑子在5月22日地球姊妹星!金星发现疑似生命迹象6月3日消息,据媒体报道,科学家在金星大气层中侦测到磷化氢,推测可能是地外生命存在的迹象。报道指出,金星在过去可能拥有海洋,但是随着失控的温室效应导致温度上升而全部蒸发掉。水最有可高德地图发布端午出行预测预计假期前一天拥堵今年端午节假期为6月12日(周六)至14日(周一)放假3天,全国高速路网将不实行小客车免费通行。6月3日,高德地图联合全国60多家交通管理部门共同发布2021端午小长假出行预测报告长征五号火箭末级残骸已再入大气层几乎分秒不差据中国载人航天办公室官方官方消息,经监测分析,2021年5月9日10时24分,长征五号B遥二运载火箭末级残骸已再入大气层,落区位于东经72。47deg北纬2。65deg周边海域(印中国成功发射遥感三十号08组卫星划时代的第400次5月7日2时11分,西昌卫星发射中心西昌发射场3号工位,长征二号丙运载火箭成功执行ldquo一箭四星rdquo任务,将遥感三十号08组三颗卫星天启星座12星送入预定轨道。这是长征系中国空间站正式启动!天和号核心舱发射成功日前,在海南文昌发射场,ldquo天和核心舱rdquo长征五号B遥二运载火箭发射升空,随后顺利入轨,发射成功!自此,中国空间站建设正式开始!中国空间站预计在2022年前后建成,轨道ArtemisI月球任务进入火箭发射准备阶段据外媒报道,ArtemisI绕月飞行任务的碎片正在堆砌。巨大的空间发射系统(SLS)火箭将展开猎户座(Orion)飞船的首次无人测试飞行,其由EuropeanServiceModuNASA太阳轨道飞行器首次捕捉到日冕物质抛射画面据外媒BGR报道,太阳对地球生命是至关重要的,美国宇航局(NASA)的科学家们想要了解有关它的一切,这是很有意义的。为此,NASA已经派出多个任务,在不被彻底摧毁的情况下尽可能地接NASA宣布金星探测计划十年内发射两颗探测器当地时间6月2日,美国宇航局(NASA)宣布,计划在2028年2030年间执行两项探索金星的计划。据媒体报道,每项计划将得到约5亿美元经费,以研究金星的大气和地质特征,以及为何与地SpaceX成功发射新一批星链互联网卫星达1600多颗5月10日消息,据国外媒体报道,美国东部时间周日凌晨,美国太空探索技术公司SpaceX成功发射新一批60颗星链互联网卫星。据悉,SpaceX的ldquo猎鹰9号rdquo火箭于美国实现了!第一枚十手猎鹰9火箭发射成功回收北京时间5月9日14点42分,在美国佛罗里达卡纳维拉尔角发射场,一枚猎鹰9火箭将第27批60颗星链卫星送入太空,总数已达1625颗。这枚猎鹰9火箭编号B1051。10,这是它第十次
研究员揭示一个被忽视的气候变化解决方案的潜力据外媒报道,本月早些时候,美国总统拜登敦促其他国家加入美国和欧盟,承诺削减甲烷排放。斯坦福大学领导的两项新研究可以帮助铺平道路,为协调甲烷清除技术的研究制定蓝图,并模拟该方法如何对研究PAH致癌风险并未如想象中高,比例只有约11据外媒报道,每当有机物燃烧时如在野火发电厂汽车尾气或日常烹饪中,燃烧会释放出多环芳烃(PAH)一类已知会导致肺癌的污染物。每天有超100种已知的PAH化合物被排放到大气中。然而监管嫦娥四号月球背面工作突破1000日,玉兔二号行驶839。37米据中国探月工程官方发布,华夏金秋,月背征途。2021年9月29日,在祖国72华诞来临之际,嫦娥四号着陆器与玉兔二号月球车在轨工作突破1000天,继续刷新月球背面工作记录。嫦娥四号着新研究英国自闭症的诊断在20年内飙升787。据外媒报道,对英国过去20年自闭症发病率的追踪研究发现,诊断量有了惊人的增长。该研究显示,自闭症的诊断率在20年内上升了787,然而这一增长很可能是由于上报的增加和对成年人病情的更科学家发现3600年前一块太空岩石摧毁了一座中东古城大约3600年前的一天,当现在被称为TallelHammam的中东古城居民在做他们的日常事务时,一块冰冷的太空岩石正以大约38000英里小时(61000公里小时)的速度向他们飞来。科学家开发新的DNA传感器可快速确定病毒是否具有传染性据外媒报道,一种新的传感器不仅可以检测到病毒是否存在,而且可以检测到它是否具有传染性这对控制病毒传播是一个重要的区别。伊利诺伊大学厄巴纳香槟分校的研究人员和合作者开发了这种传感器,研究火星灾难性洪水帮助雕刻了一些已知的最深峡谷据外媒报道,火星是我们太阳系中最小的行星之一,但它也是人类或机器人眼睛所看到的一些最大最深最引人注目的峡谷和山谷系统的所在地。新研究表明,这些火星特征中的许多则都是由灾难性气候驱动统一物理理论解释了材料如何从固体转变为液体旨在统一定义从固体到液体的材料的物理学的研究人员多年的精心实验已经得到了回报。研究人员说,一个新的理论模型可以帮助开发新的合成材料,并为土木工程和环境挑战提供信息和预测,如泥石流水怀特岛发现类似鳄鱼头骨的化石属掠食性恐龙新物种由南安普顿大学的古生物学家领导的一项新研究表明,在怀特岛发现的骨头属于两个新的棘龙类物种,这是一组与巨型棘龙密切相关的掠食性食肉恐龙。它们不寻常的类似于鳄鱼的头骨帮助该群体扩大了它起飞重量2000吨新一代载人运载火箭正在研制近日,在开幕的第十三届中国国际航空航天博览会上,航天科技集团新一代运载火箭家族亮相,其中新一代载人运载火箭备受关注,它是为发射我国新一代载人飞船而全新研制的一型高可靠高安全的载人运美国宇航局Lucy任务准备发射将研究特洛伊小行星木星特洛伊小行星被认为是行星形成的化石。美国宇航局Lucy任务准备发射,准备探测这些小行星。美国宇航局已经测试了Lucy的功能,这是该机构第一个研究木星特洛伊小行星的航天器。美国宇