教育房产时事环球科技商业
投稿投诉
商业财经
热点动态
科技数码
软件应用
国际环球
晨报科学
新闻时事
信息智能
汽车房产
办公手机
教育体育
生活生物

国内科学家团队发布超大规模AI预训练模型

  北京智源人工智能研究院发布四个超大规模人工智能预训练模型,统称为“悟道1.0”,涵盖中文语言、多模态、认知、蛋白质预测四个领域,是帮助国内企业、机构开发人工智能应用的大型基础设施。
  “悟道1.0”由智源研究院学术副院长、清华大学唐杰教授领衔,带领来自北京大学、清华大学、中国人民大学、中国科学院等单位的100余位AI科学家团队联合攻关,同时与快手、搜狗、360、阿里、新华社等龙头企业共同研发工业级示范性应用。
  智源研究院院长黄铁军教授介绍,近几年这轮人工智能浪潮的基本特点是“数据+算力+算法=模型”,模型浓缩了训练数据的内部规律,是实现人工智能应用的载体。近年来人工智能的发展,已经从“大炼模型”逐步迈向了“炼大模型”的阶段,通过设计先进的算法,整合尽可能多的数据,汇聚大量算力,集约化地训练大模型,供大量企业使用,是必然趋势。
  智源研究院2020年10月启动“悟道”项目,研发规模大(主要体现为参数量)、智商高、具备类人认知能力、统一对多模态数据的理解和建模、满足各种应用需要的预训练模型,特别是注重中文语料的采集和训练。
  四大模型:中文、多模态、认知、蛋白质预测
  “悟道”模型技术委员会主任、智源研究院学术副院长唐杰教授介绍,“悟道1.0”先期启动了4个大模型的研发。
  以中文为核心的预训练语言模型“悟道·文源”目前模型参数量达26亿,具有识记、理解、检索、数值计算、多语言等多种能力,并覆盖开放域回答、语法改错、情感分析等20种主流中文自然语言处理任务,技术能力已与GPT-3齐平。
  其目标是构建完成全球规模最大的中文预训练语言模型,在文本分类、情感分析、自然语言推断、阅读理解等多个任务上超越人类平均水平,探索具有通用能力的自然语言理解技术,并进行脑启发的语言模型研究。
  超大规模多模态预训练模型“悟道·文澜”,目前模型参数量达10亿,基于从公开来源收集到的5000万个图文对上进行训练,是首个公开的中文通用图文多模态预训练模型。
  其目标是突破基于图、文和视频相结合的多模态数据的预训练理论难题,并最终生成产业级中文图文预训练模型和应用,并在多个评测应用上超过国际最高性能。
  该模型已对外开放API,并有两款小应用,可以为用户上传的照片配文,或搭配最合拍的音乐。
  面向认知的超大规模新型预训练模型“悟道·文汇”,目前参数规模达113亿,在AI作诗、AI作图、AI制作视频、图文生成、图文检索、复杂推理等多项任务中的表现已经接近突破图灵测试,可以应用在电商行业自动撰写商品文案等场景。
  其目标是研发出千亿至万亿级参数量的、更通用、且性能超越国际水平的预训练模型,搭建预训练模型体系,从认知角度研究通用人工智能,发展模型基于逻辑、意识和推理的认知能力。
  超大规模蛋白质序列预测预训练模型“悟道·文溯”,已在蛋白质方面完成基于100GB UniParc数据库训练的BERT模型,在基因方面完成基于5-10万规模的人外周血免疫细胞(细胞类型25-30种)和1万耐药菌的数据训练,同时搭建训练软件框架并验证其可扩展性。
  其目标是以基因领域认知图谱为指导,研发出十亿参数规模、可以处理超长蛋白质序列的超大规模预训练模型,在基本性能、可解释性和鲁棒性等多个方面达到世界领先水平。
  WuDaoCorpora:全球最大中文语料数据库
  在科研方面,“悟道1.0”取得了多项国际领先的AI技术突破,与现有同类算法及模型相比提升了训练速度,提高了识别准确度和效率。不过更值得一提的是该项目建设并开放了全球最大中文语料数据库WuDaoCorpora。
  WuDaoCorpora数据规模达2TB,超出之前全球最大的中文语料库CLUECorpus2020十倍以上,同时着重去除了数据中包含的隐私信息,防止了隐私泄露。
  WuDaoCorpora的数据来源丰富,包括新闻咨询、评论、百科、论坛、博客、学术论文等,使得该数据集能够适用于不同种类的自然语言处理任务,训练出的模型泛化性更强。
  此外,WuDaoCorpora数据标签的完备性较高,语料中包含医疗、法律、金融等领域标签,可以依据需求抽取某个特定领域的数据,用于训练该领域的模型,也可以用于对大模型进行微调,构建某一特定领域的应用。
  该数据集不仅为“悟道”项目提供了数据支撑,还可被用于中文自然语言处理领域的多种任务模型训练,包括文本生成模型、词嵌入模型、问答对话模型等,对于国际自然语言处理领域的发展将有着积极的促进作用。
  【来源:cnBeta.COM】

太阳耀斑大爆发可能在本周引发明亮的极光据外媒CNET报道,本周太阳将释放一系列的太阳耀斑和日冕物质抛射。据SpaceWeather。com的天文学家TonyPhillips说,一个名为AR2824的太阳黑子在5月22日地球姊妹星!金星发现疑似生命迹象6月3日消息,据媒体报道,科学家在金星大气层中侦测到磷化氢,推测可能是地外生命存在的迹象。报道指出,金星在过去可能拥有海洋,但是随着失控的温室效应导致温度上升而全部蒸发掉。水最有可高德地图发布端午出行预测预计假期前一天拥堵今年端午节假期为6月12日(周六)至14日(周一)放假3天,全国高速路网将不实行小客车免费通行。6月3日,高德地图联合全国60多家交通管理部门共同发布2021端午小长假出行预测报告长征五号火箭末级残骸已再入大气层几乎分秒不差据中国载人航天办公室官方官方消息,经监测分析,2021年5月9日10时24分,长征五号B遥二运载火箭末级残骸已再入大气层,落区位于东经72。47deg北纬2。65deg周边海域(印中国成功发射遥感三十号08组卫星划时代的第400次5月7日2时11分,西昌卫星发射中心西昌发射场3号工位,长征二号丙运载火箭成功执行ldquo一箭四星rdquo任务,将遥感三十号08组三颗卫星天启星座12星送入预定轨道。这是长征系中国空间站正式启动!天和号核心舱发射成功日前,在海南文昌发射场,ldquo天和核心舱rdquo长征五号B遥二运载火箭发射升空,随后顺利入轨,发射成功!自此,中国空间站建设正式开始!中国空间站预计在2022年前后建成,轨道ArtemisI月球任务进入火箭发射准备阶段据外媒报道,ArtemisI绕月飞行任务的碎片正在堆砌。巨大的空间发射系统(SLS)火箭将展开猎户座(Orion)飞船的首次无人测试飞行,其由EuropeanServiceModuNASA太阳轨道飞行器首次捕捉到日冕物质抛射画面据外媒BGR报道,太阳对地球生命是至关重要的,美国宇航局(NASA)的科学家们想要了解有关它的一切,这是很有意义的。为此,NASA已经派出多个任务,在不被彻底摧毁的情况下尽可能地接NASA宣布金星探测计划十年内发射两颗探测器当地时间6月2日,美国宇航局(NASA)宣布,计划在2028年2030年间执行两项探索金星的计划。据媒体报道,每项计划将得到约5亿美元经费,以研究金星的大气和地质特征,以及为何与地SpaceX成功发射新一批星链互联网卫星达1600多颗5月10日消息,据国外媒体报道,美国东部时间周日凌晨,美国太空探索技术公司SpaceX成功发射新一批60颗星链互联网卫星。据悉,SpaceX的ldquo猎鹰9号rdquo火箭于美国实现了!第一枚十手猎鹰9火箭发射成功回收北京时间5月9日14点42分,在美国佛罗里达卡纳维拉尔角发射场,一枚猎鹰9火箭将第27批60颗星链卫星送入太空,总数已达1625颗。这枚猎鹰9火箭编号B1051。10,这是它第十次
成功发射天绘4卫星金牌火箭长二丁今年圆满收官12月29日19时13分,我国酒泉卫星发射中心点火升空,长征二号丁运载火箭成功将天绘4卫星送入预定轨道,发射任务取得圆满成功。至此,ldquo金牌火箭rdquo长二丁的2021年度我国探月工程将开启新征程四期任务已获批复建立月球科研站2004年,中国正式开展月球探测工程,并命名为ldquo嫦娥工程rdquo。嫦娥工程分为ldquo无人月球探测rdquoldquo载人登月rdquo和ldquo建立月球基地rdqu长征火箭第403次!长四丙成功发射一箭双星12月26日11时11分,太原卫星发射中心,长征四号丙运载火箭成功实施一箭双星发射,将5米光学卫星02星(资源一号02E星)一零一中学科普小卫星送入预定轨道。5米光学卫星02星由航令人惊叹NASA公布新捕捉到的Leonard彗星画面当Leonard彗星一个由空间尘埃岩石和冰组成的约半英里(1公里)宽的天体在2022年1月3日最接近太阳时,这将会是一段4万年的旅程。在它接近太阳之前,两个观察太阳的航天器捕捉到了我国成功发射试验十二号卫星01星02星12月23日,据我们的太空消息,北京时间2021年12月23日18时12分,我国在文昌航天发射场用长征七号改运载火箭,成功将试验十二号卫星01星02星发射升空,卫星顺利进入预定轨道研究公司认为Starlink卫星的预购交货时间将能得到缩短SpaceX的Starlink卫星互联网星座目前正面临着部分由半导体短缺造成的订单积压,如果一家研究公司Jefferies的报告是准确的,未来可能会看到改善。在昨日发布的一份报告中NASA太阳探测器已触摸到了太阳并活到现在在花了990天的时间在太阳系中飞驰围绕金星和我们的母星飞驰之后,NASA的帕克太阳探测器(ParkerSolarProbe)已经实现了其任务的头条目标ldquo触摸到了太阳rdquNASA推出小行星追踪工具EyesonAsteroids如果你只关注某些头条新闻,你可能会认为地球会不断受到杀手小行星的轰炸。不过NASA的一个新小行星跟踪工具应该有助于缓解你的紧张情绪。EyesonAsteroids是一个在线应用,它科学家在旋转黑洞附近的神秘云团中获得有关暗物质的新线索引力波是空间和时间结构中的宇宙涟漪,它来自空间中的灾难性事件,如黑洞和中子星的碰撞大质量超巨星的核心坍缩。地球上极其敏感的引力波探测器,如先进的LIGO和Virgo探测器,已经成功院士称2030年前我国将送人上月球!新一代载人火箭正在研制中12月10日消息,今日,据央视新闻报道,我国目前正在研制重型运载火箭,可以将150吨重的航天器送入近地轨道。相当于一次性发射一座天宫空间站,同时,它还可以将30吨重的航天器送到月球载人登月可期中国自研百吨级重型火箭2028年首飞12月10日消息,据中国航天科技集团透露,为满足未来载人月球探测深空探测等任务需要,一院抓总研制的百吨级重型运载火箭正在研制中,预计将于2028年首飞。中国的载人登月计划还没有官宣