教育房产时事环球科技商业
投稿投诉
商业财经
热点动态
科技数码
软件应用
国际环球
晨报科学
新闻时事
信息智能
汽车房产
办公手机
教育体育
生活生物

国内科学家团队发布超大规模AI预训练模型

  北京智源人工智能研究院发布四个超大规模人工智能预训练模型,统称为“悟道1.0”,涵盖中文语言、多模态、认知、蛋白质预测四个领域,是帮助国内企业、机构开发人工智能应用的大型基础设施。
  “悟道1.0”由智源研究院学术副院长、清华大学唐杰教授领衔,带领来自北京大学、清华大学、中国人民大学、中国科学院等单位的100余位AI科学家团队联合攻关,同时与快手、搜狗、360、阿里、新华社等龙头企业共同研发工业级示范性应用。
  智源研究院院长黄铁军教授介绍,近几年这轮人工智能浪潮的基本特点是“数据+算力+算法=模型”,模型浓缩了训练数据的内部规律,是实现人工智能应用的载体。近年来人工智能的发展,已经从“大炼模型”逐步迈向了“炼大模型”的阶段,通过设计先进的算法,整合尽可能多的数据,汇聚大量算力,集约化地训练大模型,供大量企业使用,是必然趋势。
  智源研究院2020年10月启动“悟道”项目,研发规模大(主要体现为参数量)、智商高、具备类人认知能力、统一对多模态数据的理解和建模、满足各种应用需要的预训练模型,特别是注重中文语料的采集和训练。
  四大模型:中文、多模态、认知、蛋白质预测
  “悟道”模型技术委员会主任、智源研究院学术副院长唐杰教授介绍,“悟道1.0”先期启动了4个大模型的研发。
  以中文为核心的预训练语言模型“悟道·文源”目前模型参数量达26亿,具有识记、理解、检索、数值计算、多语言等多种能力,并覆盖开放域回答、语法改错、情感分析等20种主流中文自然语言处理任务,技术能力已与GPT-3齐平。
  其目标是构建完成全球规模最大的中文预训练语言模型,在文本分类、情感分析、自然语言推断、阅读理解等多个任务上超越人类平均水平,探索具有通用能力的自然语言理解技术,并进行脑启发的语言模型研究。
  超大规模多模态预训练模型“悟道·文澜”,目前模型参数量达10亿,基于从公开来源收集到的5000万个图文对上进行训练,是首个公开的中文通用图文多模态预训练模型。
  其目标是突破基于图、文和视频相结合的多模态数据的预训练理论难题,并最终生成产业级中文图文预训练模型和应用,并在多个评测应用上超过国际最高性能。
  该模型已对外开放API,并有两款小应用,可以为用户上传的照片配文,或搭配最合拍的音乐。
  面向认知的超大规模新型预训练模型“悟道·文汇”,目前参数规模达113亿,在AI作诗、AI作图、AI制作视频、图文生成、图文检索、复杂推理等多项任务中的表现已经接近突破图灵测试,可以应用在电商行业自动撰写商品文案等场景。
  其目标是研发出千亿至万亿级参数量的、更通用、且性能超越国际水平的预训练模型,搭建预训练模型体系,从认知角度研究通用人工智能,发展模型基于逻辑、意识和推理的认知能力。
  超大规模蛋白质序列预测预训练模型“悟道·文溯”,已在蛋白质方面完成基于100GB UniParc数据库训练的BERT模型,在基因方面完成基于5-10万规模的人外周血免疫细胞(细胞类型25-30种)和1万耐药菌的数据训练,同时搭建训练软件框架并验证其可扩展性。
  其目标是以基因领域认知图谱为指导,研发出十亿参数规模、可以处理超长蛋白质序列的超大规模预训练模型,在基本性能、可解释性和鲁棒性等多个方面达到世界领先水平。
  WuDaoCorpora:全球最大中文语料数据库
  在科研方面,“悟道1.0”取得了多项国际领先的AI技术突破,与现有同类算法及模型相比提升了训练速度,提高了识别准确度和效率。不过更值得一提的是该项目建设并开放了全球最大中文语料数据库WuDaoCorpora。
  WuDaoCorpora数据规模达2TB,超出之前全球最大的中文语料库CLUECorpus2020十倍以上,同时着重去除了数据中包含的隐私信息,防止了隐私泄露。
  WuDaoCorpora的数据来源丰富,包括新闻咨询、评论、百科、论坛、博客、学术论文等,使得该数据集能够适用于不同种类的自然语言处理任务,训练出的模型泛化性更强。
  此外,WuDaoCorpora数据标签的完备性较高,语料中包含医疗、法律、金融等领域标签,可以依据需求抽取某个特定领域的数据,用于训练该领域的模型,也可以用于对大模型进行微调,构建某一特定领域的应用。
  该数据集不仅为“悟道”项目提供了数据支撑,还可被用于中文自然语言处理领域的多种任务模型训练,包括文本生成模型、词嵌入模型、问答对话模型等,对于国际自然语言处理领域的发展将有着积极的促进作用。
  【来源:cnBeta.COM】

NASA探测器VIPER将在月球上寻找水和其他资源据外媒报道,作为ldquo阿尔忒弥斯rdquo(Artemis)计划的一部分,美国宇航局(NASA)正计划在2023年年底向月球发送其第一个移动机器人,以寻找月球表面和下方的冰和其新研究提供关于银河系如何以及何时形成的最佳证据一项新研究为我们早期的银河系如何形成提供了迄今为止最好的证据,包括与一个关键的卫星星系的合并。利用天文学中相对较新的方法,研究人员能够为银河系中大约一百颗红巨星的样本确定目前可能的天问一号探测器成功着陆火星马斯克发文祝贺天问一号探测器成功着陆于火星乌托邦平原南部预选着陆区,我国首次火星探测任务着陆火星取得成功。特斯拉CEO马斯克在推特发文表示祝贺。公开资料显示,天问一号探测器于2020年7月23日马斯克SpaceX计划2024年让星际飞船登陆火星特斯拉创始人马斯克近期因ldquo炒币rdquo增加了不少热度,但大家别忘了他还是美国太空探索技术公司(SpaceX)的创始人,并曾宣布将在2030年开启火星移民计划。前段时间,马天问一号飞抵火星2个多月祝融号探测车15日登陆火星今年2月底,中国首个火车探测器天问一号就飞抵火星轨道了,为即将到来的登陆做准备。现在有消息称15日上午7点就会正式登陆。今天上午,中国科学院院士叶培建在北京理工大学参与了公开课,网天文学家发现已知最古老的螺旋星系据外媒报道,天文学家表示,他们已经发现已知最古老的螺旋星系,它形成于124亿年前。这个古老的星系被命名为BRI13350417,下面这张图片是由智利的阿塔卡马大型毫米波亚毫米波阵列具有潜在危险性的4000年周期彗星将给地球带来流星那些以非常细长的轨道环绕太阳的彗星,其碎片沿其轨道分布得非常稀疏,或将其完全弹出太阳系,因此它们的流星雨很难被发现。从发表在Icarus杂志上的一项新的流星雨调查中,研究人员现在报马斯克SpaceX海上发射平台Deimos最早明年投入使用5月31日消息,据国外媒体报道,SpaceX的海上发射平台Deimos,正在建设中,可能在明年开始星际飞船的发射任务。今日马斯克在推特上在回应粉丝时表示,海上发射平台Deimos目神舟十二号载人飞船六月升空3名航天员将入住5月29日消息,据中国载人航天工程办公室消息,5月29日20时55分,搭载天舟二号货运飞船的长征七号遥三运载火箭,在我国文昌航天发射场准时点火发射。约604秒后,飞船与火箭成功分离2万亿韩元的内存芯片报废了?SK海力士回应经过两年左右的熊市周期,内存行业现在是牛市涨价的阶段,再加上全球性的半导体产能紧张原材料涨价等因素,内存价格今年已经涨了不少。现在正是内存厂商大赚特赚的消息,不过第二大内存芯片厂商科学家提出核电池概念为无碳能源提供新途径据外媒报道,一组核专家最近在美国国家工程院的期刊TheBridge上建议,我们可能正处于核电新模式的边缘。他们说,就像大型昂贵的集中式计算机让位于今天广泛分布的个人电脑一样,新一代
NASA在国际空间站上用微生物进行生物采矿获得金属钒据外媒报道,美国宇航局(NASA)的科学家们在国际空间站上完成了一项实验,该实验涉及利用微生物的力量进行ldquo生物采矿rdquo,以获得金属钒。ldquo生物采矿rdquo已成新的电子材料工程师们首次创造出双层硼氢化合物西北大学的工程师们首次创造出了基于双层原子结构的平坦硼酚,这一创举违背了硼在单原子层极限之外形成非平面团簇的自然趋势。尽管以其有前途的电子特性而闻名,但是硼酚,一种单原子层厚的硼片天文学家使用X射线放大镜来加强对遥远黑洞的观察据外媒报道,天文学家使用了一个ldquoX射线放大镜rdquo来研究早期宇宙中的一个黑洞系统。一个介入的星系对光线的放大和延伸使天文学家能够探测到两个遥远的X射线发射天体。这些天体研究为什么年龄越老越冷?因为免疫细胞的背叛据外媒报道,人类的进化为我们提供了一定程度的保护,使我们能从体内储存的脂肪中产生热量从而免受低温的威胁。然而随着年龄的增长,人们变得更容易感冒炎症和代谢问题,这可能会导致许多慢性疾韩国首个月球轨道探测器有望于2022年8月发射据外媒报道,韩国科学和信息通信技术部证实,该国的首个月球轨道探测器仍将在明年夏天发射。该任务定于2022年8月升空,并将由SpaceX公司的猎鹰9号火箭送入太空。探测器将需要大约三科学家开发GripAble设备帮助中风患者恢复手臂力量据外媒NewAtlas报道,当某人因中风而导致手臂无力时,他们必须进行重复性练习,以恢复肢体的力量。一种新的设备旨在帮助他们这样做,因为他们使用这个小工具来玩视频游戏。该康复工具由SpaceX分享猎鹰9号火箭在黑暗中着陆的飘渺视频据外媒报道,太空飞行是火热的令人兴奋的和喧闹的,有时候这就是魅力所在。日前,SpaceX分享了一段猎鹰9号火箭助推器返回地球并降落在一艘无人船舶上的短视频。对这家公司来说,这是正常NASA研究表明可能存在比之前预估得更多的褐矮星太空中更有趣的物体之一是位于气态巨行星和恒星之间的褐矮星。美国宇航局进行了一项新的研究,暗示在银河系中可能有更多他们以前认为的这些物体。这项研究正在观察一个名为WISEAJ1534超过三分之一的类太阳恒星都已吞噬了它们的行星就像希腊神话中的赫洛诺斯(Chronos),很多恒星都吞噬了它们的孩子。一项新的研究表明,超过三分之一的恒星吞噬了它们自己的一个或多个行星。这些发现可以帮助天文学家排除不太可能包含研究发现渗漏的下水道使溪流受到大量药物的污染据外媒报道,药品化合物会对环境造成危害。发表在ACS环境科学与技术杂志上的一项新研究发现,在巴尔的摩的一条溪流中,尽管一年中的浓度普遍较低,但一些药物的含量却很高。研究人员表示,由威尼斯洪水评估报告海平面是一个不友好的野兽据外媒报道,今日发表在HazardsandEarthSystemSciences上的新一期特刊的作者指出,一项针对威尼斯洪水风险的新评估表明,本世纪内较高的排放对相对海平面上升的影