教育房产时事环球科技商业
投稿投诉
商业财经
热点动态
科技数码
软件应用
国际环球
晨报科学
新闻时事
信息智能
汽车房产
办公手机
教育体育
生活生物

历经6年AI终于在读图会意上超越人类

  前不久,在中文语言理解权威评测基准CLUE中,阿里巴巴的AI模型在新闻文本上超越了人类识别精确度。现在“读图会意”上,阿里巴巴达摩院在VQA上也超越了人类,这是榜单设立6年来的首次。
  8月12日,国际权威机器视觉问答榜单VQA Leaderboard出现关键突破:   阿里巴巴达摩院以81.26%的准确率创造了新纪录,让AI在“读图会意”上首次超越人类基准。
  继2015年、2018年AI分别在视觉识别及文本理解领域超越人类分数后,人工智能在多模态技术领域也迎来一大进展。
  达摩院AliceMind在VQA Leaderboard上创造首次超越人类的纪录
  “诗是无形画,画是有形诗。”宋代诗人张舜民曾描绘语言与视觉的相通之处。“读图会意”,即通过视觉理解信息,是人类的一项基础能力,但对AI来说却是要求极高的认知任务。
  解决该挑战,对研发通用人工智能有重要意义。近10年来,AI在下棋、视觉、文本理解等单模态技能上突飞猛进,但在涉及视觉-文本跨模态理解的高阶认知任务上,AI过去始终未达到人类水平。
  为攻克这一难题而设立的挑战赛VQA Challenge,自2015年起先后于全球计算机视觉顶会ICCV及CVPR举办,吸引了包括微软、Facebook、斯坦福大学、阿里巴巴、百度等众多顶尖机构踊跃参与,并形成了国际上规模最大、认可度最高的VQA(Visual Question Answering)数据集,其包含超20万张真实照片、110万道考题。
  VQA是AI领域难度最高的挑战之一。在测试中,AI需根据给定图片及自然语言问题生成正确的自然语言回答。
  这意味着单个AI模型需融合复杂的计算机视觉及自然语言技术:  首先对所有图像信息进行扫描,再结合对文本问题的理解,利用多模态技术学习图文的关联性、精准定位相关图像信息,最后根据常识及推理回答问题。
  VQA技术自2015年的进展
  今年6月,阿里达摩院在VQA 2021 Challenge的55支提交队伍中夺冠,成绩领先第二名约1个百分点、去年冠军3.4个百分点。两个月后,达摩院再次以81.26%的准确率创造VQA Leaderboard全球纪录,首次超越人类基准线80.83%。
  VQA的核心难点在于对多模态信息进行联合推理认知,即在统一模型里做不同模态的语义映射和对齐。
  据了解,  达摩院NLP及视觉团队对AI视觉-文本推理体系进行了系统性的设计,融合了大量算法创新,包括多样性的视觉特征表示、多模态预训练模型、自适应的跨模态语义融合和对齐技术、知识驱动的多技能AI集成等,让AI“读图会意”水平上了一个新台阶。
  VQA技术拥有广阔的应用场景,可用于图文阅读、跨模态搜索、盲人视觉问答、医疗问诊、智能驾驶等领域,或将变革人机交互方式。
  报道显示,这不是阿里达摩院第一次在AI关键领域超越人类基准。2018年,达摩院曾在斯坦福SQuAD挑战赛中历史性地让机器阅读理解首次超越人类,引发海外媒体关注。
  今年以来,达摩院在AI底层技术领域动作频频,先后发布了中国科技公司中首个超大规模多模态预训练模型M6及首个超大规模中文语言模型PLUG,并开源了历经3年打造的深度语言模型体系AliceMind( https://github.com/alibaba/AliceMind ),其曾登顶 GLUE等六大国际权威NLP榜单。
  【来源:快科技】【作者:宪瑞】

微软今天起加速推广Windows11让更多Win10设备免费升级今天微软发布了Windows102021年11月的更新,此后的下一次重大更新将在2022年晚些时候推出。推出完上述更新后,微软方面表示,从今天开始加速推广Windows11,这其实铠侠发布M。22230规格BG5SSD支持PCIe4。0铠侠近日发布了最新的BG5系列迷你SSD,但不再是以往单芯片整合主控闪存的M。21620形态,而是变成了双芯片的M。22230。虽然还是比主流的M。22280小得多,只相当于一张邮腾讯视频微信读书之后腾讯又一款APP全面支持云闪付11月16日,腾讯动漫App宣布全面支持云闪付,成为继腾讯视频微信读书之后第3个抢先开启互联互通的腾讯系App。当用户在腾讯动漫App进行充值或付款时,可自行选择微信支付或云闪付作微软现阶段没有计划将新Emoji引入到Windows10系统中在日前发布的可选更新中,微软向Windows11用户开放了基于FluentDesign的全新Emoji系列,其中就包括具有非常高知名度的大眼夹(Clippy)。但遗憾的是,微软现阶市面最快量产车特斯拉ModelSPlaid将配碳陶瓷刹车套件近日,特斯拉宣布将在2022年中期,为旗下最速量产车ModelSPlaid车型提供碳陶瓷刹车套件,据悉,该套装的成本已达2万美元,约合人民币12。78万元。ModelSPlaid作GalaxyS22Ultra相机规格曝光后置主摄未升级2亿像素近年来,三星一直在努力维持其GalaxyS旗舰产品的优秀相机规格。但若近期的传闻靠谱,那这家韩国电子科技巨头或不会在明年初的GalaxyS22系列旗舰产品上首发2亿像素的后置主摄,聚焦核心入口OPPO连发多款IoT新品OPPO正式发布全面升级的人像视频手机OPPOReno7系列。与手机同时发布的还有OPPO智能电视R1乐享版EncoFree2i颈挂耳机EncoM32OPPOWatchFreeNF英伟达最新AI技术可将文字转化为逼真的图像英伟达的GauGAN技术已经展示了它的能力将简单的草图变成逼真的图像。从那时起,我们看到它被应用于NVIDIACanvas,但似乎这家GPU巨头正在用其人工智能(AI)瞄准更高的目GucciXboxSeriesX售罄全球限量100套全球限量100套,每套售价10000美元!GuccixXbox联名的XboxSeriesX套装现已全部售罄。这意味着任何希望得到其中一个的收藏家都可能需要支付比原价更高的价格。几年POCOX4X4NFC现身IMEI数据库距离上市不远了今天,POCOX4和POCOX4NFC两款手机现身IMEI数据库,表明距离上市已经不远了。数据库图片显示,POCOX4的型号为2201116PI,POCOX4NFC的型号为2201真开源了!NVIDIA发布LinuxGPU驱动源代码近日,NVIDIA宣布,从R515版驱动程序开始,将以开源的形式发布LinuxGPU内核驱动,且开源具有GPL和MIT双重许可证。NVIDIA表示,此次开源的目的之一是改善其GPU
沃尔沃位于南卡罗来纳州的工厂将专门制造电动汽车据外媒CNET报道,沃尔沃将对位于南卡罗来纳州的汽车工厂将进行电动化改造。根据AutomotiveNews周一的报道和对多位高管的采访,该工厂将过渡到只生产电动汽车。报道称,随着这234台红旗车正式发往沙特!H9受皇室钟爱作为国产车中的豪华品牌,红旗近些年来除了在国内热销之外,也开始逐步走向海外市场。昨日,红旗官微发布消息称,6月21日,234台红旗车由天津港启程正式发往沙特,这是继去年12月红旗向苹果客服回应iPhone12Mini停产尚未收到通知日前,有多方消息称已经确认iPhone12Mini机型在上周就正式停产,而且是苹果主动将其停产,在停产之前的两个月都有很严重的减产。这则消息在网络上持续发酵,甚至一度冲上热搜第二,中国科大实现500公里量级现场无中继光纤量子密钥分发来自中国科大的消息显示,近日,中国科大教授潘建伟及其同事张强陈腾云与济南量子技术研究院王向斌刘洋等合作,利用中科院上海微系统所尤立星小组研制的超导探测器,基于ldquo济青干线rd主流游戏适配华为鸿蒙HarmonyOS,体验有明显提升自华为鸿蒙系统发布以来,用户数量迅速攀升,不到一周就突破了1000万。虽然鸿蒙系统兼容安卓应用,并且许多应用开发商针对鸿蒙系统进行了优化,但不少用户担心鸿蒙系统在游戏方面的表现。据Gaussin推出氢能卡车的滑板平台提供500英里里程据外媒NewAtlas报道,通过现代和丰田等大公司的试验和预告,我们看到了氢气如何在实现可持续发展的卡车运输中发挥重要作用,法国公司Gaussin推出了一个多功能的ldquo滑板r目前只有iPhone12ProMax采用6。7英寸,如果消息属实,那么就意味着明年在购买iPhone14的时候能够以更便宜的价格购买到这样的大屏幕。iPhone12ProiPhon谷歌Stadia云游戏终于登陆AndroidTV平台2018年11月正式上线的GoogleStadia云游戏服务,已经陆续在诸多平台上启用。然而谷歌自家主导的AndroidTV智能电视平台,却迟迟未能迎来Stadia云游戏。好消息是比亚迪回应停产燃油车目前没有此计划作为全球首家量产插电混动的车企,比亚迪新能源汽车销量已经累计突破100万辆,成为首个进入新能源汽车ldquo百万辆俱乐部rdquo的中国品牌。近日,一条ldquo比亚迪将停产燃油车安森美半导体推出业界首款图腾柱PFC控制器安森美半导体(ONSemiconductor)推出业界首款专用临界导通模式(CrM)图腾柱PFC控制器,这是该公司超高密度离线电源方案集的新成员。在传统的PFC电路中,整流桥二极管全球芯片短缺,日产汽车下个月将调整数家工厂生产6月23日消息,据国外媒体报道,自2020年下半年以来,芯片短缺问题就成为半导体行业的主旋律。如今,该问题已经在很大程度上影响了汽车行业,其中包括日产汽车。当地时间周二,三位消息人