离2018年结束还有9天,著名的数据科学网站KDnuggets邀请了11位国外机器学习和人工智能专家来回顾2018年机器学习和人工智能的主要进展,并展望2019年将出现的主要趋势。 虽然没有像吴恩达、李飞飞这样的顶级咖啡馆,但是这11个人都站在工业、学术和技术的前沿。他们包括英伟达的机器学习研究主任、加特纳的机器学习小组负责人、华盛顿大学的计算机科学与工程教授。他们可以从不同的角度观察人工智能的过去和未来。 回首2018年:研究的焦点已经从标准的监督学习转移到更具挑战性的机器学习问题,如半监督学习、领域适应、主动学习和生成模型。GAN仍然非常流行,研究人员正在尝试更困难的任务,如bigGAN和视频-视频合成。ve生成模型(如神经渲染模型)是在单个网络中结合生成和预测来辅助半监督学习的。 研究人员已经将深度学习的应用扩展到许多科学领域,如地震预测、材料科学、蛋白质工程、高能物理和控制系统,在这种情况下,领域知识和约束与学习相结合。 我们将看到新的领域自适应技术的发展,以无缝地将知识从仿真转移到现实世界。使用仿真将有助于我们克服数据稀缺性,加速学习新的领域和问题。将人工智能从仿真变成真实数据(Sim2real)将对机器人学、自动驾驶仪、医学产生重大影响。仿真是解决诸如自动驾驶仪等安全关键应用中所有可能出现的情况的好方法。构建在复杂仿真器中的知识将以新的方式用于增强人工智能的物理意识和强大,并且可以扩展到新的和不可见的场景。 这是我自己作为从业者的观点,并不代表Gartner基于研究的官方声明。 回首2018年:学术界的TensorFlow输给了PyTorch。有时Google的巨大影响力可能会把市场推向次优方向,因为MapReduce和随后的Hadoop狂热已经发生了。 深假(和类似的声音技术)粉碎了最可信赖的信息来源:视频。没有人敢再说一遍:我看到那个人说这些话的视频。几十年前,我们不再相信印刷,但直到现在,视频仍然是不可动摇的。 对于Google来说,取代人们打电话给餐馆,假装自己是一个真正的人类系统是一个里程碑。然而,它却引发了许多关于道德和人工智能的问题。 个人助理和聊天机器人很快就达到了他们的极限。他们比以往任何时候都好,但不如去年的预期。 1)我希望每个人都对今年的AutoML承诺感到兴奋。我也希望它失败(除了一些非常具体且定义明确的情况,例如不依赖于手动图像识别、机器翻译和文本分类,其中原始数据作为输入接近机器的期望,并且数据是丰富的)。 2)营销自动化:利用成熟的代际对抗网络和可变的自动编码器,可以生成成千上万张同一人或同一张图像的图像,并且这些图像之间的面部表情或情感差异很小。GN。 据一些媒体甚至一些研究人员称,由于剑桥分析,特朗普赢得了2016年的选举,机器学习算法充满了偏见和歧视,机器人正在取代我们的工作,并将很快接管我们的生活,等等。联合国正在就AI武器禁令等问题展开激烈的辩论。公众对人工智能的看法越来越模糊,这是危险和不公平的。 2018年,一些趋势开始迅速流行。一个是自动机器学习,另一个是强化学习。这两种新趋势将在2019年进一步发展。作为我在牛津大学物联网中数据科学教学内容的一部分,我认为物联网将日益融入大型生态学。诸如自动驾驶汽车、机器人和智能城市等系统。 到2019年,一种新的机器人技术,即合作机器人(cobots),将成为一个关键趋势。与以前的生产线机器人不同,新的机器人将能够独立移动和理解情绪(在我的课程中,我们还与情绪研究实验室在这个领域合作)。 我的最后一点可能有争议:在2019年,数据科学家的角色将从研究转向产品开发。我认为人工智能与下一代数据产品的诞生密切相关。数据科学家的角色将相应地改变。 我们在2018年目睹的一个变化是开源工具数量的增加,这些工具降低了AI的技术障碍,使每个人都更容易访问AI,并加强了不同组织之间的协作。 同样,在2019年,我们将看到关注人工智能的公司数量增加。Google和微软最近推出了旨在让人工智能为社会服务的项目,随着全社会为企业提出了更高的社会目标,这种将人工智能技术转化为对社会有积极影响的趋势正得到越来越多的支持和动机。 首先,我想提一下,我的观点可能会惹恼一些人,但我认为这是对2018年的合理解释:最大的进步是没有进步! BigGAN是一个GAN,只是更大。GANS的逐渐发展产生了非常有趣的结果,但是从某种意义上说,它已经迈出了一大步。 在NLP中,今年最重要的故事是ELMO和BERT的情景嵌入。这些绝对是惊人的进步。 但至少戴安德鲁(AndrewDai)和QuocLe(QuocLe)自2015年或2016年起就开始训练语言模型,并对下游的分类任务进行了微调,尽管规模较小。所以我认为今年没有什么大想法。 虽然没有什么好主意,但是今年还是有积极的一面。也许我们没有充分利用现有的技术。硬件、系统和工具的快速发展可能导致第二次飞跃。 在我看来,深层学习理论正在涌现出许多新思想,许多研究者,包括桑杰夫·阿罗拉、马腾宇、丹尼尔·索德、纳蒂·斯雷布罗等,正在做一些非常令人兴奋的工作。 现在有一种新的探究模式,它把理论与实验更紧密地结合起来。你开始看到受实验启发的理论论文,实验的理论论文。 最近,我从一个鼓舞人心的经历中学习到,我们可以从以前从未见过的理论论文中得到自然现象。 我认为,在2019年及以后,应用机器学习将会有良好的发展,我们渴望进入所有这些声称解决问题的实践领域。但是到目前为止,我们唯一可以依赖的是监督学习。 目前,模式匹配仍然受到一些困难问题的限制。受监督的模型可以找到关联,但是它们不能找到原因。我们不知道哪些信息可以安全地依赖于,因为它们可能随着时间而改变。这些模型没有告诉我们干预将产生什么影响。 我认为,在明年,我们将看到更多的情况,其中机器学习项目被放弃,或他们陷入麻烦,因为黑箱性质。 我们将看到社会上最有创造力的成员做出一些改变。与其盲目地列清单,不如多注意填补代表性学习和因果推理之间的空白。 对于我来说,2018年的机器学习很复杂。例如,由于ULMFiT等用于文本分类的技术和来自转换器的BERT技术,转移学习得到了广泛的应用和兴趣,尤其是在自然语言处理方面。 这些并不是NLP在过去一年中的唯一进步;需要注意的是语言模型嵌入(ELMo),一种深度上下文化的词表示模型,它在模型的每个任务上都做了相当大的改进。 今年的其他突破似乎集中在对现有技术的改进,如BigGAN。此外,由于许多倡导团体成员的声音,关于机器学习的包容性和多样性的非技术讨论已经成为主流(NeurIPS就是一个例子)。 我相信到2019年,随着这些领域的潜在应用日益得到重视,研究重点将从监督学习转向强化学习和半监督学习。前机器应用学习。 作为业余自动机器学习(AutoML)的传播者,我相信AutoML会逐步改进,以便实现常见的有监督的学习任务,这些任务可以自信地选择算法,并通过可用或不完整的方法来优化超级参数。 我认为自动化机器学习的一般观点将会改变(或者已经达到一个临界点):从改变开发人员到扩展他们。AutoML将不再被视为机器学习工具箱的替代品,而是作为机器学习工具箱中包含的另一个工具。每天使用工具并知道如何操作。 2018年的一个重要趋势是数据科学教育机会的增多和成熟,在线课程已经成为数据科学教育的原始场所。这些课程在各级都很受欢迎,每年都有更多的学生、发展和新的主题。 在学术界,新的数据科学硕士课程正以每年十几门左右的速度增长。我们的大学正在响应公司和学生的要求,为数据相关领域提供具体计划。 在2019年及以后,数据科学学术计划将更一般地帮助人们学习基本技能,以实现第一批数据科学工作。这是一件好事。获得认证的机构将填补这一领域的长期空缺。 到目前为止,数据科学资格在很大程度上可以充实以前的工作经验。这就产生了一个第22条。新数据科学家不能证明他们的资格,因为他们从来没有数据科学经验,而恶性循环是这些人不能得到工作,因为他们不能证明他们的资格。教育机构证书是打破这种循环的重要途径。 但是网上课程并非无处不在,因为很多人无法保证大学教育所需的时间和经济性。 现在这些课程已经出现,数据科学教育将总是有实用的方法。通过项目工作的经验和在线培训,新的数据科学家有机会展示他们的技能,即使没有学位。在线课程和课程将继续变得更加普遍和复杂,并且对于数据科学更加重要。CE教育。 事实上,一些著名的数据科学和机器学习项目已经将相关课程上传到互联网上,甚至为非预科生提供入学选择。我预计,大学数据科学学位与在线培训课程之间的界限将进一步模糊。 首先,欧盟颁布了《全球数据保护条例》(GDPR),旨在提高个人数据使用的公平性和透明度。该条例赋予个人控制个人数据和知道如何使用个人数据的权利,但同时也引起了法律解释上的混乱。GDPR的结果是许多公司对数据处理做了一些肤浅的改变,认为自己很顺从,忽略了重新设计数据存储和处理基础设施的基本需要。 其次,剑桥分析丑闻给整个数据科学界蒙上了一层阴影。如果之前的辩论集中在确保人工智能和ML产品的公平性上,那么这个丑闻就提出了更深层次的道德问题。Facebook参与这一事件的最新调查表明,这些问题不会很快消失。成熟了,这在许多行业都会发生,不只是在政治领域。有些案例甚至更悲惨,比如亚利桑那州的Uber自动驾驶汽车案,它将引发强烈的公众反应。技术是力量,权力是责任。 最后,更积极的是,亚马逊最新自主开发的服务器处理器芯片意味着普通人访问云计算将不再是一个成本问题。 对于ML、AI和数据科学从业者来说,2019年的主要趋势是遵循已建立的软件开发实践的日益增长的责任,特别是在测试和维护方面。专有软件的意图将应用于我们建立的模型和解决方案。这意味着最好的软件开发实践将支持我们需要遵循的机器学习规则。 反乌托邦的滥用人工智能,包括由仇恨团体和独裁者监视和操纵,正受到越来越多的关注。 迁移学习是将预训练模型应用于新的数据集的实践,迁移学习是计算机视觉爆炸式发展的关键因素。在2018年,它成功地应用于NLP,包括快速ULMFiT。AI和SebastianRuder,Allen研究所的ELMo,OpenAItransformer和Google的BERT。这些进展令人兴奋和担忧。 诸如Facebook在缅甸种族灭绝中的决定性作用、YouTube对阴谋论的不成比例的推荐(其中许多是宣扬白人至上的)以及AI在政府和执法监督中的运用,这些持续存在的问题在2018年引起了主流媒体的日益关注。好在越来越多的人开始意识到这一点,并且越来越多的人开始反击。 我预计,随着全国人民党(正如塞巴斯蒂安·鲁德(SebastianRuder)的迅速发展,全国人民党(NLP)的ImageNet时代已经到来)以及更多反乌托邦的发展,这些趋势将在2019年继续,包括如何使用技术监测、煽动暴力和操纵危险的政治运动。 第一次是在三月份。艾伦人工智能研究所和华盛顿大学的研究人员发表了深度上下文化词语演示,提出了ELMo(从语言模型嵌入),一种开放源码的深度上下文化词汇表示,可以改进无上下文嵌入,如Word2vec或Gl。通过简单地替换ELMo预训练模型中的向量,证明了现有NLP系统的改进。 第二个是在11月。Google有开源的BERT(Transformers的双向编码器表示),一种在维基百科语料库上预先训练的双向无监督语言表示。正如作者在n种不同的NLP基准,甚至比ELMo更强。 从智能扬声器的迅速普及(到2018年底大约有1亿)到移动电话数字助理的普及,自然语言理解的进展正在从实验室迅速转向现实世界。 同样在今年,艾伦研究所的研究人员发布了Swag:一个基本常识推理的大型对抗数据集(Swag:Alarge-largealAdversarialDataSetforGroundCommonsense),这是一个用于需要常识理解才能完成任务的句子的数据集。以及人的表现。 但希望我们能在2019年看到更多NLP的突破。许多计算机科学界最优秀的人士正在这个领域工作,工业界也渴望应用他们的成果。