快生活 - 生活常识大全

机器学习进入革命阶段


  Yaser Abu-Mostaf PhD
  谈一下AI的相关内容,让大家了解一下AI和机器学习的相关内容。
  首先,我和大家用很简单的语言解释一下什么是机器学习,之后讲两个方面:一个就是演进,就是机器学习的演化,三四十年的变化;再讲一下革命,革命是指过去五年发生的突变。最后讲一些挑战,有些挑战非常有意思,有些是技术的挑战,有些是道德和社会方面的挑战,他们也影响了我们。
  简单介绍一下机器学习。实际上大家都知道数据科学或者说大数据、统计学、数据挖掘,机器学习可以说是智能的核心,这就是为什么叫它AI,人工智能。我们这里看到很多名字,比如说统计学或者说AI或者说数据挖掘等等这些术语,这里有一个共同点,它们都是基于数据技术规律的自动探测。比如说我们假设有一个婴儿,一旦孩子看到一种图案或者说看到一个规律,眼睛都会闪光,他们自己识别出了规律。实际上我们要让数据自动识别规律,这样我们就可以说获得了一定的智能。给大家介绍一下和拍拍贷相关的内容。比如说我们想申请信用卡,不希望信用不好的人申请信用卡,我们希望了解基本的情况,比如说我们了解一下有没有可能不及时还款。机器学习可以给我们带来什么好处?我们看以前的客户,好的行为和坏的行为是什么样的,这些行为是好的,这些行为是不好的。他们申请的时候每个人都提供了申请信息,我们问一下自己,我们用什么来区分好坏。基于历史数据,一旦发生规律之后,有了新的申请者的时候,就可以判断是属于好的那一类还是不好的那一类,这就是用机器学习进行自动信用评级的原理。
  这是两年前哈佛商业评论的文章,他说机器学习非常有潜力,可以用在很多行业上面,改变这些公司。事实上机器学习可以用在很多项目上,比如说时尚、工业设备、脑部损伤诊断,都可以利用机器学习。可能只有工程师,但是没有金融专业的领域知识。机器学习是基于数据的,不管是什么领域,只要给我数据就可以自动识别里面的规律。比如说时尚,我就可以自己进行分析,我们基于不同女性的购买行为,我会给她们提供一些建议,她们最有可能买什么样的衣服。我其实对女性的时尚是完全不知道的,一无所知的,可以说是一个外行,但是基于数据,还是可以给她们很有帮助的建议。
  这就是机器学习的本质。
  数据是一家公司的最大资产
  什么是机器学习呢?首先要有这样一个规律,比如说信用卡申请,假如说几年一直做的都是同一个工作,这个是和信用表现是息息相关的,因此我们要找出这里的規律。实际上有的时候我们没有办法用一个数学模型直接告诉我们该怎么做,我们必须要通过数据来提取其中的规律,我们希望有代表性的数据组。这一点是很有意思的,我刚才和公司的创始人聊天,比如说我们要看拍拍贷的历史的话,一开始的时候没发生什么,突然公司就起飞了。但实际上,在蜇伏期间,他们一直在收集数据,有了数据就有了别人没有的东西,我们积累是需要时间的,因此我们的数据是资产,你要有资产才能进入游戏。
  现在我给大家介绍一下演进部分,就是机器学习的发展情况。为什么过去五年发生了变革,现在人工智能和机器学习都发生了突变?我们从八十年代的时候开始,那个时候神经网络刚刚兴起,那个时候数据量很少,之后越来越多的数据开始被积累起来。越来越多的数据,越来越复杂的模型,以前我们用的是线性的模型,现在用的非线性模型。而且现在计算越来越多,实际上我们预测计算机的速度会发展得越来越快,这也是需要三四十年的积累。
  所以虽然现在已经达到了饱和的阶段,但是这个饱和的阶段仍然有非常大的金矿,这个过程当中我们会做出来更多的进化或者说进展,机器学习也不例外。
  回到刚才信用卡申请的例子,我们来看一下这样的一个申请人,给大家解释一下我们现在的进化在哪里。首先我们有一个非常简单的模型,就是刚才说的一个线性的模型,就是人们刚开始来批贷的时候有的线性模型,评估工作,以及工作的年限、年龄、工资等等。画这样一条线来区分好的客户和坏的客户。随着数据的积累,我们可以开始建立一个非线性模型,我们知道有一些因素之间是有一些相关性的,这里面可能也有一些规律或者说模式。
  因为这个我们就会有很多不同的模型,比如说神经网络,这是非常著名的模型,这就不同于原来所说的线性模型,这种非线性模型就是我们的进化。相比之前的线性模型要强得多。可以让你做出来更好的预测,也就是说现在客户用这样的模型做出更加复杂的决策。可以用在非常多的应用领域,比如说二十世纪九十年代的时候,股票市场等金融数据可以用机器学习,里面有非常多的数据,有很多模型,用户主要是投资银行等等。在2000年的时候,像亚马逊、阿里巴巴电子商务开始起步,他们也开始使用机器学习,然后网站就开始向你推荐一些东西,这些推荐都是基于数据,可以检测一些模式推荐给你买一些东西。在2010年的时候又可以应用于医疗领域。因为在医疗领域我们积累了大量的数据,所以我们可以用大数据来做诊断等等。十年前是没有这么多医疗数据的,经过十年的发展,积累了大量的医疗数据,我们可以用机器学习来做诊断分析等等。有了这种数据积累,我们就能够有更多的机器学习方面的应用。这些数据就是你所拥有的最大资产,可以让你和竞争对手对比的时候具有优势。
  AI,将在各行业无处不在
  我们现在又从进化进入革命阶段,这是过去五年的变化。这五年内发生了什么东西呢?首先我不想劝说或者说服这里面有多大的区别,大家已经看的非常清楚了。在很多领域里面,比如说机器翻译,过去的机器翻译让大家觉得非常的可笑,而现在因为有神经网络的介入,不断改进,就是利用了机器学习的方法。还有语音识别、对象检测等等,在数据、模型、计算方面上都发生了质变。从这样的应用,有这么多的数据,有更多的申请人的数据,可以做决策,这样的决策基于大数据就可以更加智能。这样可以做出全面的剖析。比如说有的人可能喜欢巧克力,这是一个信息,有的人可能喜欢喜剧等等,你觉得他们会去看加勒比海盗,还是不看加勒比海盗这部电影?这样的两个信息可能不足以做出决策,如果有更多更全面的信息,可以对这个人有全面的了解,做出来的决策也是非常切合实际的。我觉得拍拍贷做工作的时候,其实和刚才所说的这些都有非常强的关系,你们看到客户的各个方面的一些信息,然后决定是好的客户还是坏的客户,这是第一点。
  我们再来看模型。模型现在有深度神经网络,原来只有两三层,现在已经有十层二十层了,区别是什么呢?因為有了这么多的层级,有里面的计算,就可以用最好的输入变量给大家进行分析,比如说你看到我,不是根据一个像素进行分析我的,你可以通过各个方面进行分析。比如说这个人有数千数万的像素,可以通过像素了解人,然后对它进行剖析,我们做这一点的时候,我们可能会失去某些细节。我们要深入分析各个细节,然后再分析哪个细节哪个像素对你整个人的分析是最重要的。然后进入神经元分析。
  接下来是计算方面。计算速度快速提升,过去十几年二十几年你的计算机可能运算速度非常慢,但是现在完全不一样了,速度大幅度提升,还有一些商用硬件,比如说图形处理器GPU等等,现在机器学习速度方面提高了两个量级。也就是说在过去如果你要用一些计算的话,可能要一个月,甚至一年才能得到一个结果。但是现在因为计算速度的提升,可能下一周甚至本周就可以得到答案,而且我们用了这么多的模型。也使计算速度和智能水平大幅度提升。一个非常智能的例子就是AlphaGo,打败了人类的智慧。这个机器是自身学习的,也就是说自己和自己下象棋,然后找到一些新的动作,这是人类之前从来没有用过的动作,他就打败了人类的智慧。我们发现这样一种方法可以极大地改善智能水平。刚才有说到Fendy,我们说Fendy Fendy你得醒过来等等。以后不需要叫两遍才让Fendy醒过来,这是我们努力的方向。我们的人工智能取得的进步是长足的。
  我再讲一下挑战。实际上技术挑战没什么好讲的,我们从某种程度上讲,有两个挑战。刚才讲到了技术挑战,再讲一下安全的风险,以及其他的风险,对于人工智能和机器学习来说有很多社会上的挑战。我们看现在的计算机或者说现在的程序,最可怕的问题就是安全问题,比如说黑客的入侵,还有泄露的问题是很可怕的。大家发展技术的时候并没有想太多安全问题,现在我们正在补足,我们必须要好好想一下安全问题。现在很多人担心超级智能,我觉得这不需要担心,我觉得黑客入侵还是一个主要威胁。还有很多社会方面的挑战,大家可能会失业,AI可以做人的工作了,我们必须要提前规划。还有另外一个方面的社会问题,比如说大家都用智能手机,iPhone自己就成为了一个非常有趣的人了。以后大家都不愿意和人沟通了,像孩子一样,实际上大家只想和手机玩,也是另外一个方面的考虑,供大家参考。
  * 作者系加州理工学院(California Institute of Technology)电气工程和计算机科学(Electrical Engineering and Computer Science)教授,主要研究领域为机器学习(Machine Learning)和计算金融学(Computational Finance);IEEE神经网络协会(IEEE NNC)创始人之一;神经信息处理系统进展大会(NIPS)创始人之一;第二届和第四届国际资本市场中的神经网络会议(NNCM)主席;第六届国际计算金融学会议主席;他的《Learning from Data》是亚马逊机器学习领域全美最畅销书,全球超过400万人通过他的线上教学视频学习机器学习。Abu-Mostafa教授分别拥有开罗大学(Cairo University)、佐治亚理工学院(Georgia Institute of Technology)、加州理工学院(California Institute of Technology)的本科、硕士、和博士学位。
  ● 本文由智慧金融研究院、拍拍贷授权;原题方向为"人工智能: 过去、当前、未来",为最大程度保障文本精华、原意,以及阅读需要,本刊仅做题目及内容分层进行编辑。
网站目录投稿:雪容