机器怎么样(机器周期)
【新智元导读】在机器学习深入工业界时,实际操作并没有想象中那么简单。要部署任何项目,都需要经过完整的生命周期,而这个周期对于开发机器学习模型至关重要。此文深入全面总结了从零开始到正式上线过程中的所有步骤,并总结了各个步骤的常用工具。
在这个「人人AI」的时代,很多人都会或多或少接触过机器学习(ML)。
似乎每一家需要数据的公司,都在尝试利用人工智能和机器学习来分析他们的业务并提供自动化解决方案。
「《财富》的商业洞察板块(Fortune Business Insights)预计,到2027年,机器学习的市值将达到1170亿美元。」
机器学习的火爆,使得许多没有相关背景的新手也纷纷跨入该行业。当然,这本身确实是一件好事,然而,我们也需要明白,将机器学习项目整合到实际生产环境中,其实远没有想象的那么容易。
图:Algorithmia公司基于750家企业得出的2020企业ML使用状态图像
「Algorithmia公司经过调查表示:55%从事机器学习模型的企业尚未将其投入生产」
在这里可以一提的是,Algorithmia是一家提供简化机器学习的平台的创业公司,它在2017年6月已经从谷歌那里完成了一项价值1050万美元的a轮融资。
许多人似乎认为,如果有了训练模型所需的数据和计算资源,实现机器学习项目是相当简单的。
但是,其实这是大错特错的——
这种假设很可能会导致在没有部署模型的情况下,消耗大量的时间和金钱成本。
图:机器学习生命周期的朴素假设
在本文中,我们将深入详细地讨论机器学习项目的生命周期实际上是什么样子的,以及周期内每个阶段可以用到的一些工具。没有那么简单:机器学习生命周期一览
在现实中,机器学习项目并不简单,它是一个在改进数据、模型和评估之间循环往复的过程,并且永远不会真正完成。
这个循环对于开发机器学习模型至关重要,因为它侧重于使用模型结果和评估来细化数据集。此外,高质量的数据集是训练高质量模型最可靠的方法。
这个循环的迭代速度,决定了你需要花费的成本。幸运的是,有一些工具可以帮助你在不牺牲质量的情况下,加速这个循环。
图:机器学习生命周期的一个真实例子
与任何系统非常相似,即使是已经部署的机器学习模型,也需要不断的被监控、维护和更新。我们不能只是部署一个模型,然后忘记它,期望它在接下来的时间里,像在测试集上一样,在现实世界中有着很好的表现。
部署在现实世界环境中的机器学习模型需要被更新——因为我们会发现模型中的偏差,或者添加新的数据源,或者需要额外的功能等等。
而这些都会将整个项目带回到数据、模型和评估周期中。
下一节,我们将深入探讨机器学习生命周期的每个阶段,并重点介绍各个阶段可以用到的当下流行的工具。阶段一:数据部分
图:机器学习周期的数据部分
虽然大家的最终目标是一个高质量的模型,但训练一个好的模型的关键之一,在于传递给它的数据的数量。
机器学习生命周期中,数据方面的相关步骤是:
1、数据收集
第一步,是在不管最终的数据质量的情况下,先收集尽可能多的原始数据。在这部分原始数据中,只有一小部分数据会被注释,这也是大部分成本的来源。
而当模型性能出现问题时,根据需要添加大量数据是很有用的。
下面是常用的公共数据集列表:
https://medium.com/towards-artificial-intelligence/best-datasets-for-machine-learning-data-science-computer-vision-nlp-ai-c9541058cf4f
2、定义注释模式
这个环节,是生命周期里数据阶段最重要的部分之一,而它却经常被忽视。
如果构造了不良的注释模式,那么会出现不明确的类和边缘案例,从而使训练模型变得更加困难。
例如,目标检测模型的性能很大程度上取决于大小、定位、方向和截断等属性。因此,在注释期间将目标大小、密度和遮挡等属性囊括其中,有助于模型可以学习到数据中的关键信息。
下面两个是有助于这个过程的常用工具:
Matplotlib, Plot - 帮你发现数据中的Plot属性
Tableu -可以帮助你更好理解数据的分析平台
3、数据注释
给数据注释是一个冗长乏味的过程,每次都要连续数小时地执行相同重复的任务,这也是注释服务蓬勃发展的原因之一——很多人并不想亲手花大量时间在注释上。
而这样会导致注释者可能犯了很多错误:虽然大多数注释公司都会说明最大误差率(例如2%的最大误差率),但更大的问题是,如果定义不当的注释模式,会导致注释者以不同的方式标记样本。
然而,注释公司的团队很难发现这一点,所以你需要自己检查。
下面是常用的各种注释服务:
Scale, Labelbox, Prodigy - 流行的注释服务
Mechanical Turk - 众包注释
CVAT - DIY的计算机视觉注释
Doccano - NLP专用注释工具
Centaur Labs -医疗数据标签服务
4、改进数据集和注释
在尝试改进模型性能时,你可能会花费大量的时间。
如果模型正在学习的过程中,但性能却不佳,那么罪魁祸首几乎总是包含偏差和错误的训练数据集,这些偏差和错误限制了模型的性能上限。
改进模型通常会涉及到硬样本挖掘(比如如果模型在数据集A上表现不好,那么就在训练数据中添加类似于数据集A的新数据)、根据模型了解到的偏差重新平衡数据集,以及更新注释模式以添加新标签和改进现有标签。
下面是常用的改进数据集和注释的工具:
DAGsHub - 数据集版本控制
FiftyOne - 将数据可视化并找出错误
阶段二:模型部分
图:机器学习生命周期中的模型部分
即使在这个过程中的输出是「看起来很重要的模型」,但其实,在整个循环当中,这部分所需要花费的时间是最少的。
图:在工业界,花费在数据集上的时间比花在模型上的时间更多
探索现有的预训练模型
这个环节的目标是用尽可能多的可用资源,给建立模型的过程一个最好的开始。
「迁移学习」是当今深度学习的核心内容:我们可能不会从头开始创建一个模型,而是对一个已存在的模型进行微调,而该模型是在相关任务上预先训练好的。
例如,如果你想创建一个口罩检测模型,那么你可能会从GitHub下载一个预先训练好的人脸检测模型,因为这个人脸检测模型发展更成熟,更流行,也有更多的前期工作铺垫。
下面是该环节常用的工具和方法:
FiftyOne model zoo - 使用一行代码,即可下载和运行模型
TensorFlow Hub - 训练过的ML模型仓库
modelzoo.oo - 为包含了各种任务和库预先训练的深度学习模型
构建训练循环
你的数据可能并不会和用来预训练的数据完全属于同一类型。
比如,对于图像数据集,在为模型设置训练pipeline时,需要考虑输入分辨率和对象大小等因素。
此外,你还需要修改模型的输出结构,以匹配标签的类和结构。PyTorch lightning就提供了一种简单的方法,使用这种方法,即可用有限的代码扩大模型训练。
下面是该环节常用的工具:
Scikit Learn - 构建和可视化经典机器学习系统
PyTorch, PyTorch Lightning, TensorFlow, TRAX - 流行的深度学习Python库
Sagemaker - 在Sagemaker IDE中建立和训练机器学习系统
实验跟踪
在整个周期内,这一环节可能需要多次迭代。
你最终会训练出很多不同的模型,所以你需要仔细地跟踪模型的不同版本,以及训练时用到的超参数和数据,这将极大地帮助你保持事情的条理性。
在这个过程中,常用的工具有:
Tensorbord,Weights
六一节发朋友圈说说(适合六一发朋友圈的句子)六一节发朋友圈说说(适合六一发朋友圈的句子)1好看的皮囊千遍一律,有趣的灵魂要过六一。Goodlookingskinsarethesame,andinterestingsoulsh
五岭逶迤(五岭逶迤腾细浪怎么读)五岭逶迤(五岭逶迤腾细浪怎么读)大家好,我是老刘,今天继续讲述下老刘的长征路自驾旅行预演必须了解的知识点,今天老刘就跟大家一起了解一下五岭是哪五岭?这五岭将是老刘自驾长征路时必去游
走西口是什么意思(走西口的女人是什么意思)民间所说的走西口中的西口指长城北的口外。走出山西杀虎口,就到了昔日由山西人包揽经商天下的归化与绥远(统称归绥)库伦和多伦乌里雅苏台和科布多及新疆等地区。杀虎口还是通往蒙古恰克图和俄
品牌是在哪里(乌蒙山在哪里)新华网昆明11月6日电(记者吉哲鹏)记者从6日召开的2017昭通苹果品牌推介会上获悉,经过近80年的发展,地处乌蒙山集中连片特困地区的昭通市苹果种植面积达40万亩,其中种植面积9万
成都环球购物中心(成都环球中心奢侈品)成都环球购物中心(成都环球中心奢侈品)夏日来临,因高温让人烦躁的心情,似乎只有在水上才能平静。但是,阳光加持的户外玩水项目,即使涂抹了防晒霜也会黑一圈,这样的效果让人望而却步。有哪
环球网校怎么样(环球网校是国家批准的吗)来源环球网环球网教育报道近日,教育培训机构乱象受到社会广泛。目前市场上的培训机构和培训项目种类繁多,包括考学辅导语言培训职业技能培训等。然而培训机构的授课内容收费标准是否合理合规?
早恋7条标准(早恋没有错)早恋7条标准(早恋没有错)姚荣专栏早恋没有错,只是我们别毁了它的美好原创作者姚荣(湖北省襄阳市南漳县高级中学心理咨询室)青春期对大部分孩子来说是人生的一个艰难时期,是一个孤独和迷茫
男人变态有什么错(男人变态有什么错原图)大家好,我是动漫呱呱叫!来自二次元的网络流行语大家有没有过这种经历?某事某刻脑海里就突然想起动漫里的名台词。比如呱呱喜欢听日语歌,在听到名侦探柯南的主题曲时,脑海就自动播放工藤新一
错错错莫莫莫(莫莫莫错错错唐婉)红酥手,黄縢酒,满城春色宫墙柳。东风恶,欢情薄。一怀愁绪,几年离索。错错错。春如旧,人空瘦,泪痕红浥鲛绡透。桃花落,闲池阁。山盟虽在,锦书难托。莫莫莫!陆游钗头凤这是一首广为流传的
为什么叫水花兄弟(最好的水花兄弟)水花兄弟这个组合的由来是当时水花兄弟名字的由来2012年12月21日,勇士与当时夏洛特山猫的比赛中,勇士推特用了SplashBrothers的话题,从此该名号开始广为流传。水花兄弟
海尔兄弟为什么只穿裤衩(海尔兄弟为什么只穿内裤的相声)海尔兄弟绝对国产动画里,宣传效应最好的。为何如此的讲,我想大家肯定能联系到。海尔兄弟同样是被称之为周产产品最牛X的动画,远的咱们不谈,在国内算是海尔兄弟要是称之为老二,动画周边应该
今日广州期货价格广东万通期货经纪公司的第一大股东将变更为广州开发区智造产业投资。人民币兑丹麦克朗汇率今日4月12日100人民币等于多少丹麦克朗。中美贸易问题持久化新棉期货行业前途上广州市期权培训市预期供应充足下交流圈
围兜英文(婴儿围兜英文)围兜英文(婴儿围兜英文)原创文章,未经允许请勿转载本文,违权必究。授权转载请标明来源及作者头条号ViTalk旅游英语。在做家务下厨房等时候,帮助我们保护衣物的围裙,英语该怎么说?今
应聘技巧(十个应聘时的技巧)应聘技巧(十个应聘时的技巧)1。自我介绍一般人的自我介绍都太过简单,基本上说的都是简历上有的东西。其实企业最希望知道的是是否能胜任这项工作,和一些与这项工作有关的实习或者工作经验,
怎么写自荐信(个人自荐信范文)您好!怀着对贵校的尊重与向往,我无比真诚地写了这封自荐信,向您展示一个完全真实的自我,恳请贵校能给一名满腔热情的学子一次锻炼成长的机会。我叫沈,女,今年23岁,是西南大学外国语学院
当兵怎么样(有多少孩子在部队得精神病的)兵哥哥,你们是不是都有病?先放下你们愤怒的拳头,别打我的脸。我说的是,当了这么多年兵,是不是都有病,职业病?1hr有没有脚气?负重五公里之后,一脱下那双战靴,总有一阵轻烟冒出,伴随
c照多久审(c照到期了怎么审)2021年c1驾驶证换证新规定机动车驾驶人可以在机动车驾驶证有效期满前90日内,向机动车驾驶证核发地车辆管理所申请换证。驾驶证办理换证时需要带身份证原件和复印件驾驶证身体条件证明一
电脑怎么打(电脑怎么打电子稿)其实这个问题很简单,要注意的是文档有多种格式,最常见的是国内wps文字编辑软件下的wps格式以及word文字编辑软件下的docx格式,这两种格式之间其实可以互相打开,所以只要是这两
打飞机什么意思(女生说晚上开飞机什么意思)打飞机常用来形容男性自慰,即手淫。事实上手淫是青少年中较常见的一种现象,据国外报道,约8090的男性青年和5060的女性青年曾有过手淫。国内相关调查也表明70以上的男性青年和40以
台湾景点(中国台湾旅游10个最佳景点介绍)台湾景点(中国台湾旅游10个最佳景点介绍)台湾现有9个著名公园以及13处著名宝岛台湾风景区,壮丽的海洋高耸的山岳多样的自然生态与独特的人文风情,构成了独一无二的美丽台湾。台湾境内的
长江三峡是由什么组成的(长江三峡一日游)长江三峡是由什么组成的(长江三峡一日游)长江,是中国的第一大河,从世起源地开始,由西向东奔驰,横穿华夏大地,全长约6300千米多。它脚步不停地直奔东海,冲开崇山峻岭,夺路奔流,形成
今日原油价格涨跌最新今天油价格最新消息国内成品油价格查询。今日国际油价查询等内容。170。150。全国柴油995号汽油价格表今日油价调整信息3月12日。以油箱容量在50L的小型私家车为例。最新柴油价格查询。请看下方98