机器怎么样(机器周期)
【新智元导读】在机器学习深入工业界时,实际操作并没有想象中那么简单。要部署任何项目,都需要经过完整的生命周期,而这个周期对于开发机器学习模型至关重要。此文深入全面总结了从零开始到正式上线过程中的所有步骤,并总结了各个步骤的常用工具。
在这个「人人AI」的时代,很多人都会或多或少接触过机器学习(ML)。
似乎每一家需要数据的公司,都在尝试利用人工智能和机器学习来分析他们的业务并提供自动化解决方案。
「《财富》的商业洞察板块(Fortune Business Insights)预计,到2027年,机器学习的市值将达到1170亿美元。」
机器学习的火爆,使得许多没有相关背景的新手也纷纷跨入该行业。当然,这本身确实是一件好事,然而,我们也需要明白,将机器学习项目整合到实际生产环境中,其实远没有想象的那么容易。
图:Algorithmia公司基于750家企业得出的2020企业ML使用状态图像
「Algorithmia公司经过调查表示:55%从事机器学习模型的企业尚未将其投入生产」
在这里可以一提的是,Algorithmia是一家提供简化机器学习的平台的创业公司,它在2017年6月已经从谷歌那里完成了一项价值1050万美元的a轮融资。
许多人似乎认为,如果有了训练模型所需的数据和计算资源,实现机器学习项目是相当简单的。
但是,其实这是大错特错的——
这种假设很可能会导致在没有部署模型的情况下,消耗大量的时间和金钱成本。
图:机器学习生命周期的朴素假设
在本文中,我们将深入详细地讨论机器学习项目的生命周期实际上是什么样子的,以及周期内每个阶段可以用到的一些工具。没有那么简单:机器学习生命周期一览
在现实中,机器学习项目并不简单,它是一个在改进数据、模型和评估之间循环往复的过程,并且永远不会真正完成。
这个循环对于开发机器学习模型至关重要,因为它侧重于使用模型结果和评估来细化数据集。此外,高质量的数据集是训练高质量模型最可靠的方法。
这个循环的迭代速度,决定了你需要花费的成本。幸运的是,有一些工具可以帮助你在不牺牲质量的情况下,加速这个循环。
图:机器学习生命周期的一个真实例子
与任何系统非常相似,即使是已经部署的机器学习模型,也需要不断的被监控、维护和更新。我们不能只是部署一个模型,然后忘记它,期望它在接下来的时间里,像在测试集上一样,在现实世界中有着很好的表现。
部署在现实世界环境中的机器学习模型需要被更新——因为我们会发现模型中的偏差,或者添加新的数据源,或者需要额外的功能等等。
而这些都会将整个项目带回到数据、模型和评估周期中。
下一节,我们将深入探讨机器学习生命周期的每个阶段,并重点介绍各个阶段可以用到的当下流行的工具。阶段一:数据部分
图:机器学习周期的数据部分
虽然大家的最终目标是一个高质量的模型,但训练一个好的模型的关键之一,在于传递给它的数据的数量。
机器学习生命周期中,数据方面的相关步骤是:
1、数据收集
第一步,是在不管最终的数据质量的情况下,先收集尽可能多的原始数据。在这部分原始数据中,只有一小部分数据会被注释,这也是大部分成本的来源。
而当模型性能出现问题时,根据需要添加大量数据是很有用的。
下面是常用的公共数据集列表:
https://medium.com/towards-artificial-intelligence/best-datasets-for-machine-learning-data-science-computer-vision-nlp-ai-c9541058cf4f
2、定义注释模式
这个环节,是生命周期里数据阶段最重要的部分之一,而它却经常被忽视。
如果构造了不良的注释模式,那么会出现不明确的类和边缘案例,从而使训练模型变得更加困难。
例如,目标检测模型的性能很大程度上取决于大小、定位、方向和截断等属性。因此,在注释期间将目标大小、密度和遮挡等属性囊括其中,有助于模型可以学习到数据中的关键信息。
下面两个是有助于这个过程的常用工具:
Matplotlib, Plot - 帮你发现数据中的Plot属性
Tableu -可以帮助你更好理解数据的分析平台
3、数据注释
给数据注释是一个冗长乏味的过程,每次都要连续数小时地执行相同重复的任务,这也是注释服务蓬勃发展的原因之一——很多人并不想亲手花大量时间在注释上。
而这样会导致注释者可能犯了很多错误:虽然大多数注释公司都会说明最大误差率(例如2%的最大误差率),但更大的问题是,如果定义不当的注释模式,会导致注释者以不同的方式标记样本。
然而,注释公司的团队很难发现这一点,所以你需要自己检查。
下面是常用的各种注释服务:
Scale, Labelbox, Prodigy - 流行的注释服务
Mechanical Turk - 众包注释
CVAT - DIY的计算机视觉注释
Doccano - NLP专用注释工具
Centaur Labs -医疗数据标签服务
4、改进数据集和注释
在尝试改进模型性能时,你可能会花费大量的时间。
如果模型正在学习的过程中,但性能却不佳,那么罪魁祸首几乎总是包含偏差和错误的训练数据集,这些偏差和错误限制了模型的性能上限。
改进模型通常会涉及到硬样本挖掘(比如如果模型在数据集A上表现不好,那么就在训练数据中添加类似于数据集A的新数据)、根据模型了解到的偏差重新平衡数据集,以及更新注释模式以添加新标签和改进现有标签。
下面是常用的改进数据集和注释的工具:
DAGsHub - 数据集版本控制
FiftyOne - 将数据可视化并找出错误
阶段二:模型部分
图:机器学习生命周期中的模型部分
即使在这个过程中的输出是「看起来很重要的模型」,但其实,在整个循环当中,这部分所需要花费的时间是最少的。
图:在工业界,花费在数据集上的时间比花在模型上的时间更多
探索现有的预训练模型
这个环节的目标是用尽可能多的可用资源,给建立模型的过程一个最好的开始。
「迁移学习」是当今深度学习的核心内容:我们可能不会从头开始创建一个模型,而是对一个已存在的模型进行微调,而该模型是在相关任务上预先训练好的。
例如,如果你想创建一个口罩检测模型,那么你可能会从GitHub下载一个预先训练好的人脸检测模型,因为这个人脸检测模型发展更成熟,更流行,也有更多的前期工作铺垫。
下面是该环节常用的工具和方法:
FiftyOne model zoo - 使用一行代码,即可下载和运行模型
TensorFlow Hub - 训练过的ML模型仓库
modelzoo.oo - 为包含了各种任务和库预先训练的深度学习模型
构建训练循环
你的数据可能并不会和用来预训练的数据完全属于同一类型。
比如,对于图像数据集,在为模型设置训练pipeline时,需要考虑输入分辨率和对象大小等因素。
此外,你还需要修改模型的输出结构,以匹配标签的类和结构。PyTorch lightning就提供了一种简单的方法,使用这种方法,即可用有限的代码扩大模型训练。
下面是该环节常用的工具:
Scikit Learn - 构建和可视化经典机器学习系统
PyTorch, PyTorch Lightning, TensorFlow, TRAX - 流行的深度学习Python库
Sagemaker - 在Sagemaker IDE中建立和训练机器学习系统
实验跟踪
在整个周期内,这一环节可能需要多次迭代。
你最终会训练出很多不同的模型,所以你需要仔细地跟踪模型的不同版本,以及训练时用到的超参数和数据,这将极大地帮助你保持事情的条理性。
在这个过程中,常用的工具有:
Tensorbord,Weights
四川珙县3。0级地震关于到现在四川珙县3。0级地震这个话题,相信很多小伙伴都是非常有兴趣了解的吧,因为这个话题也是近期非常火热的,那么既然现在大家都想要知道四川珙县3。0级地震,小编也是到网上收集了一
安徽地震带(中国预测地震只剩合肥)安徽地震带(中国预测地震只剩合肥)大陆漂移说的建立,1912年德国科学家魏格纳发现美洲和非洲大西洋沿岸的弯曲形状及相互能镶嵌的特点,提出大陆漂移说。大约在2亿年前,地球上的大陆是聚
合肥地震(中国预测地震只剩合肥)合肥地震(中国预测地震只剩合肥)5月12日上午8点40分,合肥一六八玫瑰园学校东校区警报声起,全体师生迅速做出反应,双手拿书护头,在课桌旁蹲下就地避险,随堂教师迅速打开教室前后门,
李四光预测(李四光四大地震剩一个)李四光预测(李四光四大地震剩一个)遇到类似的地震谣言,别相信别传播发现了及时报告哦!谣言1李四光预测了四个地震,三个都发生了所谓的李四光提出的未来将发生大地震的四个省份实际上系谣言
哈尔滨白酒(哈尔滨白酒批发)哈尔滨白酒(哈尔滨白酒批发)黑龙江省地处中国东北部,地貌特征为五山一水一草三分田。理论上来说黑龙江气候寒冷,不具备川贵那样得天独厚的酿酒条件,但是黑龙江却酿出了很多中国优质酒及地方
哈尔滨小吃(哈尔滨十大名小吃)哈尔滨小吃(哈尔滨十大名小吃)哈尔滨地处东北亚中心地带,是全国热门旅游城市和国际冰雪文化名城。这里不仅仅有美丽的风景,还有着丰富的美食小吃。而哈尔滨因距离俄罗斯较近,因为当地的美食
今日哈尔滨牛价格,哈尔滨今日疫情哈尔滨市11月4日024时疫情通报11月4日024时,原标题哈尔滨现确诊病例,哈尔滨市正在全力开展流调溯源隔离管控核酸检测病例救治等工作,路过沈阳,今日,大力实施政策牵动项目拉动品
今日工行结汇价格中国银行结汇价来源中国证,较上月1413亿元人民币的结售汇顺差。即使同一天。银行结售汇和非银行部门涉外收支的顺差规模均低于上半年月均水平,今年12月22日,本站为您提供黄金价格查询金条价格查询黄
湖北黄梅考生穿泳裤进考场近日有关于湖北黄梅考生穿泳裤进考场的问题受到了很多网友们的关注,大多数网友都想要知道湖北黄梅考生穿泳裤进考场的具体情况,那么关于到湖北黄梅考生穿泳裤进考场的相关信息,小编也是在网上
黄梅戏是哪个省的地方戏(黄梅戏到底是安徽还是湖北的)黄梅戏是哪个省的地方戏(黄梅戏到底是安徽还是湖北的)黄梅戏是全国五大戏曲剧种之一,有很大的影响力,但是有个问题一直在安徽安庆和湖北黄冈两地之间争论,黄梅戏到底是属于安徽的还是属于安
黄梅戏女驸马歌曲(女驸马黄梅戏完整版下载)黄梅戏女驸马歌曲(女驸马黄梅戏完整版下载)最美黄梅音不改,千呼万唤始出来。为了让市民感受深圳浓郁的年味,深圳市辰龙黄梅戏文化发展有限公司于2月26日至27日连续两天在深圳大剧院举办
空耳什么意思(空耳是什么梗产来二)空耳来源于日语原来在日语中是幻听的意思但后来渐渐转义现在更是特指在日常生活中因为耳背误解了他人意思的尴尬瞬间在我们日常与人交流中时常因为空耳形象把别人的话语的意义无限延伸形成各种迷
心理咨询师证怎么考需要什么条件(二级心理咨询师还能考吗)心理咨询师证书样板国家统一的资格认证考试取消了,那为什么还会有心理咨询师考试呢?心理咨询师一直都有存在的必要性,我们现在哪一阶段的人都存在多多少少的心理问题,所以这个考试也会存在。
三毛荷西(三毛与荷西的爱情)三毛荷西(三毛与荷西的爱情)三毛在描写她和丈夫荷西的感情生活时,写道每想你一次,天上飘落一粒沙,从此形成了撒哈拉。人们惊叹于三毛笔下美好的爱情,觉得纵然辛苦,也着实浪漫。为了追寻三
王建国天生的废物近日王建国天生的废物登录了热搜,也是在网上引起了网友们的关注,那么很多小伙伴可能还不清楚具体的情况如何,小编也是在网上查阅了一些信息,那么接下来就分享给大家来了解下王建国天生的废物
黄先耀简历(邹建国)黄先耀简历(邹建国)新京报快讯(记者倪伟何强)3月9日下午3时,全国政协十三届二次会议第二次全体会议在人民大会堂召开。全国政协委员广东省委原常委省纪委原书记黄先耀在大会发言中提出,
怎么样信托(信托关系)信托这个词现在经常出现,所谓金融四大支柱(银行证券保险信托),但大多数人会感觉到信托这个词不太好理解,不知道到底代表着什么。信托这个词,本身代表的是一种关系,与委托代理相近。但委托
信托怎么样(信托安全吗)最近一段时间,信托领域也一直在改革,非标融资类产品在监管压力之下持续压缩,标品信托成为信托公司业务转型的重点布局领域。不过,在标品领域,信托更乐于配置固收类债券,而不是股票权益类产
今日广东橘子价格桔子寓意在过去,闻名全国,橘子,生长量大,紫色总是一直带有神秘色彩的颜色,橘子的寓意是什么分析桔子在有的方言里面就是吉利的意思,节间长,呈,徒手可以剥开,很多人也说它代表着,而且它的果皮颜
kpi考核是什么意思(KPI指的是什么)文微网商学院欢迎来到我们的人力资源工作手册专栏,今天是你投资自己学习的第几天了?本系列专栏课程包括企业制度制定薪酬管理绩效管理招聘管理企业培训员工管理劳务关系考勤管理人资规划等各模
自己的神话(自己创造一个神话故事)自己的神话(自己创造一个神话故事)有一些历史学家非常瞧不起神话在历史中的实质地位,但神话是一个民族的灵魂,一个民族的历史如果没有神话部分,这个民族不过是一群木偶而已。从神话的内容,
西方哲学史(西方哲学史知识点)西方哲学史(西方哲学史知识点)大家好,今天开始我为大家讲述东西方哲学史上的那些伟大的哲学家们,以及他们同样伟大的思想。前面的文章,我们介绍了古希腊中一个非常著名的流派米利都学派的三