数据挖掘的一般步骤(数据挖掘模型有哪些)
数据挖掘介绍
数据挖掘(Data Mining,DM):就是从大量数据(包括文本)中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程;是利用各种分析工具在海量数据中发现模型和数据之间关系的过程。这些模型和关系可以被企业用来分析风险、进行预测。
数据挖掘的目的就是从数据中"淘金",就是从数据中获取智能的过程,数据挖掘是提供了从数据到价值的解决方案。
数据 工具 方法 目标 行动=价值。
目前,数据挖掘已有一系列应用:分类分析:有监督学习,将数据映射到事先定义的群组或类。应用在将信用卡人分为低中高风险群等。回归分析:用属性的历史数据预测未来趋势,应用预测哪些用户在未来半年会流失等。聚类分析:无指导学习,在没有给定划分类的情况下,根据信息相似度进行信息聚类。应用在对客户行为分析,对客户分层进行精准营销。关联分析:发现事物间的关联规则或称相关程度,常用在交叉销售,交叉分析,著名的啤酒与尿布。时序模式:已知的数据预测未来的值,回归不强调数据间的先后顺序。偏差分析:来发现与正常情况不同的异常和变化,并进一步分析这种变化是有意的诈骗行为,还是正常的变化。常用在防欺诈,以及保险领域。
以上这些应用涉及的技术和工具各不相同,然而却可以依据统一的方法论来实行,并可以协同作战,解决许多有价值的商业问题。数据挖掘建模的一般过程
第一步,数据准备
数据选择主要考虑的包括:哪些数据源可用?哪些数据与当前挖掘目标相关?如何保证取样数据的质量?是否在足够范围内有代表性?数据样本取多少合适?如何分类(训练集、验证集、测试集)?
选择数据的标准,一是相关性,二是可靠性,三是最新性,而不是动用全部企业数据。通过数据样本的精选,不仅能减少数据处理量,节省系统资源,而且能通过数据的筛选,使想要反映的规律性更加突显出来。
1)数据探索:数据清洗和构造
前面所叙述的数据选择,多少是带着人们对如何达到数据挖掘目的的先验认识进行操作的。
当我们拿到了一个样本数据集后,它是否达到我们原来设想的要求?其中有没有什么明显的规律和趋势?有没有出现从未设想过的数据状态?因素之间有什么相关性?它们可区分成怎样一些类别?这都是要首先探索的内容。
对所抽取的样本数据进行探索、审核和必要的加工处理,是保证预测质量所必需的。可以说,预测的质量不会超过抽取样本的质量。
数据探索主要包括:异常值分析、缺失值分析、相关分析、周期性分析、样本交叉验证等。
2)数据预处理:整合和格式化
当采样数据维度过大,如何进行降维处理?采样数据中的缺失值如何处理?这些都是数据预处理要解决的问题。
由于采样数据中常常包含许多含有噪声、不完整、甚至是不一致的数据。显然对数据挖掘所涉及的数据对象必须进行预处理。那么,如何对数据进行预处理以改善数据质量,并最终达到完善最终的数据挖掘结果的目的呢?
数据预处理主要包括以下内容:数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据规约。第二步,模式发现
样本抽取完成并经预处理后,接下来要考虑的问题是:本次建模属于数据挖掘应用中的哪类问题(分类、聚类、关联规则或者时序模式),选用哪种算法进行模型构建?
模型构建的前提是在样本数据集中发现模式,比如:关联规则、分类预测、聚类分析、时序模式等。
在目标进一步明确化的基础上,我们就可以按照问题的具体要求来重新审视已经采集的数据,看它是否适应挖掘目标的需要。第三步, 模型构建
确定了本次建模所属的数据挖掘应用问题(分类、聚类、关联规则或者时序模式)后,还需考虑:具体应该采用什么算法,实施步骤是什么?
这一步是数据挖掘工作的核心环节,模型构建是对采样数据轨迹的概括,它反映的是采样数据内部结构的一般特征,并与该采样数据的具体结构基本吻合。
预测模型的构建通常包括模型建立、模型训练、模型验证和模型预测4个步骤,但根据不同的数据挖掘分类应用会有细微的变化。第四步, 模型评价
模型评价的目的是什么?如何评价模型的效果?通过什么评价指标来衡量?
模型效果评价通常分两步:
第一步是:直接使用原来建立模型的样本数据来进行检验。
假如这一步都通不过,那么所建立的决策支持信息价值就不太大了。一般来说,在这一步应得到较好的评价。这说明你确实从这批数据样本中挖掘出了符合实际的规律性。
第一步通过后,第二步是:另外找一批数据,已知这些数据是反映客观实际的、规律性的。
业务应用场景:网红销售额评估模型、客户ROI评估模型、网红品类推荐模型、网红报价建议模型、网红欺诈行为预警模型、网红流失预警模型等结论
实践表明:由于人工智能发展的局限性,计算机在未来相当长的一段时期内不可能像人类这样会进行复杂的思考,它只会按照人的指令工作。
但是,计算机拥有海量的数据存储能力和超强的计算能力,所以只要我们建立合适的业务模型,设计完善的执行程序,选择正确的分析算法,它一定可以更好地为我们服务。
数据挖掘技术是一个年轻且充满希望的研究领域,商业利益的强大驱动力将会不停地促进它的发展。
每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入。尽管如此,数据挖掘技术仍然面临着许多问题和挑战:如数据挖掘方法的效率亟待提高,尤其是超大规模数据集中数据挖掘的效率;开发适应多数据类型、容噪的挖掘方法,以解决异质数据集的数据挖掘问题;动态数据和知识的数据挖掘;网络与分布式环境下的数据挖掘等。
另外,近年来短视频,图片等多媒体数据库发展很快,面向多媒体数据库的挖掘技术今后将成为研究开发的热点。
本文由 @无语凝咽 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自Unsplash,基于CC0协议
Supra扩展的虚拟服务套件可帮助房地产专业人员适应新常态全球领先的房地产行业接入解决方案提供商Supra宣布推出一系列扩展的服务,旨在降低接触点并提高效率,这是Carrier39sHealthy的一部分房屋计划。Supra是Carrie
电信的dns是多少(首选DNS一般是多少)不管是新老用户,都可能会忽略这个问题,重做系统以后,或者更换了新的路由器,网络突然不稳定,游戏很卡,网页时而打开很慢。也有可能出现瞬间掉线的情况。如果是GM朋友服务器网速度不稳定,
去英国买什么最划算(去英国必买的化妆品)又到了令人激动的开学季,你准备好打包行李飞向学校了吗?对于没有留学经验的小白来说,最头疼的就是打包行李,哪些该带哪些不该带,既不想浪费行李额又不能超重小编在这里给大家贴心整理了最最
新加坡买什么(新加坡值得买的保健品)新加坡人喜欢哪些牌子的保健品?看药房根据销量等大数据发布的排行榜,就能作为一个重要参考。Unity是本土品牌,能与跨国品牌屈臣氏和Guardian三分天下的连锁药房,背靠新加坡最大
杭州到哪里(青岛到杭州)发文之前,云端机长还是想澄清一下,云端机长把飞行距离几百公里,飞行时间一个小时左右的短距离航线统称为最短航线。所以云端机长的最短航线在国内有很多条,这里的最短并不是绝对意义上的最短
鹅蛋脸适合什么眼镜(脸型佩戴眼镜)202110112020对于近视人群来说,眼镜是其离不开的一个物品,通过眼镜能够帮助他们更加清楚的看到身边的一切事物。在佩戴眼镜的时候不仅要根据自己的近视度数,也要根据自身的脸型来
防蓝光是什么意思(镜片蓝膜和绿膜哪个好)给手机贴膜戴套已经不是什么新鲜事了,基本上买了新手机之后手机没送到,壳和贴膜就先到了。而且现在手机贴膜的种类繁多,很多人都不知道选哪个。其中以防蓝光膜和绿光膜为例,很多人都走进了误
米粉卡怎么激活(小米手机卡怎么激活步骤)大家的米粉卡都收到了吗?下面给大家整理了米粉卡激活的步骤哦。第一步下载电信营业厅客户端或电信实名制客户端第二步打开客户端,点击我新卡激活,输入要验证的手机号第三步输入空卡序列号或智
财务软件哪个好用(小企业财务软件哪个最好用)对于预算有限的小微企业来说,价格实惠,服务优良的财务软件更适合。在网上众多的财务软件中,虽然能做到价格低廉服务优良的财务软件并不多,但在众多财务软件中脱颖而出的还是有几款的。小碟云
本人现实表现怎么写(个人现实表现怎么写范文)全篇1900字,由于发文受限,现将部分内容分享如下该同志始终秉持立党为公执政为民的操守和勤勉务实清正廉洁的准则,与党委班子成员团结携手,创新实干,认真履职,集中精力抓发展惠民生保稳
锦湖轮胎质量怎么样(十大口碑最好轮胎)夏天到了,人们游山玩水的热情大增,面对各种崎岖地形,普通轮胎无法胜任,许多轮胎制造商也针对性的开发了越野的SUV4X4系列产品,本次测试将对八款越野轮胎进行测试。八款轮胎一览测试车
7酱是什么梗(厂长7777是什么梗)造梗主体明凯出生地及年月湖北武汉1993年7月粉丝名猪仔黑称猪杂称号一览厂长诺导诺言暗凯7酱赛文老祖Clearlove职业LOL英雄联盟职业选手(打野)俱乐部EDG战队更多个人资料
编译器有哪些(编译器是用什么写的)在编译型语言中,软件是由编译器编译而来的,编译器本身也是软件,那编译器又是怎么来的呢?咋一看这个问题,感觉又要掉入鸡生蛋,蛋生鸡这样无止尽的循环中了。下面以C语言编译器为例,介绍下
苹果手机像素多少(苹果1200万像素相当于)昨天的爆料相信大家也看到了,今年iPhone13系列的后置摄像头可以说是历代iPhone中体积最大的了,光从手机壳的开孔就能感受到,这镜头真是有够夸张的不仅体积大,新的摄像头模组还
影评怎么写(优秀电影的影评范文)哈喽,新年快乐啊这个春节小长假,你一定看过了一两部电影吧?催人泪下的你好,李焕英或是期待一年多的唐人街探案3,当我们看完了一部好电影,如何把它作为素材,创作一篇好文章呢?在今天这篇
6磅是多少斤(6磅是多大的蛋糕)磅蛋糕,一种基础蛋糕,也叫黄油蛋糕Buttercake。也是我父亲比较喜爱的蛋糕之一。台湾称其为重奶油蛋糕或布丁蛋糕。磅蛋糕内部组织扎实细腻,浓郁奶香,口感润泽。磅蛋糕在蛋糕界的地
布罗利为什么恨悟空(布罗利与孙悟空的关系)大家好,自从龙珠趣题挑战系列推出之后,就受到了大家的热(吐)捧(槽),大家纷纷向小编提出一些尖锐的要求,于是小编觉得还是把难度稍微提高一点吧,那么今天的这5题龙珠趣题,你们准备好了
龙舌兰酒怎么喝(十大经典鸡尾酒暗语)NO。1仿声鸟MockingBird配方龙舌兰40ml绿薄荷香甜酒10ml现榨柠檬汁15ml纯糖浆10ml冰镇马丁尼杯。雪克杯加入所有材料及冰块,摇合均匀。滤掉冰块,将酒液倒入冰镇
纹绣是什么(纹绣办哪种营业执照)纹绣是什么?在这里就不用太官方的术语给大家做介绍了,纹绣,要因人而异这更能体现纹绣的个性。自然的色泽,进而达到美化眉眼唇的目的,又不会留下明显的修饰的痕迹,对于纹眉来说,主要是改变
养乌龟有什么禁忌(乌龟死了好运降临)1忌数量多有些龟友认为养龟不麻烦,省事,于是一次性养很多只小乌龟,这种做法是不对的。也不能因为怕龟龟无聊寂寞就养一群在一起。一次性养乌龟23只是较为正常的,且最好是同种类的,养太多
主板什么牌子好(主板型号排行榜)很多小朋友私信问我,主板该怎么选择?市面上主板品牌型号一大堆,配电脑时,经常再如何选择主板上纠结很久。那么我们首先从主板品牌开始说起,目前一线品牌的主板有华硕,技嘉,微星,想要更加
慢跑一小时多少公里(晨跑和夜跑哪个更减肥)对于想要减肥的人来说首先能想到的是跑步减肥。喜欢晨跑的人,沐浴清晨的第一缕阳光,使一整天都元气满满。而喜欢夜跑的人,则可以释放自己的压力,晚上睡觉的时候一下子就可以进入甜美的梦乡。