呈现在我们眼前所有精彩的商业案例分析,如果溯其论点的来源,都是脱离不了底层的数据支撑的。所以,懂点数据分析很有必要。Allen今天就给大家分享一下自己日常是如何做数据分析的。 Ps:讲的不是数据分析师方向,而是日常的基础数据分析思路 通常Allen在做数据分析时,会把数据分析拆分为5个步骤来进行(收集、清洗、对比、细分、溯源)。下面一一展开来讲。 一.数据收集 当我们在做数据分析时,第一步要解决的问题肯定就是数据源的问题。Allen通常把数据分为二大类。 第一类是直接能获取的数据,通常都是内部数据。无非就是从网站后台或者是自己家的数据库里面导。 第二类就是外部数据,需要经过加工整理后得到的数据。 典型的数据来源有: 百度指数:http://index.baidu.com/ (分析市场容量) 阿里指数:https://alizs.taobao.com/(分析销量、份额) 梅花网:http://adm.meihua.info/ (分析广告投放) CNZZ、微博指数等等… 当然还有很多很多有价值的数据源(根据行业、需要找到最合适自己的数据源),上面列举的三个典型的数据源只为举例子之用。在这里要着重提一点,第三方数据来源往往需要考虑数据源真实度。 二.数据清洗 清洗数据(筛选、清除、补充、纠正)的目的无非是从大量的、杂乱无章、难以理解的数据中抽取并推导出对解决问题有价值、有意义的数据。清洗后、保存下来真正有价值、有条理的数据,为后面做数据分析减少分析障碍。这里不详述 三.数据对比 对比,是数据分析的切入点。因为如果没参照物,数据就没有一个定量的评估标准。通常情况下我们从二个点去切入进行数据对比分析:1.横向对比 2.纵向对比 横向对比,与行业平均数据,与竞争对手的数据进行比对。举个粟子,比如你家的APP用户留存率是60%,而行业平均留存是70%或竞争对手的用户留存率是70%,那就说明你家的产品在留存率方面有待加强! 纵向对比,与自家产品的历史数据进行对比,围绕着时间轴来对比。还是用用户留存率来进行举粟子吧,比如,APP改版前30天,新用户留存率是70%的,而新版APP发布后,新用户留存率降了10%或者升了5%,这就产生了问题,到底是那些因素导致数据产生了异常呢? 要知道数据比对是发现问题的第一步,发现了问题才需要我去找出问题,并解决它。如果没有参考的对象,单独的数据放在那里,是没意义的。 四.数据细分 数据对比发现了异常,我们当然想知道是什么原因导致的。这里就要用到数据细分了,数据细分通常情况下先分纬度,再分粒度。 何谓为纬度?按时间分类就是时间纬度,按地区分类就是地域纬度,按来路分类就是来源纬度,按受访页面分类就是受访纬度。今天APP访问量涨了5%,咋回事不知道,你细分一看,大部分网页都没涨,某个频道某个活动页涨了300%,这就清楚了,这就是细分最简单的范例,其实很多领域都通用。 粒度是什么?你时间纬度,是按照天,还是按照小时?这就是粒度差异,你来路纬度,是来路的网站,还是来路的url,这就是粒度的差异;纬度结合粒度进行细分,就可以将对比的差异值逐级锁定问题区域,就可以更容易地寻找出发生问题的原因了。 五.数据溯源 通常情况下,通过数据细分就能分析出大多数问题的原因并推导出结论了。但也有特殊的情况,即使具体到粒度了也得不出有说服力的结论。 这时候我们再进一步,通过数据溯源就能找出问题的原因。依据锁定的这个纬度和粒度作为搜索条件,查询所涉及的源日志,源记录,然后基于此分析和反思用户的行为,往往会有惊人的发现。 又或者结合用户使用场景去思考,比如:国内的社交产品,在上下班的时间段会特别活跃,而该产品经理对比美国地区却发现在美国地区用户的上班活跃数据恰恰相反,特别低,到底是什么原因呢。看数据怎么也看不出来,怎么办呢?若果该产品经理结合用户上班时的使用场景去思考就能一眼看出问题,因为国内的上班一族通常上是通过公交、地铁等公共交通工具去上班的,所以他们有大把的时间在玩社交,刷朋友圈。而美国地区的上班一族,大多数都是自驾车去上班(车轮上的国家),他们上班时间都在专心地开车,根本没有时间去玩手机,玩社交产品。 其实,Allen在以往工作的时候就基于这一逻辑发现过一些产品的一些缺陷,而且你不断通过这个方式分析数据,对用户行为的理解也会逐步加深。 最后,作个简单的总结:马云粑粑说阿里管理有三板斧:揪头发、照镜子、闻味道。而同样,在数据分析这里,则是五板斧:收集、清洗、对比、细分、溯源。这是数据分析里最核心的最实用的"一口箱子"。