进入21世纪之后,其实IT圈已经很久没有什么振奋人心的成就了,技术的内卷化使得科技圈死气沉沉。之所以大家还觉得IT圈很热闹,一是因为IT圈的分支-互联网圈那大师级别的炒作极其吸引眼球,另一个就是其他同行也确实更卷,相比较而言,IT圈发展的路还算可以,还没有完全被堵死。既然还没有完全被堵死,那么出路在哪里呢? 应该说,21世纪以来整体毫无生气的IT圈,唯二的可以称之为划时代的伟大发明:一个是云计算,另一个就是大数据。 云计算极大的改变了原有的商业模式 本文先从大数据开始说起,之后再慢慢讲云计算。 大数据已经渗透到生活的方方面面 说到大数据,其实,普通人是没有什么太多的概念的。可能最直观的概念都是从媒体那里得来的,什么某某地又建了一个大数据中心,什么某某大数据公司又拿到了C轮融资,类似于这样的新闻完全就是给这个热闹的行业添上一把火,使它烧得更旺而已,对于大数据的理解毫无帮助。 真正的大数据技术,其出现的源动力在于人民日益增长的使用互联网次数和时长,以及各行各业不断的信息化数字化所带来的海量数据沉淀。与此同时,相关企业还想把这些数据研究出一些价值,不能在那里只沉淀,空占存储资源不说,增加了好多不必要的成本。人类的本性好像就是如此,搂草也得打打兔子。就这样,大数据技术应运而生。国外的AWS、Google、Facebook,国内的阿里、腾讯无一不是如此。正应那一句放之四海而皆准的真理:只有需求才能产生市场,只有满足需求的技术才是有生命力的,才是有价值的。此名言出处:火中的灭火者。 蓝色巨人IBM 可能大多数人还记得大学曾经学过Excel表格,有一些白领工作中可能还会经常用到各类表格工具。其实,那一行行的表格,就是数据的一种表现形成,我们称之为结构化数据。这种数据最直观,处理它们也有很多技术成熟的工具,比如Oracle、DB2、SQLServer、MySQL等等,业内人士一定对这些名词相当的熟悉,都是常用的数据库软件。这些数据库软件背后的公司也是如雷贯耳的世界软件巨头,诸如甲骨文、IBM、微软等。应该说,在那个移动互联网还没有兴起的时候,在那个手机还处于只能打电话发短信的时代,这些软件巨头们几乎垄断了所有的市场。 曾经的数据库巨头甲骨文 然而移动互联网还是如约而至,不仅数据量呈现井喷式爆发,而且数据的形式也变得多种多样起来,有太多太多的数据没有办法以结构化数据的方式来处理,比如视频、音频、图片、日志等等等等等。尤其是日志,这东西简直太重要了,无论是产业互联网还是工业互联网,日志源源不断地被产生出来。这里面蕴含着巨大的商业价值,在过去却无人问津。 这就不得不牵出了大数据的另一个特点,价值密度太小了。什么是价值密度?单位数据量里面,有价值的部分。举例来说,如果你手里有一份投标文件,那么这份数据里面的价值密度就非常大,因为里面的每一个字都非常重要,直接影响是不是能够中标。但是,如果我家楼下的车库摄像头拍摄了一周的视频,这份数据里有价值的部分就太少了,也许一丁点儿有价值的内容都没有,也许有一点儿,因为周二有一位业主发现自己的车被剐蹭了,通过视频知道了原来是自己的邻居干的。以上两个例子就说明了价值密度的含义,而大数据技术要处理的,往往就是后者,价值密度极其稀疏。 数据ETL 这些数据,我们无论是通过传统的数据库技术,还是通过日志收集工具,还是其它什么新奇的技术方式,总之第一步就是先收集上来。收集上来之后的第二步,就该做大数据的存储与开发了。这里,因为整个大数据技术应用的时间还不是很长,并且因为开源技术遍地都是,没有形成统一的标准。换言之,可能你我说的是同一件事,但是使用的语言和名词却不一样。这一点在新技术开始应用的头几年是非常常见的。就像我说的新能源,和你说的电动车,其实是一回事儿。所以,我们也会经常看到数据开发、数据计算,不管它们爱叫什么就叫什么。但是大名鼎鼎的Hadoop开源框架你肯定听过,没听过的话到网上随便搜搜也能搜到一大堆资料。Hadoop其核心就是为了解决数据的分布存储和分布式计算所设计的,是Apache基金会的顶级项目,全世界最流行的开源大数据平台解决方案。 起名很随意的大数据平台 总之,技术发展到今天已经是比较成熟了,无论是离线计算还是实时计算,都有一大堆的开源工具和商业软件。如果团队的技术实力强大,技术人才储备充足的话,开源框架可以说是不二之选:自主研发,自主可控历来都是各大公司企业首先要考虑的事情。如果团队并没有很多人从事技术开发,更多的是放在业务上的话,那么购买商业软件也不失为一个明智之举,免得到时候自己玩不明白,又没人帮着解决问题,最后把自己放在火上烤。 大数据平台所处在位置 数据开发的工作做完后,下一步必然是形成数据资产。数据的资产化会将企业内外部的数据更高效的使用起来,从而让数据真正的能对业务产生价值,最终实现:数据从业务中来,又反哺了业务。在这一点上,依然是广大的互联网公司一骑绝尘,他们对于数据的使用炉火纯青,甚至好多大数据技术本身就是由他们贡献给开源社区的。 以上,基本就是大数据所涵盖的所有内容。从大数据的起源,到技术的实现,最终到具体业务场景上的应用;由互联网公司所引领,并最终蔓延到几乎全行业。后面,我们会就"大数据"三个字再具体展开来讲。还是那句话,只有需求才能产生市场,只有满足需求的技术才是有生命力的,才是有价值的。 大数据技术无疑是非常有价值的,这一点已经被无数的企业验证过。甚至,如今的商业环境,一切的价值都是由数据产生,一切可持续发展的商业模式也都离不开数据的赋能。而大数据技术,将会为未来的商业世界保驾护航,提供最根本的支撑。 PS:我知道大家还是读得云里雾里,这也不奇怪,脱离了实际例子的知识传播,最终的结果一定是失败的。之后我会就一个又一个的名词进行解释与分享。感谢