对大数据我不是专家,但由于大数据也是开放性的命题,所以我也就自己的认知水平,谈谈我对大数据的看法,更多集中在数据的金融应用上。 早在1980年,著名未来学家阿尔文· 托夫勒就在《第三次浪潮》一书中,将大数据热情地赞颂为"第三次浪潮"。不过,直到2009年前后,"大数据"才成为互联网信息技术行业的流行词汇。2013 年,随着互联网金融的空前热门,也才真正意义上将"大数据"推到了高潮。如果探究互联网金融与大数据流行之间的关联,背后有一个很关键的因素,就是互联网金融一直无法解答一个核心命题——风险控制。即互联网没有找到比传统金融更具优势的风控方法,从而使得互联网金融在兴起的过程中饱受质疑。而横空出世的大数据成为了互联网金融支持者的一个重要精神支柱。大数据越不可测,就越具备想象力,对互联网金融而言,就越具解释力。 所以每当争论互联网金融的风控问题如何解决的时候,支持方就会说,我们有大数据。于是,别人就无话可说了。大数据如同万金油一般,随时随地都能用。但是现实情况必然不是这样的,大数据并非是万能的,也不可能是万能的。 那么什么是大数据呢?我谈谈自己的看法。 大概四五年前,美国《商业周刊》资深作家约翰·伯恩一本畅销书《蓝血十杰》,对今天中国互联网金融和大数据理论爱好者们产生了极大的影响。这本书讲述了十个年轻人,出身名校哈佛,心怀理想,是天才中的天才。他们二战期间成为了美国空军的后勤英雄,卓有成效地将数字化管理模式应用于战争,为盟军节约了十亿美元的耗费,帮助盟军取得了胜利。 这说明数据的分析和管理,很早就被用于国家战争和商业运营了,为什么现在非要在数据前面加个"大"字呢? 上次在鸿儒论道,听社科院何帆教授的课程,他提到,从本质上讲一切的社会现象都是统计现象,并不像实验室里的试验那样有明确的因果关系。如经济学的供求定理就是一个统计规律。但是人类认知能力中最差的也是统计思维。 诺贝尔奖得主、心理学家卡尼曼曾经讲过,人类头脑中有两套思维。一套思维是本能的,比如我们的语言能力、模仿能力、第六感,等等,都是与生俱来的。如麻省理工学院的语言学家乔姆斯基指出,小孩子为什么到3 岁就能学会说话,而要到十几岁才能学会微积分呢?语言学得这么快,不是小孩子自己能学会的,是他出生时大脑中就预装了一套系统。此外,察言观色的能力也不用特意学或教,小孩子就已经会了。所以这是人类的第一套系统,也是能够让我们快速反应的系统。第二套系统,是当我们做数学推理,尤其是统计分析时需要用到的。第二套系统运转很慢,因为占的内存太大,往往我们犯错误就是因为决策太快,在统计判断的方面出现问题。 所以,我们在谈大数据的时候,都认为是个新潮的概念,但是作为方法论而言,大数据已经有很长的历史了。那为什么现在大家突然讲大数据了呢?主要是因为现在的数据越来越多,一方面随着IT 革命,存储和计算能力在不断提高,未来可能会出现无限存储、瞬间计算的新时代;另一方面,能够被数据化的东西也越来越多,过去只有数字,而会计制度出来后,经济活动开始可以通过记账数据化。现在大家拿的pad 和电子阅读器中的文字、图像也是数字化的。随着能够变成数据的东西越来越多,计算和处理数据的能力越来越强,大家突然发现这个东西很有意思。一旦把统计学和现在大规模的数据融合在一起,就会颠覆很多我们原来的思维。