(图片来源:全景视觉) 经济观察报 陈季冰/文 两年前的这个时候,2017年5月,英国《经济学人》杂志发表文章,将数据比作"未来的石油"。自那以后,数据是"21世纪最宝贵的资源"这种观点便在传媒领域和学术界传播开来。 而随着2018年初Facebook多达5000万用户数据遭泄露丑闻的曝光和发酵,普通大众对于数据的关切也达到了前所未有的程度,要求对数据的管理、流通、特别是商业化运用做出规范和监管的呼声在全球各地此起彼伏。 一年前的这个时候,2018年5月,欧盟《一般数据保护条例》(GeneralData Protection Regulation, 简 称GDPR)生效。这是世界上第一个尝试对数据这块"新大陆"做出系统性阐释和规范的法律文本,堪称世界上第一部"数据宪法"。但GDPR从还在"怀胎"之时起就备受争议,从某种程度上说,这正是它所肩负的历史使命的折射。不管它的最终命运将会如何,它的诞生宣告了人类"数据时代"的正式开启。 然而,如果想要对数据进行有效管理,以更好地适应这个业已降临的"数据时代",我们首先必须对这种伴随人类社会之初就有、但被新技术赋予了全新价值的存在物的性质有一个比较清晰准确的认知。我的看法是,将数据比喻成"当代的石油",只是一种令人印象深刻的文学方式。但这种比喻对于我们正确认识数据的本质、进而采取有的放矢的应对举措是无益的,更可能还会产生严重的误导。 一
将今天的数据比作100年前的石油,建立在一个看起来十分可靠的共性上:两者都是各自时代中最重要的经济资源。在经济学视野中,凡是能够直接产生经济价值的东西,皆可称为资源。数据在今天毫无疑问是越来越重要的资源,关于这一点,广告业的概貌就能让我们一目了然。 目前,全球市值最高的10家公司中有7家是互联网科技公司。除了苹果和微软,其余5家都是直接"经营"数据的公司——谷歌和Facebook对用户的个人特征和兴趣了如指掌,亚马逊对用户过往的消费行为一清二楚,腾讯和阿里巴巴不仅掌握了数亿中国人的所见所闻所想和消费情况,还充当着他们的数字钱包,甚至帮助逐渐建立起对未来经济和社会发展至关重要的信用体系……这意味着,数据不仅重要,而且重要性正与日俱增。可以毫不夸张地说,在当今世界,收集、分析和销售数据,是增长最快的一个领域。 数据不仅本身能够产生价值,更重要的是能够帮助几乎每一个行业优化业务,提升效率,进而创造出新的商业机遇。正因为看到了这种几乎一望无边的历史性机遇,在科技公司开疆拓土的同时,各行各业紧随其后,以前所未有的热忱拥抱数据时代。眼下,别说是苹果和微软,就是GE和西门子这些典型的20世纪工业巨头都纷纷把自己包装成了"数据公司"。在中国,小米集团一直对外宣称,自己卖的是"服务",而不是手机,其主要收入来源不是硬件,而是建立在数据之上的网络服务。 学术界和新闻界则不吝惜使用各种高级形容词来表达对数据所蕴含的巨大潜力和驱动力的敬畏。有人指出,数据正在越来越大的程度上决定经济价值,重塑权力的执行,并入侵到我们生活的最深层。因此,由谁以及怎样收集、拥有和使用数据,事关一场根本性变革的方向。这场"数据革命"发生的速度、规模和深远程度是惊人的,以至于我们正从"金融资本主义"时代迈向一个"数据资本主义"的时代,甚至是一种"数据新宗教"的时代。 这些说法或许并不算太夸张,因为数据确实正在深刻地改变着许多东西。我在这里仅举一个简单的经济学学术例子—— 在工业经济时代,衡量一个经济体经济活动的最有效指标无疑是GDP,它以货币作为媒介单位。但正如一位澳大利亚经济学家曾指出的,数字经济时代的大量经济活动将货币媒介排除在外了。例如,消费者可以"免费"获得Facebook提供的许多服务,而Facebook反过来通过"免费"使用用户的数据来获得补偿……在这一过程中,Facebook与消费者(用户)跳开了货币这种媒介,直接使用数据展开交易。于是,这部分经济活动便被GDP统计所遗漏了。尽管传统工业经济时代的GDP数据也遗漏了一些"免费"的经济活动,例如家务劳动的产出,但那些不能与当今一日千里的"数据经济"同日而语。 对于经济学研究来说,真正革命性的变革或许还在襁褓中。长期以来,经济学一直试图通过对社会上的经济活动进行更大规模、更细致的、更加动态的观察、收集和分析,来得到更精确的研究结论。换句话说,使自己变得更像一门自然科学。然而,经济学家们的这份雄心面临着一道难以逾越的障碍:缺乏足够"先进"的工具,可以去记录、收集和分析如此海量和变动不居的数据。但如今,数据技术的进步使得长久以来的期盼成为了可能,于是实证经济研究的最前沿正在酝酿着一场"革命"。对于经济学家来说,这既是机遇,也是挑战。 话说回来,既然数据对经济和社会那么重要,对它进行监管以促进其规范性发展自然也就迫在眉睫了。 二
数据的确是重要的资源,甚至是21世纪最重要的资源,但它不是石油。这主要是因为,在数字经济时代,传统认知中"资源"这个概念本身的含义已经日益捉襟见肘,它迫切需要被改写。 首先,对于传统意义上的"资源"或者"资产"(这个词可能更准确)而言,它的第一条、或许也是最重要的一条属性便是,要对"所有者"进行清晰的界定。不解决所有者问题,任何资源就都无法正当地产生经济价值——一个油田或一家石油企业,如果老板是谁都搞不清楚,它们能正常开采和经营吗?这就是为什么产权的界定对市场经济体制如此至关重要的原因。 然而,对数据这种21世纪的新型资产来说,"所有者"或"产权"是一个难以确定的概念。 2017年10月,职业社交公司领英(LinkedIn)起诉一家叫作HiQ的"数据检索"公司,原因是后者抓取领英上公开的个人简介数据,并基于此开发出两个面向企业雇主的雇员市场信息产品。 这个案子的典型意义在于,它让更多人聚焦于这样一个问题:领英上的那些公开数据难道是属于领英公司的私有资产吗?类似的问题同样适用于谷歌和Facebook等互联网大公司。 显然,这是站不住脚的。就像哈佛大学教授、美国杰出的宪法学者劳伦斯·特赖布(LaurenceTribe)所说的,如果你认可互联网是新的城市广场,同时"数据是中央型资本",那么它就必须让所有人都可以免费获得。 再看中国,过去几年里舆论汹汹的"头腾大战"、"新浪诉脉脉案"、"大众点评诉百度案"……每一个都有各自的独特关切,然而它们的直接聚焦同样也都是这个问题:腾讯、新浪和大众点评上那些公开的用户信息和数据,能不能算作这三家公司的财产?中国法院在裁决这几起诉讼案时都采取了模糊化的办法,法院一方面承认数据平台对于平台内的信息具有一定的控制权,但又没有明确这种控制权究竟属于何种性质。在我看来,法院这么做是睿智和破坏性最小的。 在这方面最典型的例子莫过于"人人网易主"这件事了。2018年底,曾经被称为"中国Facebook"的人人网被北京多牛传媒公司收购。这起并购本身在业界并不是什么大事,但从寻找同窗的"校内网"到半夜偷菜的"开心农场",人人网承载着许多人(特别是80后一代)的青春记忆。他们担心,人人网换了老板以后,自己的那些"青春数据"会面临什么样的命运?它们会被妥善保管吗?会被拿去用于商业挖掘吗?自己的隐私会不会被侵犯……还有,这些数据本身在这次交易中是不是被卖了钱?当然不能认为它们是人人网或多牛传媒的资产。 那么,假如数据不属于那些互联网平台,是不是可以反过来认为,腾讯、新浪、大众点评和人人网上的那些个人数据的所有权都属于发布(上传)这些数据的用户自己呢?好像也不能这么说。因为如果是那样的话,就意味着平台只有在事事征得用户同意的前提下才可以处理这些数据。但这是根本不可能的,除非用户并不想要在平台上获得任何服务。 中国现有法律对于"数据权"的定义也是十分模糊的。2017年生效的《民法总则》征求意见稿的最初文本将"数据信息"一体纳入"知识产权"进行保护,后遭多数专家反对,最终只留下"法律对数据、网络虚拟财产的保护有规定的,依照其规定"以及"自然人的个人信息受法律保护"等模糊的宣示性内容。将数据视作一种"虚拟财产"或者更为笼统的"信息",而非定义清晰的"知识产权",这是我国立法在"数据权"设定方面的谨慎尝试,也反应了数据的复杂性质。 作为世界上第一个专门为数据立法的尝试,2018年5月25日生效的欧盟GDPR也没有界定数据的"所有权"问题。但为了强调"个人数据权"是一项基本权利的宗旨,除了隐私保护等之外,它还创设了一个新的法律权利——"可携带权"。GDPR第20条第2款说,在技术可行条件下,用户有权要求数据控制者向第三方直接传输数据。简单地说,根据这项法律条款,我可以要求多牛网把我原来在人人网上的数据"转移"到其他网站或平台。然而,众所周知,要转移(传输)数据,就需要不同的数据系统在技术上兼容。但GDPR没有要求数据控制者(平台)有主动去兼容其他平台的义务。换句话说,多牛网可以以"系统不兼容"为理由(事实上它说的也的确是实话),拒绝我对它提出的将我在人人网上的数据转移到我的个人邮箱的要求。于是,这项与GDPR本身一样受争议的权利很可能因此形同虚设。 2019年3月中下旬,阿里巴巴发起的罗汉堂在杭州召开"隐私与数据治理"国际研讨会,好几位与会的顶级专家嘉宾在发言中都讲到了数据的权益和赋权这一"世纪难题"。他们从理论和实践的不同角度达成了基本共识—— 数据是有价值的,因此是一种资源,但很难说它"属于"谁。换一种表达或许更加清晰,不像过去时代里的"产权"概念,"数据的所有权"这个概念并不能对我们时代的经济和社会起到什么作用,它是一个没有意义而且还可能造成麻烦的东西。 阿里巴巴集团首席安全专家杜跃进的观点最有典型性:在互联网时代,用户数据在整个一个异常复杂的链条里不断产生并被不断分享。用户想要明确地获知这些因为自己的消费活动而产生的数据究竟会被怎样使用,几乎是不可能的,也没有一家公司能够回答这个问题。杜跃进因此认为,如果用保护石油权益这样的传统思路去保护数据资源,数字经济的未来就面临被葬送的危险。 从经济学理论的角度来看,为什么讨论数据的"产权"是没有意义的事?根源在于,产权的有效性建立在资源(或资产)是稀缺的,而它的使用是排他的这两个基础之上。但正如杜跃进所言—— 首先,数据不是石油这样的自然资源,它是由人生产的,并可以源源不断地再生;数据取之不竭,传输又超级便宜,而且只会越用越多,而不是越用越少。谷歌前CEO埃里克·施密特(EricSchmidt)以前曾说过,我们每两天就会创造1艾(quintillion,10的18次方)字节的海量数据,这个数据相当于从有文明以来一直到2003年人类创造的所有信息的综合。不过,最新的研究更新了施密特提供的数据。过去数年里,全球的数据量以每年将近60%的速度增长。据称,目前全球每天产生的数据已达大约2.5艾字节,这意味着世界上90%的数据是在过去两年产生的。到2020年,全球数据总量将超过40ZB(相当于4万亿GB),为2011年数据总量的22倍。而随着人工智能(AI)和物联网的问世和应用,数据还将迎来一个指数级增长的新纪元。不仅数据的数量和形式在成倍的增加,更为重要的是,数据的成本在急剧降低。据称,数据存储、传输、计算的成本降低到了50年前的几千万分之一、甚至是上亿分之一。在人类的历史上,还没有哪一种"资产"是以这样的速度在急剧膨胀。 第二,同一堆数据,你我可以一起使用,并不是说你多占用一点,我就得少占用一点。正相反,数据必须共享和流动,才会产生价值。数据的非排他性的另一个表现是,同一个数据,并不是使用过了之后就"消耗"掉了(像石油那样),而是可以不断重复使用,用作各种不同的用途。况且,数据的管理也不可能做到中心化,因此谁(许多环节上)都有可能获得数据,甚至滥用数据。 "非稀缺性"和"非排他性"决定了数据这种资源不是石油,进一步说,也意味着"资源"这个概念迫切需要被改写。 三
在相对次要的程度上,还有一些明显的特征也将数据与我们习惯上认为的"资源"区分开来。例如,数据虽然有价值,但却几乎不可能形成一种真正意义上(或传统意义上)的"市场交易"。 原因首先在于,数据的价值会因时因地而截然不同。虽说传统资源或资产的价值也会随着时间的推移而升值或贬值,也会因为各地文化和市场情况不同而不同,但历史上从未有过一种资源或资产的价值,像数据那样易变。以至于相对它而言,石油简直就是价值"恒久远"和"永留传"了。 在相当多的情景之下,数据甫一生成就已失效。即便是那些能够用于商业挖掘的数据,也有极强的时效性和地域性。以前人们常说"新闻是易碎品",其实新闻不就是数据大家庭中的一个种类吗?有评论者指出,大数据与其说是"大"的数据,毋宁说是实时在线的"活"的数据。大数据之价值正在于它处在不断变动之中,新的数据时刻在覆盖旧的数据。这是传统资源或资产概念所不能理解的——新油田的发现并不会使老油田里开采出来的石油不再有用。 数据难以形成市场交易的另一个更重要的原因在于,它虽然"有价",但却难以被准确地"定价"。数据不仅有上述提到的时效性和地域性,还有强烈的主观性。它的价值在很大程度上取决于产生数据的主体的主观个性,以及控制数据的机构(平台)对数据进行商业化的能力和特长。 眼下,许多评论者都喜欢说,互联网上的"免费"其实并不便宜。相反,消费者为此付出的代价可能极为昂贵。这话笼统地说当然是对的。Facebook凭什么赚这么多钱?还不就是因为几亿日活用户平均每天花50分钟时间在它上面"耕耘"吗?然而,对于每一个不同的用户而言,他们交出去这些数据所期望得到的回报却是千差万别的,而且还会随着场景的改变而改变。同样地,Facebook上的同一组数据,不同的广告商在使用它们时,愿意向Facebook支付的价格也是截然不同的。更重要的是,数据如果不聚合在Facebook这样的平台上,并由它进行开掘,分散在世界各地的这几亿人的零碎数据可以说毫无价值可言。 由此可见,将数据看成石油,可能不是一个能够很好地帮助我们理解它的经济性质的类比。还有学者和立法者将它视作是一种"知识产权"、"专利"、"隐私"或"劳动付出"……然而,迄今为止每一种对数据的定义或类比都存在难以克服的重大缺陷,以至于还不如干脆没有这些定义或类比。 举例来说,无论是上述所列的"知识产权"、"专利"、"隐私"或"劳动付出",都存在一个主体,也就是所有者。但我在前面已经分析过,数据的根本"困境"恰恰在于:我们几乎不可能去界定它的所有者。 进一步以"隐私"为例,这已不仅仅是一个经济概念,还是公民的一项宪法权利,类似于人生安全、言论、集会、结社、选举之类。数据中当然一定包含着隐私问题,事实上,保护公民隐私也是备受争议的欧盟GDPR的根本着眼点。但过分放大数据中的隐私因素,则可能会产生严重的现实后果,还不仅仅是束缚数字经济发展的问题。 举一个比较传统的例子吧,一个病人去医院看病,医生肯定要询问他(她)很多问题,诸如他(她)的年龄、性别、身高体重、生活习惯、某些过往经历,甚至还经常会涉及他(她)的婚姻家庭生活……这些大多可以看成是隐私。医生或医院在对病人进行诊断治疗的过程中,每一个环节都会分享病人的这些隐私。以往,医院假定,病人只要一踏进医院接受诊断和治疗,就视作他(她)默认同意医院内部分享自己的这些隐私,甚至出于诊断或科学研究的目的,还可以分享给其他医疗机构或科研机构。总之,医院唯一需要规避的就是将它们泄露到社会上去,比如贩卖给商业机构。而今天,人们在使用互联网平台时,无时不刻不在向它们交出这些涉及隐私的数据。如果互联网平台不能获得传统上医院被默认获得的这种涉及客户隐私的假定,那么它就不可能很好地提供服务。 此外,还有一个难点在于,对隐私这个概念本身,不同人、不同时代的定义以及重视的程度也有很大差别。 因此,在欧盟GDPR已经正式生效一周年之际,人们在究竟应该如何看待和认定数据的问题上依然众说纷纭,难有共识。这也就是为什么美国和中国这两个互联网数字经济远比欧洲更发达的经济体迄今对于如何监管数字经济行动迟缓,不愿意轻率行事的根源。 正在渐渐形成的唯一共识或许是,数据是一种资产,需要得到适当的对待和监管,我们需要重新思考既有的经济运行规范框架,不论是有形的法律制度还是无形的行为习惯。现有的商业规范都形成于"石油时代",如果数据这种资源与石油迥然不同,那么数字经济时代就需要有新的思维模式。