哲学是各类学科的升华版,本篇文章将借多年前福柯的《词与物》[1]中的哲学立场,讨论个人客户画像特征体系构建中的问题,从哲学的角度来论证客户画像体系的复杂性。 我们完全可以从哲学角度得到启发,探讨不基于特征体系描述客户,而是用时间轴上的系列事件标记客户,并通过深度学习LSTM模型预测事件发生概率。提出一种跨领域统一推荐模型新思路。 一、引言 众多学科都可以从哲学中找到源头以及趋势,现今的人们对计算机学科更多的认识是一门理工学科,知道众多的算法的源泉是数学,但哲学真的对计算机学科无用吗? 那我们就来看看法国哲学家马歇尔.福柯在1966年著述的《词与物》是如何来论证目前客户行为事件模型的,并引申讨论模型的发展。 二、从特征到个人客户画像 1、什么是特征 "那个被选作确切的同一性和差异性之场所的结构,就是被称作特性。" [1]特征是为了差异更是为了相似性,福柯认为相似性与特征(符号)是必然联系,因为相似性是建立在对这些特征(符号)的记录和辨认上。而且他一直强调相似性的重要:"直到16世纪末,相似性在西方文化知识中一直起着创建者的作用。"[1]"产生于特殊事件的一般归纳,或者不如说科学的种类、逻辑和所有抽象观念,都是借助相似性而形成。"[1]同样,相似性在模式识别、分类、监督学习、非监督学习等机器学习概念中的有着同样的重要性。 2、基于个人客户画像的特征库 目前业界的个人画像主要在机构内部数据结合外部数据基础上构建。如对原始数据进行特征提取,得到如下客户特征: 图一 (来源[2]) 在实施过程中可以为个人客户画像中每个人打上几千个各类标签。再结合具体的推荐场景如股票购买概率预测模型[3]中特征要求,应用于具体推荐模型中。实践中一般还使用特征选择模型来决定哪些特征适用具体场景。并且由于很多关键属性缺失,还需要一些数据挖掘模型用于特征推断,比方逻辑回归,决策树,标签传递等。 3、特征体系能完全标记人的行为吗? 特征体系是系统研究相似性,标识个体与分类的合理的、必然的途径。福柯对体系的定义是"选择一组确定的和相对有限的特征,其恒定和变换能在任何自身呈现的个体中得到研究" [1],他在认可这一途径的同时也指出该方法的不足。书中举了个例子:"中国某部百科全书中动物可以划分为:1属皇帝所有,2有芬芳的香味,3驯顺的,4乳猪,5鳗螈,6传说中的,7自由走动的狗…"他在惊叹如此分类的想象力的同时也指出"体系在展开过程中是任意的" [1],"有可能把方法凭经验而限定的从外部强加的修正应用于一般特性:被人们认为对一个种群来说重要的一个特征,很可能只是另一些动物的特殊性" [1]。让我们回顾上一部分中客户特征分类以及特征,似乎还比较合乎常理,但似乎也有些随意。前文[2]也试图从行为金融学相关观点应用于个人金融画像特征提取,但不足以根本解决这个问题。 福柯大师也意识到"特征的确立,既是容易的,又是困难的。" [1],"为了确立起所有的同一与差异,将有必要考虑在一个描述中可能被提及的每一个特征。这是一毫无止境的任务。" [1]而且他还意识到特征"都是在相互联系,相互混合并且或许能相互转换" [1]。现在,我们非常容易理解这些特征之间的这种关系。认为基因和特征存在映射关系的话,在遗传算法中,会通过一系列的遗传算子来确认后代,包括交叉算子、变异算子这些都可以导致基因相互联系与转换,从而导致特征同样变化。 而且人的行为更是动态的,情景的,那可想而知构建合理的特征体系作为客户画像的难度。那我们是不是可以试试其他途径呢? 三、从特征 到 事件 1、什么组成了堂吉诃德 "每个插曲,每一个决心,每一种不合时宜的行动,都象征着唐吉坷德"[1] 如果塞万提斯不是用那么一部伟大的长篇巨著描写唐吉坷德的总总境遇,而是用一堆特征来标记。哪怕他是塞万提斯,哪怕他用8888个特征标记唐吉坷德,难道我们能比现在更感受到那样的一个唐吉坷德吗?如果要YY一部《唐吉坷德在异界》,难道不是原著中那些事件的描述比8888个特征更能预测唐吉坷德骑士在异界中的种种行为吗? 2、从个人行为事件的客户画像到跨领域统一推荐模型 让我们试着忘记特征体系,是否可以尝试只通过那些在时间轴上,在特定场景下的总总事件来构建客户画像呢? 假设已合法的收集个人行为数据。一行样本数据包括,客户编号,事件类型,该类事件环境,事件行为的描述(当然还是可能需要用特征标识)等。那么我们将得到如下数据。 接下来,探讨基于个人行为事件的客户画像构建跨领域统一推荐模型。我们假设这些事件是独立,正样本是历史上不同客户在各领域已发生事件。考虑到数据的时间特性,应该选择RNN模型。但进一步考虑到长期历史行为对个人行为的影响,最终决定使用LSTM(Long-ShortTerm Memory)模型。以天为时间周期,每周期训练数据为指定日期的客户行为事件数据。通过LSTM模型,预测未来客户发生指定事件的概率。 该框架不同于以往跨领域深度学习模型中样本数据,不再基于客户特征画像体系,而是用事件轴上的系列事件标记客户,使用深度学习LSTM模型预测客户当前事件发生概率。 这仿佛在做着《少数派报告》中的事。但放心,这只是推荐模型而已。而且就像电影中结局,人的行为是种选择,一念天堂,一念地狱。人心当然不可测。 四、总结 我们借多年前福柯的《词与物》[1]中的哲学立场讨论了个人客户画像特征体系构建中的问题,从哲学的角度来论证客户画像体系的复杂性。我们完全可以从哲学角度得到启发,探讨不基于特征体系描述客户,而是用时间轴上的系列事件标记客户,并通过深度学习LSTM模型预测事件发生概率。提出一种跨领域统一推荐模型新思路。 也希望在数据科学领域,给大家一个新思路,不仅仅从数学的角度来研究量化数据,更可以从哲学来思考数据,得到更多的数据分析灵感。 参考文献: [1]米歇尔·福柯, 莫伟民 译.词与物 [M].上海三联书店. 2002. [2]袁峻峰. 人格量化-个人金融画像探索[OL].蚂蚁金服评论. 2016-03-07. [3] 袁峻峰. 大数据下客户金融产品购买概率预测[OL]. 大数据文摘,量化派 等(公众号). 2016-02-19.