摘 要:本文意在通过机器学习算法对银行零售数据进行深度挖掘,探索传统商业银行基于机器学习模型构建精准营销策略的切入点。本文使用商业银行数据分别构建基于逻辑回归算法和随机森林算法的理财产品响应预测模型,并进行结果对比分析,得出经过梯度下降优化后的逻辑回归模型效果更好的结论。并将此模型预测结果应用于实际理财产品营销中,为改变传统商业银行营销思路、提升營销精准度提供帮助。 关键词:机器学习;商业银行;精准营销;逻辑回归;随机森林 在数据爆炸式增长、新兴技术层出不穷的互联网时代,互联网金融迅速崛起,金融业竞争愈发激烈。随着营销模式的转变、客户个性化需求的增多,银行业意识到,传统的数据分析已无法充分挖掘数据的价值,也无法满足现有营销诉求。各银行纷纷组建专业的数据团队,开始尝试通过机器学习等手段进行数据分析挖掘,从而通过技术手段驱动业务运营。在此背景下,基于机器学习算法的精准营销在国内银行业快速兴起。 一、精准营销是商业银行发展的必备要素 商业银行零售业务的业务种类繁多、客户量庞大,依靠传统营销经验很难找到大量的精准目标客户。故通过数据分析、机器学习模型等方法进行海量精准客户筛选,从而提升投入产出比成为精准营销的关键。 近年来,国内银行业开展的基于机器学习算法的精准营销试点工作也取得了初步成效:某国有银行分别完成了客户精准营销主题9项功能、产品精准营销主题16项功能的全行推广;某股份制银行通过精准营销不仅实现了对3000多万大零售客户的集中运营管理(含信用卡客户)、为超过400万的贵宾客户提供个性化的服务,同时还节省了超过500万的营销成本,最终完成了零售业务的二次转型升级;某股份制银行基于精准营销模型结果为客户推荐产品,推广支行的客户金融资产总额、理财余额等指标均有显著提升,同时该行为客户搭建的流失预测模型,其前30%分位数提升2.45倍,模型总体预测效果较为理想。 虽然国内银行业已有一些可借鉴的精准营销成功实践经验,各商业银行沉淀的大量客户数据也是一个亟待挖掘的巨大宝库,但是由于不同银行的客户数据结构不同,模型也无法复用。因此我们仍需在银行业基于机器学习算法的精准营销道路上秉承"智能化、标准化、自动化、规模化"的原则不断进行探索。 二、基于机器学习算法的理财产品响应预测模型 (一)业务需求理解与解析 在互联网金融时代,随着客户对金融知识的理解不断提升、对资产管理的意识不断加强、对产品的要求不断提高,理财成为商业银行营销的重要产品类型。为了更好、更精准的为客户提供个性化产品服务,本文针对某商业银行的理财产品构建基于机器学习算法的产品响应预测模型。通过观察零售客户购买该类理财产品的行为特征,对未来1个月客户购买该类理财产品的可能性进行预测,并将模型预测结果应用于实际产品营销中,为一线业务人员降低营销成本、提升营销效益提供有力支撑。 (二)数据搜集与整理 数据为某商业银行零售客户脱敏数据,具有真实性与可靠性。基于本次精准营销理财产品响应预测模型的具体需求,结合业务知识判定,构建分类预测模型。获取模型目标变量的业务含义,即客户未来1个月是否购买该类理财产品,并进行数据加工处理。本次搜集并提取的建模所需数据宽表包含:自变量237个,因变量1个,客户数据661198条。 (三)数据探索与分析 基于数据宽表,输出各自变量的描述性统计分析结果,如:自变量TRANSFER_AMT_6的数据量为82405、均值为278335.36、标准差为3129411.02、最小值为0、下四分位为0、中位数为300、上四分位为47100、最大值为470000000,并结合业务知识对自变量进行基础处理,如:错误值检验、缺失值检验、异常值检验等。完成基础数据处理后,一方面需要对数据进行去量纲化,即数据标准化,消除不同变量间的量纲,减少因量纲不同造成的误差;另一方面为了避免模型结果过拟合,需要将数据抽样划分为训练集和测试集,划分比例为7:3,其中训练集是用来对模型进行拟合的数据样本,测试集是用来评估最终模型泛化能力的数据样本。 (四)特征选择 样本数据中的特征(即自变量)过多,需要运用统计知识结合业务知识对特征进行筛选,达到减少特征数量(降维)、减少模型过拟合、提高模型泛化能力的目的。特征选择一般分为以下几种方式。 1.删除单一值占比过大的特征,如某特征值的单一值占比达到95%以上,则认为这个特征作用不大,需人工删除; 2.利用卡方检验筛选变量,检验定性自变量与定性因变量的相关关系,当P值小于0.05时,表示自变量分布与因变量分布有显著差异,需保留该变量,否则删除; 3.利用变量IV值筛选变量,对变量进行WOE转换,计算变量IV值并设置阈值,保留变量IV值大于0.1的变量; 4.对变量进行多重共线性检验,计算变量的方差膨胀因子VIF值,保留VIF值小于10的变量; 5.利用PCA进行降维,经过反复验证,在模型效果不下降的前提下,尽量减少变量个数,最终保留30个变量作为入模变量。将经过以上特征选择方法进行筛选后的自变量与因变量重新加工形成新的数据宽表进行建模。 三、构建基于逻辑回归算法的预测模型 客户是否购买理财产品的模型采用二元逻辑回归模型。逻辑回归(Logistic Regression)是用于处理因变量为分类变量的回归问题,因变量用P表示概率,P的取值范围是:0≤P≤1。需要对P进行逻辑变换:logit(P)=ln(P/1-P),即可得到逻辑回归的表达式为: P=1/1+e-(Θ0+Θ1X1+Θ2X2+…+ΘnXn) 其中X1,X2,…,Xn分别代表上述特征筛选之后的自变量;Θ0,Θ1,…,Θn分别代表各自变量X的系数,即模型参数。利用statsmodels中的函数结合数据得到逻辑回归模型的参数,最终得到的结果,如:AUM_M_AD_woe的P值为0.000、FIN_EXPIRE_NUM_M_woe的P值为0.000、SAVDEPT_AMT_M_woe的P值为0.743、TRANSFER_AMT_6_woe的P值为0.036、PRODUCT_NM_woe的P值为0.000等30个入模变量。其中有些变量的P值大于0.05,即表示变量不显著,需进行删除处理。从原有的30个变量中删除5个变量(如:SAVDEPT_AMT_M_woe的P值为0.743),还剩显著变量25个。 此时得到的模型参数并不是最优的,需使用最小损失化函数对参数进行最优化调整。本文使用梯度下降法对模型损失函数进行最优化。梯度下降法的原理是通过迭代,找到目标函数的最小值或收敛到最小值,基本公式为: Θi=Θi -η( J(Θ0,Θ1,…,Θn)/ Θi) 其中,η为学习率,即每次迭代的步长;J(Θ0,Θ1,…,Θn)是损失函数。 J(Θ0,Θ1,…,Θn)= ∑N i=1(hΘ(xi 0+xi 1+…+xi n)-yi)2/2N 其中xi 0=1。 Θi=Θi -η(∑N i=1(hΘ(xj 0+xj 1+…+xj n)-yj)xj i/N) 在实际模型建设过程之中,步长η太大会导致迭代过快,甚至可能错过最优解;步长η太小,迭代速度太慢,导致很长时间算法都無法结束。 经过梯度下降的逻辑回归模型的结果指标为:KS=0.712,AUC=0.922。 构建基于随机森林算法的预测模型 随机森林由Leo Breiman提出,通过bootstrap重采样技术从原始训练样本集M中有放回的重复随机抽取n个样本,生成新的训练样本集合后,根据自助样本集生成n个分类树组成随机森林,新数据的分类结果根据分类树投票多少形成的分数来决定。具体的实现过程如下: 1)原始训练集为M,应用自助法有放回的随机抽取n个新的自助样本集,并由此构建k棵分类树,每次未被抽取到的样本组成了n个袋外数据; 2)假设有a个变量,则在每棵树的每个节点处随机抽取b个变量,并在b中选择一个最具分类能力的变量,变量分类的阈值通过检查每个分类点来确定; 3)每棵树最大限度的生长,而不做任何的修剪; 4)将生成的多棵分类树组成随机森林,并用随机森林分类器对新数据进行判别、分类,分类结果根据分类器的投票多少来决定。 使用随机森林模型对该数据进行建模,模型结果的指标为:KS=0.512,AUC=0.756。 四、逻辑回归模型与随机森林模型结果对比分析 通过对比两种模型的结果可以发现,随机森林模型的KS和AUC值显著低于经过梯度下降的逻辑回归模型的相应指标,故从该商业银行的数据情况来看,经过梯度下降优化后的逻辑回归模型效果更好。 基于机器学习算法的精准营销在商业银行领域的挑战。虽然随着新技术的不断兴起,基于机器学习算法模型的精准营销在商业银行领域受到青睐,但是在实际搭建及应用过程中仍会遇到一些挑战。 从数据层面,商业银行的数据基本上是结构化数据,相较互联网金融公司而言,在非结构化数据方面比较欠缺,搭建模型时可能会出现数据不够丰富,模型结果片面等情况; 从模型层面,筛选变量或者搭建模型的过程中,如果只单纯以数据及算法产生的结果来评估变量、模型的好坏,而脱离了业务知识及业务发展的实际情况,即使模型效果指标再漂亮对实际业务也是无意义的。因此建模人员对银行业基础业务的理解、对数据含义的解读及应用能力就显得尤为重要; 从应用层面,精准营销模型的好坏除了数据、算法等模型本身涉及的方面外,一线业务人员是否相信、是否不折不扣的按模型结果进行落地,以及营销技巧的使用是否得当等都会对模型的推广、迭代以及评价造成影响,因此业务人员的配合与反馈十分关键。 参考文献: [1]贾俊平.统计学(第7版)[M].中国人民大学出版社,2018. [2]王芳.基于机器学习理论的电商用户行为研究[D].北京:物资学院,2018. [3]张毅.数据为王颠覆营销:移动时代的大数据精准营销.人民邮电出版社,2017. [4]林庆鹏.基于大数据挖掘的精准营销策略研究[D].兰州:理工大学,2016. [5]刘力银.基于逻辑回归的推荐技术研究及应用[D].成都:电子科技大学,2013.