基于关联规则算法的多因子打分法模型因子的选择与赋

　　岳书凝 邵波 王健
　　摘 要：目前我国的量化投资发展迅猛，其中最为热门的便是多因子模型策略。如今已经有不少成功的量化研究是以多因子选股模型为基础，基于打分法构建的模型策略，以实际的应用验证了其可行性。但是多数的多因子模型仍是以投资组合理论为指导进行构建的，而本文考虑到我国国情以及A股的实际情况，则创新性地从市场实际的历史表现数据出发，结合时下最新兴的大数据分析，利用FP-Growth算法发掘多种因子数据表现与收益的关联规则，反向选择出最优因子和最优权重，构建更加针对市场特征的实用型投资策略。
　　关键词：FP-Growth关联规则算法;多因子打分法模型;因子选择;赋权
　　尽管从20世纪90年代到现在，我国证券市场日益趋于完善，国内外众多学者提供了很多理论上近乎完美的投资模型，但是在我国目前市场尚无法满足这些模型的严格假设条件下，这些在国外运用成熟的量化投资模型在中国市场上并不定完全有效，真正能应用于实践的并不多。而要想在A股市场上获取成功有效的持续的超额收益，就需要从我国市场的实际情况出发，探索真正符合A股市场的本土化的投资模型。因此，本文将使用FP-Growth关联规则算法研究如何选择有效因子以及如何分配多因子权重，构建一个真正的符合中国A股市场特征的个性化多因子选股模型，构建在我国资本市场上可获得超额收益的投资策略。
　　一、算法描述和多因子模型
　　（一）FP-Growth关联规则算法
　　FP-tree的构建，也就是将数据集进行压缩，是一种紧凑的数据结构，与计算机学科中的树结构相似。不同的是FP-tree通过链接（link） 连接相似的元素，在条件FP-tree的基础上进行频繁项集的递归挖掘，频繁模式由条件模式基中去除小于支持度计数的前缀路径组成。此外FP-Growth算法将数据集压缩到FP-tree中，从而大大地减少了扫描数据库的次数，以及存储大量候选集的开销。
　　图1  FP-tree的实例
　　（二）多因子模型构建
　　1.候选因子库的创建
　　本文考虑到因子指标的普遍性、数据可得性以及区别度等标准，选择并获取如下数据类型并根据FP-Growth算法的原理加以分组分类
　　表1  （时间区间：六个月）：
　　2.数据汇总及预处理
　　由于各个描述性因子所衡量的单位不同，导致因子数值范围差异较大，因此在进行因子分析之前，必须对其进行标准化，本文将数据进行min-max标准化处理，即是通过对原始数据的线性变换，按照比例缩放，使之落入一个小的特定区间，如[-1，1]，由此才能进一步导入算法来分析数据。公式近似为：
　　x* = （x - x_mean）/（x_max - x_min）
　　3.FP-Growth算法的实现
　　本文运用Java构造FP-tree，创建FP-tree的具体步骤如下：
　　本文运用Java构造FP-tree，创建FP-tree的具体步骤如下：
　　首先创建FP-tree的根结点，标记为＂NULL＂.
　　对于数据集中的每个事务执行以下操作：对事务中的频繁项按照频繁1-项集L中的顺序进行排序，排序后的频繁项表记为IP/PI，其中p是第一-个元素，而P是剩余元素的表.调用insert.tree{[p/PI]}.
　　具体的执行过程如下：如果T有子女N使得Nitem_name=p.item_name，则N的计数增加1;否则创建一个新结点N，将其计数设置为1，链接到它的父结点T，并且通过结点链结构将其链接到具有相同item_name的结点。如果P非空，递归地调用inser_tree（P，N）.
　　按照支持度递减的顺序建立-一一个项头表，这样一颗完整的频繁模式数就构造完成。注：本文根據投资需求，只针对性的获取以A组数据（涨跌幅%）为表头，与其他因子的关联度。即排除无关的关联度分析，只得到体现各因子与收益率关系的FP-tree.4.经典多因子打分法模型改进考虑到市场的多变性和不同的因子特性，本文将等权重打分改进为赋权打分。经典的多因子打分法模型实质是计算综合因子（得分）—即因子标准化后等权重求和的选股过程。本文则根据因子暴露与收益率之间的关系，兼顾因子的偏好方向，成比例地形成投资组合。弥补了经典打分法因权重不定带来的不稳定性。
　　二、应用与检验
　　（一）赋权多因子模型的构建
　　从wind金融终端数据库导出沪深300个股票六个月前（2019.05）的候选数据，将其标准化处理后导入FP-Growth算法进行挖掘，支持度设为50，调仓频率（每月调仓一次）。
　　得如下结果：
　　表2  算法挖掘的上跌幅与各因子指标结果
　　关于该结果的解释分析：
　　1.在支持度下，不存在与A1、A4关联的因子，因此在该时间段多数股票涨跌幅适中，无频繁大涨大跌。
　　2.由于A2为跌幅分组，所以不列入买点分析范围内。
　　3.通过计算得出，A3关联占比呈现近似于3：0：2：1.5。即不选择C所代表的因子，且得出因子权重。
　　在同花顺mindgo平台上，利用多因子打分法策略，加入赋权进行模拟操作。
　　设定最大持股数（30只）、初始金额（10，000，000元）
　　（二）模型回测结果分析
　　1.模型回测结果
　　图2  收益曲线
　　图3  权重和等权重收益率对比
　　2.回测结果分析
　　在回测期内，改进后的FP-Growth算法赋权多因子模型收益率为9.49%，收益率均超过基准收益和等权重模型，且各项指标的表现较于等权重模型均更为优化，可认为改良后模型因子选择及赋权有效，具有更强的盈利能力和普适性。
　　三、结论和存在的问题
　　本文通多运用FP-Growth算法，探究指标变化与收益率的直接关系，个性化的挑选最合适的有效因子;同时验证了且采用多因子选股模型时，选取的有效因子权重也不是固定不变的。本文模型可以针对不同的板块、周期、市场的实际情况和宏观经济状况进行不断的更新和调整，以保证其持续有效性，有针对性地获取更个性化的投资收益。同时在模型构建的过程中，也发现了一些日后可进行优化的问题。
　　由于数据的可得性和计算量限制，只能选取部分指标，今后可以考虑加入更全面的技术指标，如KDJ、BOLL等。考虑到程序运行量较大，数据选取时间范围较小，只能针对短线投资，后续可针对长期庞大数据量改进算法。受到FP-grouth算法的局限性，数据只能进行离散处理，因此不能对数据进行连续性的分析。
　　四、展望
　　本文所述可以为量化投资提供一个新的思路，与以往基于经验判断定性选择模型中的因子等权重分配不同，而是运用大数据分析，从市场表现出发，反向思考，创新性的改进经典的多因子打分法策略。该策略除了能够更深程度的运用于量化选股，还可以针对个股特性及其所处在的周期一对一分析，使投资者对于所选中的优质股有更精准的操作。同时基于FP-Growth关联规则算法的多因子打分法选择及赋权改进，還可以扩展向宏观经济分析等其他金融领域，可以实时、准确、多维度、智能化的为政府和研究机构的政策制定、经济分析提供有力的数据支持。甚至可以应用至商业、医疗、教育、农业等其他领域。
　　参考文献：
　　[1]朱涛.基于FP-growth关联规则挖掘算法的研究与应用[D].南昌大学，2010（01）07.
　　[2]刘艺.张海涛.刘奇燕.石硕.基于分解数据库的FP_growth算法关联规则研究[J].计算机与数字工程，2018（07）1306-1416.
　　[3]苗苗.多因子选股模型在投资组合管理中的应用研究[D].南京审计大学，2018（05）：17.
　　[4]杨世林.基于聚宽量化投资平台的股票多因子策略应用杨世林[D].浙江大学，2018（06）.
　　[5]林文强.加性风险模型下量化投资策略及其实现[J]科技经济导刊，2019，27（10）4-6.
　　[6]黄东宾.有效因子综合偏好强度与CVaR整合优化模型[J]运筹与管理，2019，03（3）24-30.
　　[7]赵子铭.基于有效因子复合检验法的多因子选股策略[N]广州航海学院学报，2019，09（3）74-78.
　　通讯作者：邵波（1980-），男，杭州，讲师，博士，微生物量化金融研究，量化金融大数据挖掘。
网站目录投稿：代丹