快生活 - 生活常识大全

基于关联规则算法的多因子打分法模型因子的选择与赋


  岳书凝 邵波 王健
  摘 要:目前我国的量化投资发展迅猛,其中最为热门的便是多因子模型策略。如今已经有不少成功的量化研究是以多因子选股模型为基础,基于打分法构建的模型策略,以实际的应用验证了其可行性。但是多数的多因子模型仍是以投资组合理论为指导进行构建的,而本文考虑到我国国情以及A股的实际情况,则创新性地从市场实际的历史表现数据出发,结合时下最新兴的大数据分析,利用FP-Growth算法发掘多种因子数据表现与收益的关联规则,反向选择出最优因子和最优权重,构建更加针对市场特征的实用型投资策略。
  关键词:FP-Growth关联规则算法;多因子打分法模型;因子选择;赋权
  尽管从20世纪90年代到现在,我国证券市场日益趋于完善,国内外众多学者提供了很多理论上近乎完美的投资模型,但是在我国目前市场尚无法满足这些模型的严格假设条件下,这些在国外运用成熟的量化投资模型在中国市场上并不定完全有效,真正能应用于实践的并不多。而要想在A股市场上获取成功有效的持续的超额收益,就需要从我国市场的实际情况出发,探索真正符合A股市场的本土化的投资模型。因此,本文将使用FP-Growth关联规则算法研究如何选择有效因子以及如何分配多因子权重,构建一个真正的符合中国A股市场特征的个性化多因子选股模型,构建在我国资本市场上可获得超额收益的投资策略。
  一、算法描述和多因子模型
  (一)FP-Growth关联规则算法
  FP-tree的构建,也就是将数据集进行压缩,是一种紧凑的数据结构,与计算机学科中的树结构相似。不同的是FP-tree通过链接(link) 连接相似的元素,在条件FP-tree的基础上进行频繁项集的递归挖掘,频繁模式由条件模式基中去除小于支持度计数的前缀路径组成。此外FP-Growth算法将数据集压缩到FP-tree中,从而大大地减少了扫描数据库的次数,以及存储大量候选集的开销。
  图1  FP-tree的实例
  (二)多因子模型构建
  1.候选因子库的创建
  本文考虑到因子指标的普遍性、数据可得性以及区别度等标准,选择并获取如下数据类型并根据FP-Growth算法的原理加以分组分类
  表1  (时间区间:六个月):
  2.数据汇总及预处理
  由于各个描述性因子所衡量的单位不同,导致因子数值范围差异较大,因此在进行因子分析之前,必须对其进行标准化,本文将数据进行min-max标准化处理,即是通过对原始数据的线性变换,按照比例缩放,使之落入一个小的特定区间,如[-1,1],由此才能进一步导入算法来分析数据。公式近似为:
  x* = (x - x_mean)/(x_max - x_min)
  3.FP-Growth算法的实现
  本文运用Java构造FP-tree,创建FP-tree的具体步骤如下:
  本文运用Java构造FP-tree,创建FP-tree的具体步骤如下:
  首先创建FP-tree的根结点,标记为"NULL".
  对于数据集中的每个事务执行以下操作:对事务中的频繁项按照频繁1-项集L中的顺序进行排序,排序后的频繁项表记为IP/PI,其中p是第一-个元素,而P是剩余元素的表.调用insert.tree{[p/PI]}.
  具体的执行过程如下:如果T有子女N使得Nitem_name=p.item_name,则N的计数增加1;否则创建一个新结点N,将其计数设置为1,链接到它的父结点T,并且通过结点链结构将其链接到具有相同item_name的结点。如果P非空,递归地调用inser_tree(P,N).
  按照支持度递减的顺序建立-一一个项头表,这样一颗完整的频繁模式数就构造完成。注:本文根據投资需求,只针对性的获取以A组数据(涨跌幅%)为表头,与其他因子的关联度。即排除无关的关联度分析,只得到体现各因子与收益率关系的FP-tree.4.经典多因子打分法模型改进考虑到市场的多变性和不同的因子特性,本文将等权重打分改进为赋权打分。经典的多因子打分法模型实质是计算综合因子(得分)—即因子标准化后等权重求和的选股过程。本文则根据因子暴露与收益率之间的关系,兼顾因子的偏好方向,成比例地形成投资组合。弥补了经典打分法因权重不定带来的不稳定性。
  二、应用与检验
  (一)赋权多因子模型的构建
  从wind金融终端数据库导出沪深300个股票六个月前(2019.05)的候选数据,将其标准化处理后导入FP-Growth算法进行挖掘,支持度设为50,调仓频率(每月调仓一次)。
  得如下结果:
  表2  算法挖掘的上跌幅与各因子指标结果
  关于该结果的解释分析:
  1.在支持度下,不存在与A1、A4关联的因子,因此在该时间段多数股票涨跌幅适中,无频繁大涨大跌。
  2.由于A2为跌幅分组,所以不列入买点分析范围内。
  3.通过计算得出,A3关联占比呈现近似于3:0:2:1.5。即不选择C所代表的因子,且得出因子权重。
  在同花顺mindgo平台上,利用多因子打分法策略,加入赋权进行模拟操作。
  设定最大持股数(30只)、初始金额(10,000,000元)
  (二)模型回测结果分析
  1.模型回测结果
  图2  收益曲线
  图3  权重和等权重收益率对比
  2.回测结果分析
  在回测期内,改进后的FP-Growth算法赋权多因子模型收益率为9.49%,收益率均超过基准收益和等权重模型,且各项指标的表现较于等权重模型均更为优化,可认为改良后模型因子选择及赋权有效,具有更强的盈利能力和普适性。
  三、结论和存在的问题
  本文通多运用FP-Growth算法,探究指标变化与收益率的直接关系,个性化的挑选最合适的有效因子;同时验证了且采用多因子选股模型时,选取的有效因子权重也不是固定不变的。本文模型可以针对不同的板块、周期、市场的实际情况和宏观经济状况进行不断的更新和调整,以保证其持续有效性,有针对性地获取更个性化的投资收益。同时在模型构建的过程中,也发现了一些日后可进行优化的问题。
  由于数据的可得性和计算量限制,只能选取部分指标,今后可以考虑加入更全面的技术指标,如KDJ、BOLL等。考虑到程序运行量较大,数据选取时间范围较小,只能针对短线投资,后续可针对长期庞大数据量改进算法。受到FP-grouth算法的局限性,数据只能进行离散处理,因此不能对数据进行连续性的分析。
  四、展望
  本文所述可以为量化投资提供一个新的思路,与以往基于经验判断定性选择模型中的因子等权重分配不同,而是运用大数据分析,从市场表现出发,反向思考,创新性的改进经典的多因子打分法策略。该策略除了能够更深程度的运用于量化选股,还可以针对个股特性及其所处在的周期一对一分析,使投资者对于所选中的优质股有更精准的操作。同时基于FP-Growth关联规则算法的多因子打分法选择及赋权改进,還可以扩展向宏观经济分析等其他金融领域,可以实时、准确、多维度、智能化的为政府和研究机构的政策制定、经济分析提供有力的数据支持。甚至可以应用至商业、医疗、教育、农业等其他领域。
  参考文献:
  [1]朱涛.基于FP-growth关联规则挖掘算法的研究与应用[D].南昌大学,2010(01)07.
  [2]刘艺.张海涛.刘奇燕.石硕.基于分解数据库的FP_growth算法关联规则研究[J].计算机与数字工程,2018(07)1306-1416.
  [3]苗苗.多因子选股模型在投资组合管理中的应用研究[D].南京审计大学,2018(05):17.
  [4]杨世林.基于聚宽量化投资平台的股票多因子策略应用杨世林[D].浙江大学,2018(06).
  [5]林文强.加性风险模型下量化投资策略及其实现[J]科技经济导刊,2019,27(10)4-6.
  [6]黄东宾.有效因子综合偏好强度与CVaR整合优化模型[J]运筹与管理,2019,03(3)24-30.
  [7]赵子铭.基于有效因子复合检验法的多因子选股策略[N]广州航海学院学报,2019,09(3)74-78.
  通讯作者:邵波(1980-),男,杭州,讲师,博士,微生物量化金融研究,量化金融大数据挖掘。
网站目录投稿:代丹