《微观量化百问》第十三期丨特征和特征提取

1726212556211275.jpg

特征提取是量化投资中又一环节,做好特征提取能节省大量后续环节的工作。什么是特征?特征提取有着哪些全新发展趋势?本期栏目将围绕这些问题展开。

Q49:什么是特征?

在机器学习领域,特征指“被观测对象的可测量性能或特性”,通常是数值型的,但语法模式识别可以使用结构特征(如字符串和图)。

Q50:特征和因子的区别是什么?

因子指“对个股收益差异有解释作用的特征”,其中Alpha因子更为强调其对未来个股相对收益的预测能力。“特征”更侧重符合数理统计规律的信息,“因子”相对更侧重逻辑性和可解释性。一般来讲,中低频数据能直接提取Alpha因子,不少低频指标本身就具有选股能力;而原始的高频行情数据一般不能直接用作Alpha因子,需要通过信号变换、时间序列分析、机器学习等方法从高频数据中构建特征,才能构建选股因子。

Q51:特征提取的作用和发展趋势有哪些?

一般而言,量化投资可粗略分为六大环节:收集数据、数据清洗、特征提取、模型开发、组合优化、交易执行。其中“特征提取”环节,各家称呼并不相同,简单的Alpha因子和简单的特征工程处理都在这一环节进行。

在机器学习领域,“特征工程处理”是指在给定数据、模型和任务的情况下设计出最合适特征的过程,相当于梳理数据并结合业务需要提取有意义的信息,以干净整齐的形态进行组织。

做好特征提取能节省大量后续环节的工作:以D. E. Shaw为代表的部分海外顶级机构,并未特别强调深度学习模型的复杂性,但由于Alpha因子质量较高,即使并不复杂的模型也能获得出色的建模效果。这也是为何业内并不会片面强调因子数量,而因子的质量(即存在多少独立的Alpha)才是关键。不同的方法论会得到不同的成果,从逻辑出发的因子质量比较高,暴力方式得到的因子数量比较多。

近年来,A股市场更为有效、机构化趋势明显,量化私募从市场获取超额收益的难度增加,因子开发也面临着数据维度更高、信息密度更低、噪声含量更高的挑战。机器学习等擅长处理海量数据和高维特征的方法得以快速应用到量化投研流程中。其中深度学习模型具有灵活多样的网络结构,适合不同情景的建模问题,本身具有自动学习特征的能力。随着网络层数增加,模型的线性和非线性表达能力也会在一定范围内明显增强。

随着人工神经网络的进一步发展,除了选择分析已经提取好特征的信号,还可以直接分析原始数据而不需要提取特征。该做法能避免人为选择导致的信息丢失,保留全部信息,最终有助于获得相关性极低的α。

Q52:量化机构的迭代方向有哪些?

第一类:追求更新的方法论

例如在特征工程方面,增进对数据的深刻理解,“把对市场的深刻理解和最先进的科学技术相结合”。简单的因子提取和连接并不能增加收益,不同维度的多元化拓展是未来努力的方向——虽然目前另类数据在中国A股的应用并不广泛,也未能大幅增加策略的超额收益,但发展前景广阔,仍值得持续积累并投入研究。与自然语言学习不同,股票市场本身的数据点不够多,只堆砌数据必定导致过拟合。优秀的研究员从理解出发,依靠逻辑型的因子(如事件驱动因子)也能进行数据分析,发掘他人想不到的东西。

第二类:侧重更新的模型、更高的算力——依靠模拟和近似人的行为试图替代人的理解

2017 年,Google 的研究者提出 Transformer 的神经网络模型,这启发了全球量化机构在投研中加强新科技的应用。如果应用更新的模型,Alpha挖掘能力可能比以前提升幅度更大。以深度学习为代表的“暴力”方式非常重要,在诸如神经网络做几层、怎样做才不会过拟合的细节问题上即是不同机构的分野,这也是“采用同一个模型,业绩却千变万化”的原因。

除了对基础设施等硬件进行资金投入外,量化私募还需要努力营造有利于高效产出的投研环境,为优秀顶尖人才提供相对较优的福利待遇,兼顾硬实力的提升和软环境的升级。

(CIS)

校对:姚远

未经允许不得转载:滚雪球吧 - 让财富的雪球滚起来 » 《微观量化百问》第十三期丨特征和特征提取