基于机器学习算法的债券流动性预测

  摘   要

  对投资者而言,标的资产的流动性变化对制定投资策略、防控风险具有重要意义。本文主要关注债券在未来一段时间的流动性,创新性地融合先验知识,使用债券的动静态特征信息,训练出可解释的概率分层决策链模型,实现对流动性的预测。此外,本文提出基于投资组合的未来流动性分数指标,实现在不同投资组合之间的流动性排序,并可以观测在连续时间窗口下的未来流动性的变化。资产管理人也可对不同流动性等级的债券设置变现比例,根据债券当日市值完成对资产组合的可变现金额测算,进一步提升流动性管理能力。

  关键词

  债券流动性 债券组合流动性 机器学习 贝叶斯统计

  引言

  从债券市场看,较好的流动性是指在合理的价格范围内有大量债券可供交易,且大额交易不会对价格造成较大冲击。从投资者角度看,较好的流动性意味着债券可以合理的价格迅速变现。预测未来流动性,可以提前测算债券资产的可变现比例,对做好资金流动性规划有一定作用。

  受限于债券的发行主体、方式、规模、产品条款、投资者特征等多重因素,传统的基于人工预测流动性的方法缺乏时效性和智能化,也无法及时捕捉到市场的动量信息和非线性规律。近年来随着机器学习的发展,市场开始引入复杂模型来预测流动性,但无法直接结合先验知识。虽然不同债券流动性的差异较大,但存在一定的共识,即研究人员普遍认为信用债流动性弱于利率债。如果把这些先验知识融入机器学习模型,将大大提高预测模型的精度和可信度。

  在预测流动性过程中,结果的可解释性非常重要。传统机器学习模型虽然精度较高,但缺乏可解释性。像XGBoost等内部黑盒的模型无法直接被人类理解,即使给出预测值,预测逻辑也未知。

  资产管理领域中,以债券资产为主的投资组合较为常见。除组合收益率外,组合流动性量化也值得研究。如果我们对市场中所有存续债券的未来流动性进行量化,将预测结果映射到任意债券投资组合中,计算出综合流动性量化分数,便可比较不同的投资组合,为流动性风险定价提供实证依据。

  基于上述挑战,本文对债券流动性预测提出新的解决方案,结合专家经验设定可变现比例,对投资组合的可变现能力进行量化。创新点有三方面:一是构建清晰可解释性的决策模型,二是动态调整预测模型,三是建立投资组合流动性评价能力模型。

  流动性预测基本模型

  (一)问题定义与预处理

  度量债券流动性的指标一般包括即时性、宽度、深度。即时性是指一定时间内的成交量;宽度是指买卖价差,买卖价差越小,流动性越好;深度指标一般使用换手率,即债券在一定规模下的成交量大小。

  买卖价差数据获取难度较大,宽度被排除。新债和老债的换手率阈值不同,无法统一比较。成交量可以综合判断债券流动性,成交量越高,流动性越大。基于上述原因,本文将以即时性作为衡量流动性的维度,用未来30天的日均成交量作为流动性能力的度量指标,即模型的目标变量(Y)。

  个券的特征(X)分为静态特征和动态特征。静态特征主要是债券的自有属性,比如资产类别、发行场所、付息方式等。动态特征是会随时间变化的特征,比如信用评级、存续期限、过去30天交易量、到期收益率等。类别型数据无法直接入模,在此我们根据专家经验做预处理,转化为数值型数据(见表1)。对于缺失特征的个券,我们的填充策略是使用众数进行填充。处理完输入特征数据后按照对应的时间关联个券未来30天的日均成交量,形成完整的数据集。

  (二)模型介绍

  递减规则列表模型(FRL)是一种监督预测模型,可用于预测个券未来的流动性。该模型由Futong Wang和Cynthia Rudin于2015年提出,类似一棵向右生长的二叉树,优点是可以学习到与人工经验类似的评价方式。先用关联分析的方法来挖掘规则,形成规则池,接着使用贝叶斯方法在规则池中挑选后验概率最大的规则,可以产出预测结果的规则列表。

  (三)模型产出

  FRL模型结构和专家的判断逻辑非常相似,对于债券的流动性预测模型,先构造出历史训练集。债券的流动性(Y)使用未来30天的日均成交量描述,相关债券特征(X)包括存续期限、发行方式、资产类别等。训练完FRL模型结构如图1所示。

  为展现训练好的模型预测逻辑,以下对单个债券样本的预测路径进行描述。假设当天有1只剩余期限为1年且私募发行的信用债,经过图1的二叉树,第一层规则判断的是债券的剩余期限,该债券的剩余期限为1年,不满足规则的阈值(小于6个月),因此自动落入第二个判断节点来预测发行方式。该债券属于私募发行,不满足第二层判断规则,因此继续落入右边子节点,进行第三层的判断逻辑,即资产类别。该债券属于信用债,不属于同业存单或者利率债,继续落入右边子节点,也就是模型的叶子节点,得到了最终的流动性分数。

  实证研究

  本文将对常配置的债券类投资组合进行分析,以展示如何对组合型资产的可变现能力进行预测。

  (一)数据处理与模型训练

  数据选取市场中未到期的债券样本,并加工动静态特征。按照表1的编码方式,将类别型特征转换为数值型特征,并对缺失特征进行填充,确保数据的准确性和一致性。

  建模阶段,对于时序类数据,按照前后的时间窗口来划分训练集和测试集,确保无数据穿越问题。将训练集输入FRL模型,生成模型的预测成交量。训练集选择2023年8月24日—11月24日期间的存续债券,目标变量是债券未来流动性(即时性指标)。基于专家经验,如果日均成交量大于100手,则认为债券流动性较强,并标记为1,否则为0。特征方面则是当日可以获得的债券信息。

  得到个券未来30天的流动性预估分数之后,将其映射为3个等级(0~2),转化为多分类模型,展示债券之间的相对流动性。具体规则如表2所示,预测分数越大代表流动性越好。

  (二)模型预测

  模型训练结束后在测试集上进行评价,以2023年11月25日—12月25日为测试集时间窗口,用训练好的模型对存续的104万样本进行预测,并转化为预测的流动性等级。真实的流动性等级根据专家经验设置,小于100手等级为0,在100手至10000手之间等级为1,大于10000手等级为2(见表3)。本文使用机器学习模型常用的准确率、召回率、精确率这3个指标来评价:

  a.准确率是预测正确的个券样本数/全部的样本数;

  b.召回率是根据上述3个得分来单独计算,每个分数档的召回率=该分数档下预测正确的样本数/真实为该分数档的样本数;

  c.精确率是根据上述3个得分来单独计算,每个分数档的精确率=该分数档下预测正确的样本数/预测为该分数档的样本数。

  测试集中预测准确的样本有87万只,准确率为83.3%。

  FRL模型在高流动性和低流动性的债券组中召回率较高。在低流动性债券中的精确率最高,说明模型在预测低流动性债券中效果较好。

  对预测出的各流动性等级下的债券,计算不同属性下每个债券池中的平均交易量,记为交易活跃度指数(单位为万手),数值越大,代表流动性越强。

  如表4所示,各维度的统计结果表明预测的流动性等级越高,真实的平均交易量越高。且满足市场对债券流动性的共识,比如利率债的交易活跃度明显高于信用债,公募债的交易活跃度显著高于私募债,随着存续期限的增加交易活跃度降低。从到期收益率来看,高流动性组中收益率在[2%,3%)的债券交易活跃度最高。此外,债券市场上永续债的交易活跃度指数高于非永续债,因为永续债大都为信用风险低的金融永续债,整体上交易较活跃。

  表5、6、7分别展示3个流动性组中部分债券样本。在每个流动性等级池中,公募发行、存续时间在6个月以下的债券更活跃。中低流动性组中,非利率债、永续债较活跃;高流动性组中,利率债、非永续债较活跃,到期收益率分布稳定,信用评级较高。历史流动性对未来流动性的影响也较大,一般过去流动性越好,未来流动性也会越高。如债券7与债券10,基本属性类似,均为公募发行且存续期限在6个月以下的利率债,到期收益率的差异较小,但过去流动性差距较大,模型及时抓住该动态信息并反馈到最终的流动性等级分类中。

  (三)预测结果的应用

  1.个券的流动性评价

  对模型预测的个券流动性等级,按照流动性等级0~2来分组分析。如果发现有潜在流动性风险,则可以参考模型预测的未来流动性排名来进行处置。

  2.债券投资组合的流动性评价

  本文提出3个指标评价债券组合的流动性。一是基于算术平均的未来流动性综合分数(FLI)。二是基于市值加权的未来流动性综合分数(WFLI)。三是基于持仓金额的可变现金额(RA)。具体的计算公式如下:

  (1)FLI:

  ranki,其中ranki代表第i个债券的流动性等级排名,n为债券个数。

  (2)WFLI:

  wi×ranki,其中wi代表第i个债券的市值在投资组合中的权重,ranki代表第i个债券的流动性等级排名,n为债券个数。

  (3)RA:

  valuei×ri,其中valuei代表债券投组对第i个债券的持仓市值,ri代表第i个债券的可变现比例,n为债券个数。

  FLI的范围为0~2,WFLI的范围为0~2。RA的范围为

  valueirmin代表最小可变现比例)。3个指标的数值越大,代表组合的流动性越好。

  valuei×rmin~

  基于FRL模型的预测结果,可以预测个券在未来流动性的等级。设置对应的可变现比例并计算债券资产组合的可变现金额。依据专家经验,对流动性等级为0、1、2的债券分别设置为0.3、0.6、0.9。

  对表8的债券投资组合进行流动性指标计算,FLI为1.25,WFLI为1.5,RA为6600万元,占总市值的66%。

  3.投资组合之间的流动性矩阵

  应用上述FLI可以对投资组合的流动性进行比较。每个债券投资组合的FLI范围为0~2,由于个券的属性每天变化,可从横向和纵向两个角度来观测债券投资组合的未来流动性变化,形成观测矩阵。

  表9展示债券投资组合的未来流动性观测矩阵,横向角度可以看到在某一时间段下不同债券投组的FLI。纵向上,可以观测同一债券组合的未来流动性变化,比如债券投组1的未来流动性先下降后上升。此外,还计算了在特定时间窗口下投组的平均值和标准差,比如债券投组4在2023年12月1日至12月4日的平均流动性最高;但是债券投组3的流动性标准差最低,说明该组合流动性比较稳定。

  结论与展望

  本文基于可解释的机器学习模型和专家知识,形成评价债券投资组合的FLI,加权WFLI和可变现金额RA。从横向和纵向角度,对不同债券投资组合进行评价,为投资者提供了债券资产及其组合的流动性风险管理依据,对自营业务、资管业务均具有借鉴意义。未来可进一步优化模型层。FRL模型虽然可解释性较好,但是规则限制性较强, 可以加强对交叉规则的挖掘,对不同流动性债券进一步细分。

  参考文献

  [1]焦健,张雪莹. 债券违约对流动性影响的传染效应研究[J]. 证券市场导报,2021(1).

  [2]王振瀚、唐瀚明,投资视角看信用债流动性“潮汐”——对券种、信用资质和期限的流动性分析[EB/OL]. https://h5.drcnet.com.cn/docview.aspx?version=finance&docid=7376621&leafid=15102&chnid=3945.

  [3] 赵洋. 交易所国债市场流动性影响因素的实证研究[J]. 生产力研究,2009(3).

  [4]周舟、李鸿禧, 我国国债市场流动性影响因素研究(上篇)[EB/OL].https://www.sohu.com/a/472844599_121123914.

  [5]Wang F, Rudin C. Falling rule lists [C]. Artificial intelligence and statistics. PMLR, 2015.

  ◇ 本文原载《债券》2024年7月刊

   ◇ 作者:蚂蚁集团信贷事业群何悦 王海洋 王一博 李天明

  ◇ 编辑:高兰兰 陈森 鹿宁宁

责任编辑:赵思远

未经允许不得转载:滚雪球吧 - 让财富的雪球滚起来 » 基于机器学习算法的债券流动性预测