机器学习、数据科学与金融行业 系列十四:人工智能,大数据和投资管理(11)

机器学习、数据科学与金融行业

系列十四:人工智能,大数据和投资管理(11)

10. 独特焦点:使用机器学习增强现代投资理论有效前沿

背景
    从1950年以来,马科维茨的现代投资理论就成为了最广泛使用的资产配置方案,也衍生出来了各种各样的扩展,例如Black-Litterman方法等。在实践中,凸优化解决方案的结果往往表现很差,完全抵消了多元化的好处。例如,在金融引用中,我们知道投资组合在样本内优化的结果在样本外表现不如简单的等权重方法,而其原因主要是因为噪声引起的投资组合不稳定和信号引起的投资组合不稳定。这里主要讨论如何使用机器学习方法来解决现代投资理论的实践问题。

噪声导致投资组合不稳定
    金融领域的相关矩阵的估算结果通常不稳定,即使由BARRA给出的基于因子的相关矩阵也呈现了很低的信噪比,原因是我们至少需要N(N-1)/2个独立的测量才能保证协方差矩阵不是病态的。举例来说,有100个机构的小型协方差矩阵需要5050个独立同分布的观测值,这需要超过20年的日数据;不止如此,协方差需要稳定20年,且收益是产生于高斯过程。很明显,这些都是不现实的。
    为了进一步理解这个问题,考虑下图的特征值的分布:
机器学习、数据科学与金融行业 系列十四:人工智能,大数据和投资管理(11)
    上图显示了超过90%的基于因子的金融相关矩阵的特征值落在了Marchenko–Pastur分布的范围内。Marchenko–Pastur分布从一个随机相关矩阵预测特征值的分布,也就是说几乎所有特征值都与噪声有关,即使使用了因子模型在收益中引入了结构。
    为了纠正这个问题,Potter, Bouchaud, 和 Laloux推荐对相关矩阵进行降噪。这个过程包括使用核密度估算(Kernel Density Estimator)来对特征值是否是噪声进行判别。与噪声关联的特征值可以被中心化通过其平均值替代。下图比较了降噪前和降噪后的特征值,
机器学习、数据科学与金融行业 系列十四:人工智能,大数据和投资管理(11)
    收缩法(Shrinkage)和降噪的关键区别是前者会对所有特征值进行平均;而后者只会平均与噪声相关的特征值。所以,一般情况下我们会优先考虑降噪方法,因为它能够在稳定协方差矩阵的同时最小化信号损失。
    降噪修剪了相关矩阵的条件数,保留了矩阵的迹,其结果具备更好的数值属性。我们可以通过蒙特卡洛试验证实这一点:
1) 使用基于因子的相关矩阵,刻画一个随机的经验相关矩阵和均值向量。
2) 对此经验相关矩阵进行降噪。
3) 从中导出得到最大化夏普比率的投资组合。
4) 计算真实的优化权重(由因子相关矩阵导出)和估算的优化权重(由降噪的经验相关矩阵导出)的RMSE(Root Mean Square Error)。
如下表:
机器学习、数据科学与金融行业 系列十四:人工智能,大数据和投资管理(11)
信号导致投资组合不稳定
    凸优化的解决方案不稳定的另外一个原因是由信号引发的不稳定。关于这一点有一个直观的解释:
    协方差矩阵为单位矩阵,特征函数为一条水平线,条件数为1。在非这种理想情况下,条件数会被不规则的相关结构所影响。在金融场景下,证券的一个子集在其内部呈现较强的相关性,这个子集构成了相关矩阵的一个聚类。作为层次化关系的一个结果,这种聚类会自然出现。当K个证券组成这个子集,他们大多数情况下会重度暴露在一个普通的特征向量下,这意味着对应的特征值大部分方差。但是因为相关矩阵有不变的迹N,一个特征值的增加是以其他特征值为代价的,导致了条件数大于1。因此,聚类内部相关性越高,条件数就越大。噪声导致的不稳定主要有观测值太少引起的,而信号所导致的不稳定是由矩阵内部的聚类特性所引起的。
    为了解决这个问题,我们可以应用NCO(nested clustered optimization)步骤:
1) 运用机器学习算法对相关矩阵进行聚类。
2) 分别对每一个聚类应用优化算法。
3) 使用优化的权重把相关矩阵中的聚类折叠成一行(一列)
4) 对折叠后的相关矩阵应用优化算法。最优权重是第二步中的权重和上面得到的权重的点积。
    这个步骤可以得到一个鲁棒性的权重的原因是不稳定的来源是相关矩阵中的每个聚类。
    我们可以证实这种方法的有效性,通过前面所提的蒙特卡洛试验,下表是1000次试验的结果,
机器学习、数据科学与金融行业 系列十四:人工智能,大数据和投资管理(11)
关键点
    马科维茨的现代投资理论从数学上看是完美的,但在实践中会出现数值问题。
    由于噪音和信号,金融协方差矩阵会呈现较大的条件数。
    我们使用了NCO方法有效的缓解了这个问题。