清华金融评论

修大成：另类数据当中的阿尔法 | 2020全球基金投资论坛嘉宾观点速递

by 清华金融评论 2020-11-19 08:48:14

以“双循环新格局下基金发展新机遇”为主题的“2020全球基金投资论坛”于11月8日在北京成功举办。芝加哥大学商学院计量经济学与统计学教授修大成发表了题为“另类数据中的阿尔法”的主题演讲。他介绍了机器学习和另类数据在投资中的应用。他表示，近期一项调查显示，从未听说机器学习的机构投资人已经从5%降到了大概0%。机器学习在量化金融和金融研究当中一直在被使用，其中的一个典型应用就是多因子模型。另类数据也正在逐渐地被接受，在过去几年机构投资人关注另类数据的比例在逐步地提高，现在几乎100%都在关注。具体看，最常见到的另类数据是文本数据，被使用的一些另类数据还包括卫星图像信息、消费者交易记录、手机定位信息等。同时，他提到，美国很多对冲基金都在使用这种文本数据，不少中国企业也开始研究另类数据。

以下为演讲全文：

大家好！四、五年前，我在国内与大家分享机器学习在金融中的应用的时候，观众里还有人问我能不能给一个具体的在国外成功使用机器学习取得了很好收益率的例子。在那个时候，机器学习在金融当中的应用可能还是一个不能说的秘密，随着近几年的发展，你会看到机器学习正逐渐被接受并且被使用。

根据摩根士丹利在最近一段时间的调查，我们可以发现，从来没有听说机器学习的机构投资人已经从5%降到了0%左右。机器学习作为投资中一个重要组成部分的选项，从10%左右一直保持增长趋势，在近期已增长到了20%。

这里所讲的机器学习实际上还是比较狭义的机器学习，机器学习的思想实际上在量化金融和金融研究当中一直在被使用，从来没有缺席。一个最简单的例子就是多因子模型，各位在座的基金从业者都非常熟悉的各种Barra模型或者是Fama-French这种多因子模型，就是一个利用机器学习思想当中的因子选择，包括降维的一个很明显、很成功的例子。

与此同时，另类数据也在逐渐地被大家接受。可以看到，从来没有或者是逐渐增加使用另类数据这样的一些机构投资人，在过去几年当中在逐步地提高，现在几乎已经到了100%。

这里可以看一下另类数据这样一些具体的例子。我们可以看到，最常见到的另类数据可能是文本的数据，比较典型的几个公司，如路透社旗下的Refinitiv等，他们是美国做新闻分析的几个比较成功的公司，中国也有很多这种新的刚成立的企业在开发这方面的研究。现在美国几大对冲基金，几乎所有头部量化的基金都在使用这些新闻分析的产品。

与此同时还可以研究一下公司或者是社交网络上的一些短评、博客，利用一些网络爬虫去谷歌或各大的网站上面寻找一些功能信息。除了文本信息之外，国外现在还在被使用的一些另类的数据包括卫星图像的信息、消费者交易记录、手机的定位信息等，都逐渐地在被这些对冲基金使用。

从考虑对冲基金使用这些另类数据时间上的长度和覆盖面的广度来讲，并不是所有的另类数据都适合所有的基金。比如卫星图像信息可能对于交易大宗商品来讲是比较有效的，但是它的历史的长度大概就只有若干年而已。但是对文本数据或者新闻数据而言，有一个非常长的样本，大概有十几年，并且可以看到大概超过上百支甚至近千支的股票，所以今天我主要跟大家分享的是一个新闻当中的另类数据的挖掘问题。

在2016年的2月4日，《麻省理工科技评论》发表了一篇文章，就是这些对冲基金能不能利用人工智能（AI）来打败市场。其中，它提到了一段我觉得写的非常好的话：在所有这些新的人工智能技术的应用当中，最有前景的是利用这些技巧来处理自然语言。这种自然语言数据以一种新闻公司的报表，甚至社交网络邮件这样的一种形式，然后利用这些信息，我们可以更好地去预测这个公司或者是外汇、大宗商品，或者是其他商品的一些回报。

这里为什么要用到人工智能，或者更具体来说的机器学习呢？主要是因为这些自然语言里面我们讲话所用到的一些词汇，实际上是非常多的。这么多的词汇如果直接拿过来预测股票回报，通常来讲很难得到一个比较好的结果，因为你会过度感知（Over Feeling）。机器学习就提供了很多可以解决这种Over Feeling问题的这样一些办法，比如说定量的选择、降维等。

同时,在这篇文章里面他们也提到了一个基金，叫Sentiment，如果你去它的主页上看，他们就利用了各种先进的技术、深度学习的算法，包括巨量的数据。如果看一下它的表现，当然最后始终是以表现来说话，你会发现这个基金在大概成立不到两年之内就已经滑掉了。所以事实上深度神经网络它这种在自然语言处理当中是很成功的，但是当这个自然语言处理当中的信号用到金融当中去的时候，这个问题就变得不是特别地明显、不是特别地显而易见。另外，如果你看一下学术界的金融研究，你会发现学术界的金融研究用到自然语言处理的方法是非常简单的：数一数有多少个正的词、有多少个负的词，非常简单但是非常透明的方式来进行操作。这样的一种方法，实际上在国外的一些金融基金当中还在广泛地应用。

我想给大家展示一个很简单的例子，在这个例子当中你可以看到利用自然语言处理得到的一些信号，相对传统的量价，包括前面的信号来讲是有很大的优势，当然也有它固有的缺陷。所以我们在这里分析了大概16个国家和地区、13种语言，利用他们当中这样一些信号做了投资的组合。这个来源主要是路透社实时数据，这个在各个国家交易员、机构投资者都会涉及这样的信号。

这里试图去比较三种，分别代表了三种典型的自然语言处理的方法，第一种是我们在2019提出的，利用这个词带模型，一种有监督的词带模型的方式，来做一个自然语言处理的方法，那这个方法非常透明，但是它会完全忽略文章的上下文，只是把每一个单词单独拿出来，作为这个预测回报的一个变量。

同时，我们也会把这种方式与当前经济学习自然语言处理当中表现最好的、有代表性的两种算法进行比较，一个是磁销量表示，一个是预处理模型，这里就会用到这种迁移学习等最近比较火的经济学习的概念。当然后两种方法，相对于前面一种方法而言，就会更加黑盒子一些，所以我们可能比较难以理解，就是说这些模型到底学到了什么。但是，我们当然会尽自己最大的努力，试着去理解当中的一些信号，但是我们最后会把所有的这个统计信号转化成投资组合的收益。

这里给大家总结一下，我们这个数据大概是什么样子的。我们大概考虑十几种国家和地区的语言，它们的数据量大小是非常不一样的。我们可以看到，美国有最多的数据，大概平均每一天有1000条新闻，所以这些新闻里面提到的这些公司都是相对来说比较大的公司，是可以相对于美国3000支股票来讲比较大的公司，有媒体关注度的公司。同时，香港的新闻其实也有很多。现在研究香港，我们就是要去分析这个繁体字，大概每天有300多家公司，会被金融投射的媒体所包含。

这里给大家举一个具体的例子，这个例子是特斯拉的例子。特斯拉的首席执行官埃隆马斯克在2019年去了一次曼哈顿的法院，这显然是一个很糟糕的新闻，同一天特斯拉的股价就跌掉了约4%。后面我会给大家讲一下，如果我们去分析一下这篇文章，我们可以学到什么样的这个信号，这里先给大家看一下，如果用词带模型的话，我们可以学到哪一些负向词和哪一些正向词。当然这里说的是美式英文，你可以看到，像Fund、Seo、Cut、Straight and clear的这种负向词，那正向的词有Peword、Buy、Rise等，但是还有Reach这个词，这个词非常大，说明它是一个占了很多很大比例的这样一个正向的词，那这里是对于这个美国的新闻，做了这样一个模型学到的东西。如果我们对于英式英文的新闻，我们也可以单独的训练一个模型，看一下可以学到一些哪样的词汇。我们可以看到很多词汇，实际上是和美国的这个英文的使用的词汇，实际上是很精细的，像CUT，再像正向词汇里面的这个Rich，我们在英文里面，也学到了。

现在跟大家具体的分析一下，利用这样的一些模型怎么去让机器去学习，机器是怎么学习这样一篇关于特斯拉这样一篇文章的。我们可以看到，原来的那一篇很长的特斯拉的文章被提取出了一些关键字，这些关键字里面，有的词标上了蓝色、有的词标上了红色，最红的词，被认为是一个正向的词，蓝色的词就会被认为是这个负向的词，很明显可以看到Rich这个词实际上是一个正向词，像刚才我已经给大家展示过了，它是一个很明显的正向词，但是它在这样的一个上下文里面，实际上是一个负向词。因为它说的是Rich invest very，所以它应该是一个负向词。在这种情况下，在没有考虑上下文的算法就会给出一个错误的信号，相反如果你考虑了正向词，或者是考虑这个上下文的这样基本学习的算法，比如说像Birte这种，大家现在比较常用的这种预处理的原预处理的这样一些模型，它就会给出一个合理的负向的观点。

所以这里可以看到，尽管在绝大多数情况下，这种词带模型也好，表示模型也好，都可以给出一个比较合理的判断，但是总有一些时候上下文会有影响，会对这个词的意思产生影响，所以在这种情况下，没有经济性的算法可能就会遇到一定的困难。

那最后我想给大家看一下，利用这样一个经济学习的算法，做一个非常简单的交易策略。我们现在每天开盘之前，比如说第一天，我们会分析白天的新闻和晚上的新闻，会给这些所有的公司打一个分，然后也会做一个简单的长期投资策略，这里因为主要探讨的是非中国的A股，是一个相对来说比较容易的事情，那我们在这里买比如说不超过50支股票，然后做一个最简单的投资组合，我们可以看到虽然是各种不同的模型，但是实际上收益还是非常高的，包括美国这样一种非常成熟的市场做这样一个相对来说比较低频或者是中频的策略，还可以达到3.8以上的夏普比率。并且可以看到，词向量模型比词带模型要更好一点，在某些国家的表现会更好一点。

当然，我最想提到的就是预训练模型，你会发现它的表现会比词带模型，包括词向量模型好。实际上也就是说用哪一个词汇可能是表达文章意思最重要的这样一个信息，表达信息罪重要的一个部分，至于通过上下文来推断这样的一些内容，其实并不是特别地多。所以使用这样一个比较复杂的模型，并不是在所有时刻都能得到比较好的表现。

最后，我想给大家看一下如果我能够提前看到在时刻0发生的新闻，然后在时刻-1进行交易，或者是在时刻-2进行交易，或者是看到了时刻0的信息，我过一天再进行交易，或者过两天再进行交易，它的收益率会有很明显的不同。基本上新闻大概在3、4天之内就会完全被吸收到这样一个价格里面。

至于为什么在时刻0的新闻我在时刻-1或者-2提前交易也能有收益呢？主要是很多的新闻是重复的新闻，在时刻-1或者-2的时候都已经被报道过了。所以这大概是我们三种不同的模型在美国市场上都普遍发现的这样一个现象。同时，如果我们看国际市场，基本上也都是同样的。在第十天的时候收益率是最高的，但这并不是可以实现的收益率。在第一、二、三天，我们也可以实现这样的收益率。

最后我想提一下中国A股的情况，因为路透社并没有很好地覆盖关于中国A股的数据，所以我们又找了另外一个网站，这个网站实际上是各大上市公司发布公告的官方网站。这个网站按理说应该是全网最快提供各大公司新闻的一个地方，但我们发现一个很奇怪的现象，在国内我们会发现day-1、-2、-3、-4这些不太能够交易的时间，去交易deal0的信息，就完全第十天的信息应该是在第十天才知道的。但是似乎在day-1、-2、-3一直到day-10都有很强的可能会发生的这样一个交易带来的收益。这种现象还需要具体地分析一下，到底该如何解读？有的解读认为中国的有些新闻可能提前知道了，但是也有一些解读是门户的网站新闻的来源并不是最早的。

总结一下，我希望根据今天的分享大家可以看到文本的数据实际上是对算法阿尔法有一定潜力的。它们相对一些量价的信号来讲，更加容易去理解，同时这些新闻的信息也是实时可以被推特进行分析，这条路也是一个很少有人会走的路，有更多的机会没有特别的竞争。当然，这里面有很多原因，比如交易的成本，包括人力资源、计算、数据的成本等，那当然还是比较高的。

谢谢大家！

(注：内容根据活动现场速记整理，未经嘉宾本人确认)