面向金融风险防控的互联网文本数据关键信息抽取标准研究

清华金融评论 2019-01-14 11:08:58 2291 views

防范化解金融风险是实现高质量发展必须跨越的重大关口。合理有效地利用文本中未被利用的与金融相关的信息，可以为金融风险的科学防范提供支持。本文基于已有的成熟技术，通过制定规范的技术流程，结合实际应用时的技术现状、技术人员情况，通过标准化的方式，提供一种互联网文本数据关键语义信息抽取的普适性方法。

背景

金融是国家重要的核心竞争力，党中央明确指出：“金融风险是当前最突出的重大风险之一。防范化解金融风险，事关国家安全、全局发展、人民群众财产安全，是一场输不起的战役”。党的十九大报告中指出，要坚决打好防范化解重大风险等三大攻坚战。中央经济工作会议做出“金融风险是当前最突出的重大风险”的科学判断，并再次强调，打好防范化解重大风险攻坚战，重点就是防控金融风险。伴随互联网技术的发展，各类金融服务充斥了我们的生活，这些服务在带给我们便利的同时，虽然有成熟技术的支撑，依然会有大量不确定金融风险的产生。如近些年兴起的个体网络借贷（P2P网贷）。据网贷之家发布的报告，截至2018年11月底，P2P网贷行业正常运营平台数量下降至1181家，相比10月底减少了25家。据不完全统计，11月停业及问题平台数量为25家。这些风险不仅会影响企业的可持续发展，甚至会影响国家金融秩序的稳定。

信息可以在防范金融风险中起重要的作用。如果决策者可以提前掌握信息，就可以做出有效恰当的反应，规避风险。在互联网和信息化高度发达的今天，组织或机构、个人的部分信息均可以通过搜索互联网（Web）得到。有统计表明，一个组织80%的信息都是以Web页面的形式存在。而Web上的绝大部分信息均表现为文本方式，包括技术文档、博客、论坛帖子、电子邮件等。文本已成为金融信息的重要载体之一，如上市公司财务报表、交易金融论坛中投资者的经验分享、证券机构的研究报告和时事热点等财经新闻中都蕴含大量金融信息。对文本中金融相关信息的充分合理挖掘、利用，有助于参与市场的主体、市场监管者对风险及早识别、发现、预警。但由于Web是开放性的，文本中所蕴含的信息具有量大、分布分散、内容杂乱、缺乏结构化的特点，单纯依靠人工方式进行信息分析，无法达到人们对信息快速、准确、全面的要求。因此可以借助目前成熟的自然语言处理技术、人工智能、机器学习、大数据等方法对文本中的信息进行有效的分析，提高获取有用信息的准确率和速度。本文基于已有的成熟技术，通过制定规范的技术流程，结合实际应用时的技术现状、技术人员情况，通过标准化的方式，提供一种互联网文本数据关键语义信息抽取的普适性方法，为金融风险防控提供更丰富的数据支撑、更多样化的分析手段。

基于文本数据的金融风险防控关键语义要素抽取标准研究

文本预处理

互联网文本是非结构化的，且来源广、文本中的内容表述混乱，文本会存在编码不一致、有噪声数据、停用词等问题，为获得较好的抽取效果，需要通过文本预处理的步骤，使各文本数据从格式到内容达到统一。

金融风险参考模型构建

参考模型是一种抽象的框架，由领域内专家定义的概念及概念间关系所组成。金融风险有多种分类，每种风险还会具有更细小的分类，每类风险涉及的因素也会有不一样，我们需要确定每类风险会与哪些因素有关，由哪些因素决定。同时互联网文本中的内容复杂，包含信息众多，需要确定哪些信息是与金融风险防控有关。以上这些都需要通过构建金融风险参考模型来解决。金融风险模型描述金融风险分类体系、每种金融风险涉及的要素及要素与风险之间的关系、金融风险要素与文本中语义要素的映射关系。在本文中我们拟基于《巴塞尔协议Ⅲ》构建金融风险参考模型。

关键语义要素抽取

文本中与金融信息有关的关键信息集中于表示事件、时间及数量的信息。依据金融风险参考模型，风险的识别与发现也大都是与文本中的金融主体、时间信息和数量信息有关。时间信息是进行金融事件序列、风险趋势变化等相关分析的重要内容。数量信息则对金融风险的定量化分析和预测具有不可替代的作用。此外，金融事件信息为突发事件捕捉、网络舆情跟踪、金融风险预警和监控等提供分析基础，为金融风险防控提供辅助决策支持。如某个行业出现某一事件，在某个具体时间点的上市公司重要信息披露，股票随时间的价格波动、公司随季度的净利润变化、采购经理指数（PMI指数）的按年变化、通胀数据的周期性变化等，都会影响金融领域决策者的决策变化。

对于事件信息的抽取。事件抽取的方法主要有模式匹配和机器学习方法。模式匹配方法的特点是对具体的领域知识依赖性较强，机器学习方法的特点是不需要太多人工干预和领域知识。事件主要由事件触发词和描述事件结构的元素角色组成。事件抽取任务由事件句抽取、事件类别识别和事件元素识别组成。事件句包含事件的主体和谓词两个核心元素，有三个重要特征：事件主体、触发词和语句位置。事件模板由事件的类别决定。由于金融事件类型非常宽泛，须针对不同的问题，借助专家经验、领域知识库、事件词典等，构建金融事件类别体系。事件元素识别是指识别事件中的所有参与角色。事件元素抽取分为关键事件要素抽取和辅助事件要素抽取两类。

对时间信息的抽取。目前，金融时间信息抽取方法主要包括基于规则的方法和基于机器学习的序列标注方法。基于规则的方法通过专家对现有规则的总结和归纳，生成固定的规则，并进行信息抽取。规则通过循环测试和错误分析生成新规则，不断提高规则的有效性。基于机器学习的序列标注方法包括条件随机场、支持向量机等算法，将时间识别的过程转化为序列标注的过程。

通过对金融时间描述的分析，我们将时间分为绝对时间、相对时间和模糊时间三种类型。相对时间可通过以某一参照时间为基准进行加减计算转换为绝对时间。模糊时间难以转化为时间轴上的某一点，仅表示一定范围之内的时间。根据对目前时间信息抽取方法的调研，我们拟使用启发式规则和模式学习方法获取文本数据中时间要素，并使用分类算法和多策略的规范化方法将抽取的时间规范为TIMEX3。

对数量信息的抽取。金融文本中，一条完整的数量信息通常会包含4个组成部分：变量、比较运算符、数值或数值区间、计量单位。如从金融文本“出口产品超过324.8亿美元”可以识别出数量信息为“[出口产品，超过，324.8亿，美元]”，其中，“出口产品”是变量，“超过”是比较运算符，“324.8亿”是数值，“美元”是计量单位。

目前，变量识别的基本方法有基于规则的方法、基于统计的方法及基于统计和规则相结合的方法。数值或数据区间信息的抽取可以通过预定义的特征集，结合文本学习而得到特征集，以识别金融文本中的数值或数值区间。计量单位抽取是指使用预定义的原子计量单位识别文本中复杂的计量单位，同时定义规则以检测未知或不完整的计量单位。如对于文本“公司净利润 70万至250万人民币每年”，数值“70万”缺少计量单位，我们可以通过上下文信息对其进行补全。在补全计量单位之后，还须考虑将计量单位转换为统一可比较的单位，并将相应的数值根据转化率进行自动转换。比较运算符的抽取主要是定义比较运算符的逻辑关系，并进行合并、去冗余等的操作。在识别数量信息中四种组成部分后，还需要建立变量与数值之间的正确关联。

抽取评价

最后在抽取之后，需要一定的评价方法对抽取效果进行评价。常用的技术评价指标主要包括：准确率（Accuracy）、精确率（Precision）、召回率（Recall）和综合评价指标（Fβ-Measure）。在评价之前，首先需要构建用于评价的测试数据集，有数据集上执行抽取，并将抽取得到的关键信息与测试集的人工标注结果进行自动对比，根据评价指标的计算公式，得到各个指标的值，从而对抽取方法进行评价。

总结

打好金融风险防控攻坚战事关国家安全、事关人民美好生活。随着互联网的快速进步和世界金融的高速发展，互联网已融入到我们生活的各个方面，人们也越来越注重互联网上信息的重要性。我们希望通过本文所提方法，能有助于有效信息的快速、准确、全面的发现，为金融风险防控提供更丰富的数据支撑、更多样化的分析手段。

（曹馨宇为中国科学院计算技术研究所博士研究生。刘涌为中国银协标准委办公室主任。王海涛为中国标准化研究院基础标准化研究所术语研究室主任。本文编辑/杨慕铭）

分享到：

面向金融风险防控的互联网文本数据关键信息抽取标准研究

Copyright © （京ICP备10035462号-6）

没有权限查看付费内容的提示