2. 清华大学深圳国际研究生院,广东 深圳 518055
2. Tsinghua Shenzhen International Graduate School, Shenzhen 518055, China
对于图像类信息,可以综合利用卫星图像识别技术、光学字符识别(optical character recognition, OCR),结合自然语言处理(natural language processing, NLP)等技术完成信息提取。如可从超高分辨率卫星图像中识别农作物、航运货物、海陆运输等目标,进而对经济生产重要环节走势变化做出预警[1];可使用OCR技术从财务票据、交易票据等非标准信息中提取用于风险审核的重要信息[2];而夜间灯光遥感数据则可用来动态预测人口密度、城市扩张速度[3-4];此外,声纹识别技术可用于增强金融应用场景的安全性,提升交互体验效果等[5]。
对于文本信息内容,可以利用自然语言处理(NLP)结合机器学习等技术完成信息提取。如可以从新闻、舆情、论坛资讯类文本数据中实时识别金融实体、发现金融事件的关联关系,提取刻画经济不确定性等的相关因子[6-12]; 从上市公司年报、首次公开募股(initial public offerings,IPO)招股说明书和公司前瞻性陈述类文本数据,挖掘企业收入、业务发展规模、公司发展战略倾向等信息[13-18];也可从社交媒体类文本信息中,包括推特、微博、微信公众号和论坛帖子等,提取事件倾向评分、关注度指数、风险波动率等因子[19-21]。
然而,图像及文本信息作为新数据源具有多源、异构、海量、高频的特征,处理这类信息技术难度较大。1)多源、异构:相对于主要由政府和机构主导收集的传统数据,图像及文本大数据的发布主体及具体形式均丰富多样。非结构化信息没有统一的收集标准和收集格式,这给人工智能(artificial intelligence, AI)信息采集和数据预处理技术提出了较大的挑战。2) 海量:受限于数据收集成本,传统数据收集往往需要借助纸质媒介,体量较小。随着文本信息从纸质媒介向以互联网为媒介的方式转移,文本数据收集和传输成本大幅度降低,每日都能产生百万兆(terabyte, TB)级数据。从海量的数据中筛选并提取出关键有效因子,这既是信息处理的重点也是难点。3) 高频:传统金融领域数据多为年、季、月、周度数据,而图像、文本大数据的频率可以高达秒级甚至更高,这就对非结构化信息的处理速度提出了更高的要求。
1 感知认知技术研究进展 1.1 基于图像处理算法的感知技术研究进展将多源异构信息应用于金融风险智能预警的过程如图1所示。首先利用网络爬虫技术从新闻、图片、视频、微博和语音等信息源收集信息,形成多模态信息池;之后利用智能感知认知技术对图像和自然语言进行层层处理,加工出关注度、情绪指数、预期指数等因子;最后根据计量经济学、统计学等方法构建风险预警模型,以此预测及解释金融风险。其中第二步感知认知技术是第三步建模的基础,更是现阶段有效提高金融风险预测精度和时效性的必要且重要手段;而第三步在计量经济和统计领域已有较多文献予以论述。因此,本文着重就第二步的感知认知技术及其在金融风险预警领域的应用进行系统综述,简要介绍近几年预测模型相关的研究进展。
目标检测(objective detection)的主要任务是从图像中定位感兴趣的目标及其类别,它是许多其他高级计算机视觉任务的基础,如实例分割[22-25]、图像字幕[26-28]、目标跟踪[29]等。目标检测算法发展过程如图2所示。
传统目标检测大多基于手工设计的特征,算法性能的提升主要依赖各种加速技巧来减少计算成本,代表方法有Viola-Jones(V-J)探测器,可变形部件模型目标检测算法(deformable parts model,DPM)等[30-32]。基于深度学习的目标检测可以分为两大类:two-stage和one-stage。前者基于候选区,检测框“从粗到细”设定,后者基于回归方法,检测框“一步完成”。two-stage类的代表方法包括区域卷积神经网络(region-based convolutional neural networks, R-CNN)[33] 、空间金字塔池化卷积网络(spatial pyramid pooling convolutional networks, SPPNet)[34] 、快速区域卷积神经网络(fast region-based convolutional reural network,Fast R-CNN)[35-36] ,其他改进的方法有深度残差网络(deep residual network, ResNet)、超网络(hypernetwork,HyperNet)[37-41]等。two-stage方法通常在准确度上有优势而在速度上存在不足。与之相对,one-stage方法通过单次检测即可直接得到最终的检测结果,因此具有更快的检测速度,但定位精度有所下降。one-stage方法主要有YOLO(you only look once)[42]和单激发多框探测器(single shot multiBox detector,SSD)两类。以YOLO为基础的YOLO V2~V4[43-45]系列算法重在研究如何提高预测精度,其他改进的算法有Fast YOLO[46]、Complex YOLO[47],POLY YOLO[48]、PP-YOLO[49]等。SSD[50]利用多尺度特征图进行目标检测,在保证检测速度的同时有效提高了检测精度。在SSD基础上改进的算法有反卷积单激发探测器(deconvolutional single shot detector,DSSD)[51]、密集连接卷积网络(densely connected convolutional networks ,DenseNet)[52]、RSSD(rainbow single shot detector)[53]、M2Det(multi-modal multi-channel metwork)[54],RefineNet[55]、特征融合单发多框检测器(deep fusion based single shot multibox detector , DF-SSD)[56]、增强型SSD[57]等。
2) 目标识别算法研究进展
目标识别(objective recognition)的任务是识别图像中可能未知分类的目标及其分类[58],其技术发展过程如图3所示。
目标识别算法目前主要以深度学习方法为主,其中LeNet-5模型[59]第一次将LeNet卷积神经网络应用到图像识别分类上,在手写数字识别任务中取得巨大成功。Krizhevsky等[60]提出了深度卷积神经网络AlexNet模型,其预测精度显著高于同期其他算法。随后,出现了大量改进的算法,包括VGG(visual geometry group)[61]模型、GoogLeNet 算法[62]、Inception V3[63]、Inception V4[64];ResNet模型[37]等在精度及运算效率上均有一定的提升。其他类似的研究包括Chen等[65]、Alom等[66]。
3) OCR 文字识别技术
基于深度学习算法的OCR技术主要涉及文本识别算法和文本监测两类算法。文本检测方法以SSD、CTPN[67]、DBnet[68]为主,文本识别算法通常基于LSTM+CTC[69]技术、attention[70-71]来实现。“端到端”文本定识主要基于下列方法来完成:CNN+RNN+CTC[72]、CRNN+LSTM [73]、基于循环神经网络的OCR[74]、基于多语言多路复用网络的OCR[75]。
4) 其他图像处理算法
1.2 基于自然语言处理技术的认知智能理论和技术发展认知智能技术提供了提取非结构化文本数据中有效信息的方式,可有效提升后续模型的预测精度,丰富非结构化数据在金融建模领域的应用。例如:可以利用论坛、研报中大量对资本市场的评论与分析言论等信息提取关注度指数、后市预期指数等有效因子,充分挖掘市场情绪信息在金融风险预测中的应用;还可以从海量的非结构化数据中提取有效实体,发现实体之间的关联信息,构造金融知识图谱,并将其应用到金融风险预警中,有效地根据风险的传递链提升金融风险的预警精确度与效率。
认知智能算法伴随着深度学习网络的应用获得了极大进展,它主要由特征编码、特征提取、知识图谱3个模块组成。特征编码模块主要将非结构化的文本数据转化为模型可输入的特征数据,其具体的编码方式包括ONE-HOT编码、词嵌入编码、ELMO(embeddings from language models)动态模型编码等。使用特征编码模块得到的词嵌入编码可将一段文字变为数字化的张量(其维度通常为字符数×词嵌入编码维度),文本特征提取模块以此为输入,进而使用长短期记忆(long short-term memory, LSTM)、Transformer等序列处理模型进一步提取文本语义信息。在前2个模块的基础上,NLP模型可根据不同的任务设置不同的输出层,其任务包括文本分类、文本蕴含、阅读理解、实体识别等。知识图谱则可用于解决金融风险知识存储与推理等问题。本节将对主要的文本认知处理技术及其应用进行综述。
① 基础模型
循环神经网络(recurrent neural network, RNN)是一种主要为序列问题设计的深度学习网络架构,其结构易导致反向传播时产生梯度消失和梯度爆炸,使最初的序列输入对当前时刻影响减弱,容易引起信息变形,给模型带来大量干扰信息。LSTM[100]改进了RNN的网络结构,采用“累加”替代原始RNN中“累乘”的状态计算,在保留RNN优点的同时缓解了梯度爆炸与梯度消失问题[101]。在此基础上,门控机制的引入[102]有助于模型合理控制信息流,解决了信息变形与长期依赖问题。上述模型均须串行处理因而开销较大,直到Transformer[103]出现,其采用了自注意力计算方式,特殊的架构能同时处理全部的嵌入向量:它利用当前特征前后的所有信息计算注意力参数,利用位置编码解决编码输入向量相对位置关系的难题,并引入残差连接来控制信息流向,利用前馈网络层对信息进一步处理。
② 注意力机制
③ 预训练模型
随着基于变换器的双向编码器表示技术(bidirectional encoder representations from transformers, BERT)[106]的出现与应用,预训练模型成为认知智能领域主要的研究方向。BERT以Transformer为模型基础架构,以改进的遮蔽语言模型[107]加下一句话分类判断为优化目标。预训练模型采用无监督的方式在超大规模语料上训练得到,可应用开放领域学习的先验知识来提升下游任务的性能,对小数据集友好。
在BERT出现前后均有相应的预训练模型出现。在BERT之前有ELMO[99]和GPT[108],但它们都未曾引入双向编码器。在BERT出现之后,RoBerta[109]丢掉了BERT中的下一句话预测任务并扩展了训练数据量。XLNET[110]提出了多层感知器(multilayer perception,MLP)置换语言模型,以解决BERT遮蔽语言模型训练集中mask标志带来的训练与应用数据分布不一致的问题。MASS[111]和T5[112]采用了seq2seq MLM的训练目标以解决BERT在序列生成任务上性能不足的问题。ERNIE[113]引入了实体和短语的mask机制,增强了模型的语法学习能力。Big Bird[114]、ConvBERT[115]则通过更加关注临近区域信息缓解了BERT全注意力机制带来的序列长度二次依赖局限。此外,模型变大也是一种趋势。GPT-3[116]将模型参数扩展到1750亿,数据扩展到45 TB,作为对比,BERT-large有3.3亿参数量。
如图5所示,该知识图谱[117]可以用来规范地表示企业实体、关系以及实体的属性和类型之间的联系。每个企业本体拥有4个企业属性:基本信息属性、经营状态属性、相关人员属性和历史风险属性等,企业间的关系可以分为参股、投资和交易关系,人与企业间存在掌控、任职或参股关系,人物之间又有下属和朋友之类的社会关系。在企业领域本体资源描述框架(resource description framework, RDF)的基础上可以构建企业动态风险知识图谱:边包含实体间的关系和关系的起始时间,用以预测高风险行业和风险事件来帮助企业尽早规避系统性风险;也可以加入企业现金流等属性,通过深度学习的方法实时监控属性值及其衍生指标,达到完善企业风险预警体系的目的。
在图像和视频信息提取方面,Birogul等[118]利用YOLO算法提取K线图信息,对股价进行预测。Wang等[119-120]将Mask R-CNN用于预测区域范围内的原油产量。这些预测结果可有效服务于资本市场的风险预警。Chen等[1]将基于卷积神经网络的图像商标识别与使用自然语言理解模型的上下文品牌识别结合起来,构建了多模态融合框架解决品牌识别问题。文献[121-124]研究了从图像和视频文件中准确提取人群数量、推断人群密度的高精度方法。感知技术的另一大应用为从遥感影像中提取农作物产量、城市土地利用等相关信息,与金融知识相结合后可有效用于风险传导预警等目的。如Chen等[1]综合利用多个目标检测算法基于卫星遥感图像,针对台湾病虫害对农作物产量的影响给出了量化评价。Yang等[125]通过自动合成带有标签的数据集,利用大豆种子图像对高产量的大豆进行筛选分类。Safonova等[126]利用无人机对棕榈树拍照,通过深度学习的方法检测棕榈树的生长和健康情况。Zhang等[127]开发了大豆叶片病害综合图像数据集,并通过检测模型对大豆叶片多特征进行分析,从而检测大豆叶片的病虫害问题。此外,基于遥感影像数据还可以用于建筑物识别,进而对城市发展进程、土地利用情况进行推断。Griffiths等[128]利用R-CNN方法基于遥感信息对建筑物进行了自动检测和分割;Tiede等[129]利用Mask R-CNN方法基于高分辨率卫星图像识别了120万个住宅和建筑物。
此外,对城市夜光数据(DMSP/OLS)的应用也依赖图像处理技术,而夜光数据经加工可作为区域经济发展情况等的侧面指标。Yu等[130]提出了一种提高DMSP/OLS的夜间灯光时间序列(nighttime light time series, NLT)图像应用精度和通用性的方法,探索了一种将人口定量空间化到网格单元的可行方法。Kumar[3]通过分析DMSP-OLS获得的1992-2013年夜间灯光数据,量化了北京城市化的像素级时空格局和趋势。Zhong等[4]基于DMSP/OLS研究了长江经济带城市体系空间格局,分析了长江经济带空间结构特征和规律。Zhang等[131]使用DMSP/OLS的多时相夜间灯光(NTL)数据来监测全球范围内的城市变化,提出了全球性城市化动态空间和时间变化的衡量标准。Shi等[132]利用DMSP/OLS数据和中国省级城市土地数据,评估了2000-2012年UDP(urban polycentric development)的时空变化和影响因素。
目前,深度学习 OCR 已广泛应用于卡证识别、票据单据识别、汽车相关识别(驾驶证、行驶证、车牌等)、合同文档识别等领域,这些信息对于做好贷款资料审核等风控业务十分有用。Sage等[133]提出了一种结合OCR标记的文本、空间特征和RNN的端到端表字段提取方法,能够有效提取文件流中的商业信息。Kumar等[134]使用OCR文字识别技术从票据和收据图像中提取信息,并开发了离线版应用程序,供用户及时、准确、高效的完成账单认证工作。Jang等[135]从功能和情感维度出发研究了多维OCR内容在网络营销中的重要性。Agrawal等[136]基于AI+OCR技术研发了支票单的关键组成部分挖掘模型,以完成支票验证任务。Bansal等[137]利用OCR技术提出基于属性的混合情感分类(hybrid attribute based sentiment classification ,HABSC)方法,测算了多个品牌的情感倾向。
2.2 认知智能在金融科技领域的应用1)关注度因子的加工及应用
文本预期因子是由文本数据中对未来趋势存在确定性判断的信息加工而来。Li等[152]在油价预测模型中尝试引入文本数据,构建油价趋势提取模型提取新闻中对未来油价的观点倾向,以捕捉影响油价波动的更直接的市场动因。这是将深度学习技术应用于原油预测的早期尝试,也是使用卷积神经网络(convolutional neural network, CNN)提取在线新闻媒体中的隐藏观点判断的初期应用。
近些年,随着感知认知技术的进步,知识图谱在金融风险预警的研究中得到深入应用。Liu等[156]通过爬取每个公司的新闻、识别命名实体并提取相关股票之间的业务关系来构建企业知识图谱。他们门控循环单元(gated recurrent unit, GRU)模型结合相关企业知识图谱提供的信息,以预测股票的价格走势。Elnagdy等[157]建议将知识图谱与本体相结合以有效识别网络安全保险(cybersecurity insurance, CI)领域实体之间的复杂关系,同时提出了一种称为 SCIC 的网络事件分类模型,将语义网络中的所有本体连接起来以生成知识表示。此外,知识图谱可以用于处理高度凝练和随时间变化的新闻语言。DKN(deep knowledge-aware network)模型在新闻推荐中采用知识图谱表示来充分发现新闻之间潜在的知识层次联系,从而合理地为用户扩展推荐结果。文献[157-158]结合非结构化新闻文章和描述事件的结构化 Wiki 数据,构建以事件为中心的知识图谱,能够利用各种语言(包括英语、意大利语、荷兰语和西班牙语)描述世界变化并检索相关新闻文章。Ciampaglia等[159]将假新闻检测问题视为知识图谱中的关系预测任务,从事实陈述网络中挖掘异构连接模式以检查断言的真实性。
3 风险预警模型及其应用研究近10年有关股市风险、信用风险等金融风险预警的研究较多,除了企业经济领域外,在计算机、数学、工程领域也有较多的研究(图7柱状图),其中我国学者的研究世界排名第一(图8)。这一方面显示了金融风险预警这一问题在专业领域的学术价值,也体现了金融风险预警技术已经引起人工智能相关学科专家的关注。但相对一般的企业及风险预测而言,系统性等重大金融风险预警的研究相对较少(如图7树状图所示)。
文献[164-165]回顾了近年应用机器学习、优化等预测股票价格的研究,如神经网络类中的加强反向传播神经网络(EBPNNenhanced back propagation neural network,EBPNN)模型、使用随机时间有效方程的Elman循环神经网络(elman recurrent neural network with a stochastic time effective function,ST-ERNN)模型、模糊逻辑方法中的自适应网络模糊推理系统(adaptive-network-based fuzzy inference system,ANFIS)、进化循环模糊推理系统 (self-evolving recurrent fuzzy inference system,SERFIS)、基于遗传算法的关联规则挖掘(genetic algorithm-based association rule mining ,GA-ACR)分类模型,以及各类混合模型、混合进化模型等。文献[166]构建了一个2层结构的网络模型来刻画经济组织之间的风险传染机制,即第1层传染网络(基于权益和担保)和第2层传染网络(基于信息溢出),综合考虑了各类风险传导机制,从金融渠道和信息渠道2个维度定义了风险传导网络。文献[167]提出局部线性径向基函数神经网络(local linear radial basis function neural network,LLRBFNN) 模型,预测了某公司的金融风险。基于传统时序模型及金融工程类模型进行风险研究在一定情况下也取得了良好的表现[168-174]。
3.2 深度学习算法的应用文献[175]对深度网络模型在金融风险领域的研究进行了综述,指出LSTM应用相对较多。此外,文献[176]提出了一种使用上下文无关语法(context-free grammar,CFG)生成丰富特征并利用支持向量机(support vector machine,SVM)进行预测的模型框架。通过比对时序模型如自回归模型(auto regression,AR)、自回归移动平均模型(autoregressive integrated moving average,ARIMA)、指数平滑模型(exponential smoothing,ETS)、指数移动平均模型(exponential moving average,EMA)与基于本文特征生成方法的SVM模型以及基于标准技术指标的SVM模型预测结果,可以得到基于本文特征生成方法的SVM模型性能更佳。文献[177]利用两层 LSTM模型,基于市场信息获取的400个特征对股票市场风险进行了预测,该预测结果优于传统机器学习模型融合结果。Li等[178]利用文本数据(例如新闻)提取了投资者因子,并使用基于LSTM及深度信念网络 (deep belief nets,DBN)的预测框架对股票价格进行了预测。Vargas等[179]提出了一个RCNN模型来预测S&P500指数。该模型在传统价格指标的基础上利用word2vec从财经新闻标题中提取了7个技术指标。Zhang等[180]使用带有LSTM+CNN以交易软件提供的公开可用指数为输入对金融市场下行风险进行了预测。该模型在训练过程中实施了生成对抗网络(generative adversarial network,GAN)技术,同时避免了复杂的金融理论研究和困难的技术分析,为非金融专业的普通交易者提供了便利。类似基于LSTM、RNN等深度网络算法对股票价格或金融风险进行的研究可参见文献[181-184]。
4 结束语感知认知技术本身面临一些困难与瓶颈。首先,大量标注让研究人员在简单却繁杂的标注任务上耗费了大量的时间。其次,各类算法泛化应用效果有降低甚至失效风险。不少基于深度神经网络的算法在基准数据集上的表现很好,但是在数据集之外的真实世界中则表现平平,这使得将算法应用到现实场景的过程十分缓慢。其三则是跨场景迁移面临障碍,深度神经网络对于场景的变化十分敏感。此外,现有文本处理技术对文本信息进行深度理解和逻辑推理的能力较差。
计算机视觉与认知神经科学、应用数学和统计学等学科的交叉,与各类软硬件的融合搭配,未来将迎来更为旺盛的发展。高动态复杂场景下的视觉场景理解、小样本目标识别、复杂语义行为理解等方向也会是未来发展的重要组成部分。本文挖掘在未来的发展中可能会存在如下发展趋势:1) 脑科学等领域的研究突破可能会创造出更强大的语义理解模型,以更好地分析长文本、多歧义、深层逻辑等复杂文本数据;2) 由于金融领域是需要较强解释性的应用领域,而传统的深度模型大都处于一个黑盒子难以解释的状态,深度模型在金融领域的可解释性也将是未来一个重要的研究课题。
