课题组:上证信息-文因互联(联合)课题组 课题主办人:上海证券交易所信息公司 赵伟 何曾樑 课题承接单位:北京文因互联科技有限公司 文因互联:张强 王丛 李卫东 丁海星 张梦迪 马新磊 上证信息:王辉 赵..." />
永利网站网址 15

【永利网站网址】一文读懂自然语言处理,上证信息

原标题:上证信息-文因互联(联合)发布:知识提取在上市公司信息披露中的应用

前言

style=”font-size: 16px;”>课题组:上证信息-文因互联(联合)课题组

课题主办人:上海证券交易所信息公司 赵伟 何曾樑

课题承接单位:北京文因互联科技有限公司

文因互联:张强 王丛 李卫东 丁海星 张梦迪 马新磊

上证信息:王辉 赵伟 何曾樑 王海菲 李炜 陈春燕 奚超

自然语言处理是文本挖掘的研究领域之一,是人工智能和语言学领域的分支学科。在此领域中探讨如何处理及运用自然语言。

信息披露是资本市场的重要组成部分,是资本市场法律法规的核心内容之一,也是对市场参与者权益的有利保障。

对于自然语言处理的发展历程,可以从哲学中的经验主义和理性主义说起。基于统计的自然语言处理是哲学中的经验主义,基于规则的自然语言处理是哲学中的理性主义。在哲学领域中经验主义与理性主义的斗争一直是此消彼长,这种矛盾与斗争也反映在具体科学上,如自然语言处理。

以上市公司信息披露为例,随着市场监管的全面深化以及上市公司数量的逐年增长,各类投资者,尤其是中小投资者,面临着海量公告信息处理能力不足的困难。

早期的自然语言处理具有鲜明的经验主义色彩。如1913年马尔科夫提出马尔科夫随机过程与马尔科夫模型的基础就是“手工查频”,具体说就是统计了《欧根·奥涅金》长诗中元音与辅音出现的频度;1948年香农把离散马尔科夫的概率模型应用于语言的自动机,同时采用手工方法统计英语字母的频率。

对海量公告信息制作摘要或提取有意义的结构化信息,一方面可以提高投资者的信息获取能力,同时也为市场监管及企业研究提供了基础数据支持。

然而这种经验主义到了乔姆斯基时出现了转变。

本文介绍了一种用于上市公司信息披露自动摘要的方法,本方法使用深度学习与知识规则的混合算法,首先将文档划分为句子,将句子进行标注后通过LSTM模型训练计算出关键语句,再将输出句子经过规则系统提取,从而得到一篇公告的重要实体与关系,最后重组为摘要。本方法在几类高频、重要的上市公司公告中进行了结构化提取与摘要生成的测试,并取得理想结果。本文认为这种方法可以低成本、可迁移地部分解决公司公告的知识提取问题。

1956年乔姆斯基借鉴香农的工作,把有限状态机用作刻画语法的工具,建立了自然语言的有限状态模型,具体来说就是用“代数”和“集合”将语言转化为符号序列,建立了一大堆有关语法的数学模型。这些工作非常伟大,为自然语言和形式语言找到了一种统一的数学描述理论,一个叫做“形式语言理论”的新领域诞生了。这个时代,“经验主义”被全盘否定,“理性主义”算是完胜。

特别鸣谢

然而在20世纪50年代末到60年代中期,经验主义东山再起了。多数学者普遍认为只有详尽的历史语料才能带来靠谱的结论。于是一些比较著名的理论与算法就诞生了,如贝叶斯方法(Bayesian
Method)、隐马尔可夫、最大熵、Viterbi算法、支持向量机之类。世界上第一个联机语料库也是在那个时候的Brown
University诞生的。但是总的来说,这个时代依然是基于规则的理性主义的天下,经验主义虽然取得了不俗的成就,却依然没有受到太大的重视。但是金子总会发光的。

上证所信息网络有限公司

90年代以来,基于统计的自然语言处理就开始大放异彩了。首先是在机器翻译领域取得了突破,因为引入了许多基于语料库的方法(哈钦斯,英国著名学者)。1990年在芬兰赫尔辛基举办的第13届国际计算语言学会议确定的主题是“处理大规模真实文本的理论、方法与工具”,大家的重心开始转向大规模真实文本了,传统的仅仅基于规则的自然语言处理显然力不从心了。学者们认为,大规模语料至少是对基于规则方法有效的补充。到了1994~1999年,经验主义就开始空前繁荣了。如句法剖析、词类标注、参照消解、话语处理的算法几乎把“概率”与“数据”作为标准方法,成为了自然语言处理的主流。 

文章节选自上海证券交易所与上交所技术出版的《2017证券信息技术研究发展中心研究报告》内部刊物。

总之,理性主义在自然语言处理的发展史上是有重要地位的,也辉煌了几十年,历史事物常常是此消彼长的,至于谁好谁坏,不是固定的,取决于不同时代的不同历史任务。总的来说,基于规则的理性主义在这个时代被提及得比较少,用的也比较少,主要是由于以下几个缺陷:

(一)研究背景

鲁棒性差,过于严格的规则导致对非本质错误的零容忍(这一点在最近的一些新的剖析技术上有所改善);

在我国证券市场上,信息披露是一种法规要求,各种信息披露义务人“应当真实、准确、完整、及时地披露信息”。以上市公司为例,信息披露能够使市场及时掌握公司的运营情况,评估未来盈利水平和风险情况,从而做出投资决策。

研究强度大,泛化能力差。一个研究要语言学家、语音学家和各种领域的专家配合,在当前大规模文本处理的时间、资源要求下太不划算。且机器学习的方法很难应用,难以普及;

上市公司的公告信息披露由各信息披露义务人在指定的信息披露网站发布,主要为PDF格式。以沪市上市公司为例,2016年全年披露了123732篇公告,2017年共158977篇,并且随着上市公司数量的增加这一数字将会逐年增加。每年3月底、4月底、8月底、10月底为定期报告披露高峰期,最多的一天(2017年4月28日)发布了3571篇公告。这不但为证券交易所的合规检查带来了压力,也给投资者带来了极大的信息负载,尤其是对中小投资者。

实践性差。基于统计的经验主义方法可以根据数据集不断对参数进行优化,而基于规则的方法就不可以,这在当前数据量巨大的情况下,影响是致命的,因为前者常常可以通过增大训练集来获得更好的效果,后者则死板许多,结果往往不尽人意。

随着上市公司数量日益增多,将公告以行之有效的方式让阅读者“读薄”的工作刻不容缓,其中通过自然语言处理、知识图谱、深度学习等技术将公告信息结构化提取或许是关键所在。

但理性主义还是有很多优点的,同样经验主义也有很多缺陷,算是各有所长、各有所短。不同学科有不同学科的研究角度,只能说某些角度在某个特定的历史时期对提高生产力“更有用”,所以重视的人更多。但“有用”不代表胜利,暂时的“无用”更不能说是科学层面上的“失败”。尤其是在当前中文自然语言处理发展还不甚成熟的时期,私以为基于统计的方法在很多方面并不完美,“理性主义”的作用空间还很大,需要更多的人去关注、助力。

目前,沪深两所上市公司的信息披露内容中,部分定期公告及临时公告已经利用XBRL技术将信息结构化,其中主要包括公司半年报与年报中的基本信息、股本结构、以及资产负债表、利润表、现金流量表财务报表及附注,这些信息在上市公司撰写公告时,便通过特殊工具进行了采集[1],之后便可以直接将这些信息结构化存储和利用。然而,已经格式化处理的公告仅占全部公告的一部分,加之信息披露的要求逐年变化,对公告信息的完整格式化仍然是个挑战。中小投资者通常使用市场信息供应商来获取信息,而这些信息供应商由于关注点的不同,所提供的数据在时效性、完整性、准确性上,也有很大的提升空间。

——《统计自然语言处理》宗成庆

上市公司信息披露的种类繁多,如上交所将上市公司公告分为35大类,376个小类(上海证券交易所,2013)。目前上海证券交易所制作并免费对市场发布部分公告的摘要信息,但由于制作维护成本较高,不易扩展,并难以应对公告数量的井喷。

自然语言处理涉及的范畴如下(维基百科):

本项工作的初始目的是为了上交所的公告制作小组提供合适的自动化处理工具,减轻公告高峰期的运行压力,降低人工采编风险,控制可能增加的成本;在此基础上,考虑为周边系统甚至公众提供通用的公告自动抽取服务。

中文自动分词(Chinese word segmentation)

本项工作通过LSTM深度学习网络,首先将不同类别公告的关键语句抽取出来,抽取过程仅需公告制作小组业务专家对少量公告进行标注,期间通过Dropout等方法提供模型泛化能力。关键语句抽取后,再通过规则方法进行细粒度提取,从而将公告结构化。结构化提取与摘要生成是知识提取的两种展示形式,本工作在9类高频公告中分别对两者进行了充分测试,均取得了较为理想的结果。

词性标注(Part-of-speech tagging)

研究重点和难点

句法分析(Parsing)

本项目的初始设计目的是为了公告制作小组提供高质量的自动化处理工具。面对公告摘要这特殊类型文本,公告制作小组制定了较高的准确性要求,以至于传统(新闻)文本摘要无法完全满足准确率需要。本课题需要探索深度学习与知识提取的结合,以平衡开发成本与准确率的矛盾。这项工作的探索不仅为扩展更多公告类型奠定基础,也为其他类型文本处理带来宝贵经验。

自然语言生成(Natural language generation)

对于不同格式的文档,文本的获取是第一步。PDF格式是目前信息披露的法定格式。PDF解析是解决公告分析的前提条件,而由于PDF转换过程中所带来的信息丢失,噪音干扰,段落结构破坏,表格结构破坏会严重影响后续分析,于是PDF解析是本课题第一个难点。对于可获取的其他格式文本,如Word或TXT,内容获取较易,没有加以特别对待;而对部分由图片转换的PDF,由于涉及到图像识别等其他专项技术,未在本项工作中加以覆盖。

文本分类(Text categorization)

深度学习模型需要平衡模型的准确率和泛化能力,同样不能采用过于复杂的模型降低运算速度,所以深度学习模型的合理搭建是第二个难点。

信息检索(Information retrieval)

事件提取是信息提取研究中最具有挑战性的任务之一,如何能够在保证泛化能力的情况下更准确的进行事件元素信息的提取是第三个难点。

信息抽取(Information extraction)

最后的难点是深度学习模型与知识提取的混合工程架构,要考虑如何能更快让开发人员扩展,非常考验工程设计者的架构能力。

文字校对(Text-proofing)

(二)预备知识 2.1 自动文本摘要任务

问答系统(Question answering)

文本摘要(Document/TextSummarization)是自然语言处理(NLP,NaturalLanguage
Processing)中的一个比较难的问题。

机器翻译(Machine translation)

按照不同的数据源,可以大致分为1)新闻摘要,2)一般论文摘要,3)综述论文摘要等几个类型。

自动摘要(Automatic summarization)

  • 新闻摘要要求编辑能够从新闻事件中提取出最关键的信息点,然后重新组织语言进行描述。
  • 一般论文的摘要要求作者先表述清楚问题,对前人工作中不完善的地方进行总结,然后用更凝练的语言描述自己的工作。
  • 综述性质的论文要求作者通读大量相关领域的工作,用最概括性的语言将每份工作的贡献、创新点写出来,并对每份工作的优缺点进行比较。

本文针对其中几个主要领域的研究现状和进展,通过论文、博客等资料,结合自身的学习和实践经历进行浅显地介绍。由于个人实践经验不足,除中文分词、自动文摘、文本分类、情感分析和话题模型方面进行过实际业务的实践,其他方面经验欠缺,若有不当之处,欢迎童鞋们批评指正!

自动文本摘要是指“一段从一份或多份文本中提取出来的文字,它包含了原文本中的重要信息,其长度不超过或远少于原文本的一半。自动文本摘要旨在通过机器自动输出简洁、流畅、保留关键信息的摘要”(Radev,Hovy,McKeown,2002)。

目录

本质上,文本摘要是一种信息过滤,输出的文本比输入的文本少很多,但却包含了主要的信息,有点类似主成分分析(PCA)。从某种意义上,文本摘要与推荐系统的功能类似,都是为了提取出用户感兴趣的内容,只是使用的方法有很大不同。

一. 中文分词

按照文档数量,文本摘要可以分为单文档摘要与多文档摘要,前者是后者的基础,但后者不只是前者结果的简单叠加。前者经常应用于新闻信息的过滤,而后者,在搜索引擎中有很大的潜力,难度也随之加大。在单文档摘要系统中,一般都采取基于抽取的方法。

中文分词主要包括词的歧义切分和未登录词识别,主要可以分为基于词典和基于统计的方法,最新的方法是多种方法的混合。从目前汉语分词研究的总体水平看,F1值已经达到95%左右,主要分词错误是由新词造成的,尤其对领域的适应性较差。下面主要介绍一下中文分词存在的主要问题和分词方法。

而对于多文档而言,由于在同一个主题中的不同文档中不可避免地存在信息交叠和信息差异,因此如何避免信息冗余,同时反映出来自不同文档的信息差异是多文档文摘中的首要目标,而要实现这个目标通常以为着要在句子层以下做工作,如对句子进行压缩,合并,切分等。另外,单文档的输出句子一般是按照句子在原文中出现的顺序排列,而在多文档摘要中,大多采用时间顺序排列句子,如何准确的得到每个句子的时间信息,也是多文档摘要需要解决的一个问题。

  1. 问题

本课题根据业务需要,主要聚焦在单文档摘要的处理上。针对单个文档,对其中的内容进行抽取,并针对用户或者应用需求,将文中最重要的内容以压缩的形式呈现给用户。常见的单文档摘要技术包括基于特征的方法(文档摘要中常用的文章特征包括词频、特定段落、段落的特定句子等)、基于词汇链的方法和基于图排序的方法。

1.1 歧义切分

自动文本摘要有非常多的应用场景,如自动报告生成、新闻标题生成、搜索结果预览等。此外,自动文本摘要也可以为下游任务提供支持。尽管对自动文本摘要有庞大的需求,这个领域的发展却比较缓慢。对计算机而言,生成摘要是一件很有挑战性的任务,要求计算机在阅读原文本后理解其内容,并根据轻重缓急对内容进行取舍,裁剪和拼接内容,最后生成流畅的短文本。因此,自动文本摘要需要依靠自然语言处理/理解的相关理论,是近几年来的重要研究方向之一。

切分歧义处理包括两部分内容:

自动文本摘要通常可分为两类,分别是抽取式(Extractive)和生成式(Abstractive)。抽取式摘要判断原文本中重要的句子,抽取这些句子成为一篇摘要。

切分歧义的检测;

而生成式方法则应用先进的自然语言处理的算法,通过转述、同义替换、句子缩写等技术,生成更凝练简洁的摘要。比起抽取式,生成式更接近人进行摘要的过程。历史上,抽取式的效果通常优于生成式。伴随深度神经网络的兴起和研究,基于神经网络的生成式文本摘要得到快速发展,并取得了不错的成绩。

切分歧义的消解。

一般来说,自动文摘过程包括三个基本步骤:

这两部分在逻辑关系上可分成两个相对独立的步骤。

  • 1.文本分析过程:对原文进行分析处理,识别出冗余信息;
  • 2.文本内容的选取和泛化过程:从文档中辨认重要信息,通过摘录或概括的方法压缩文本,或者通过计算分析的方法形成文摘表示;
  • 3.文摘的转换和生成过程:实现对原文内容的重组或者根据内部表示生成文摘,并确保文摘的连贯性

切分歧义的检测。“最大匹配法”(精确的说法应该叫“最长词优先匹配法”)
是最早出现、同时也是最基本的汉语自动分词方法。依扫描句子的方向,又分正向最大匹配
MM(从左向右)和逆向最大匹配
RMM(从右向左)两种。最大匹配法实际上将切分歧义检测与消解这两个过程合二为一,对输入句子给出唯一的切分可能性,并以之为解。从最大匹配法出发导出了“双向最大匹配法”,即MM+
RMM。双向最大匹配法存在着切分歧义检测盲区。

文摘的输出形式依据文摘的用途和用户需求确定。不同的系统所采用的具体实现方法不同,因此在不同的系统中,上述几个模块所处理的问题和采用的方法也有所差异。

针对切分歧义检测,另外两个有价值的工作是“最少分词法”,这种方法歧义检测能力较双向最大匹配法要强些,产生的可能切分个数仅略有增加;和“全切分法”,这种方法穷举所有可能的切分,实现了无盲区的切分歧义检测,但代价是导致大量的切分“垃圾”。

2.2 摘要评估

切分歧义的消解。典型的方法包括句法统计和基于记忆的模型。句法统计将自动分词和基于
Markov
链的词性自动标注技术结合起来,利用从人工标注语料库中提取出的词性二元统计规律来消解切分歧义,基于记忆的模型对伪歧义型高频交集型歧义切分,可以把它们的正确(唯一)切分形式预先记录在一张表中,其歧义消解通过直接查表即可实现。

评估一篇摘要的质量是一件比较困难的任务,“一千个读者,有一千个哈姆雷特”,对于一篇摘要而言,很难说有标准答案。不同的人理解一篇文档会有很大的不同,基于人工评价的方法有类似于评价开放的文科辨析题目答案一样,需要从答案中寻找一些所谓的要点,计算要点的覆盖率,打分。

1.2 未登录词识别

人工评价结果在很大程度上都是可信的,因为人可以推理、复述并使用世界知识将具有类似意思但形式不同的文本单元关联起来,更加灵活,但是时间成本高,效率低。

未登录词大致包含两大类:

不同于很多拥有客观评判标准的任务,摘要的评判一定程度上依赖主观判断。即使在摘要任务中,有关于语法正确性、语言流畅性、关键信息完整度等标准,每个人对摘要的优劣都有自己的准绳。

新涌现的通用词或专业术语等;

自上世纪九十年代末开始,一些会议或组织开始致力于制定摘要评价的标准,他们也会参与评价一些自动文本摘要。比较著名的会议或组织包括SUMMAC,DUC(DocumentUnderstanding
Conference),TAC(TextAnalysis Conference)等。

专有名词。如中国人
名、外国译名、地名、机构名(泛指机关、团体和其它企事业单位)等。

目前,评估自动文本摘要质量主要有两种分类方法。

前一种未登录词理
论上是可预期的,能够人工预先添加到词表中(但这也只是理想状态,在真实环境下并不易
做到);后一种未登录词则完全不可预期,无论词表多么庞大,也无法囊括。真实文本中(即便是大众通用领域),未登录词对分词精度的影响超过了歧义切分。未登录词处理在实用型分词系统中占的份量举足轻重。

第一种分类:人工评价方法和自动评价方法。这两类评价方法都需要完成以下三点:

新涌现的通用词或专业术语。对这类未登录词的处理,一般是在大规模语料库的支持下,先由机器根据某种算法自动生成一张候选词表(无监督的机器学习策略),再人工筛选出其中的新词并补充到词表中。鉴于经过精加工的千万字、甚至亿字级的汉语分词语料库目前还是水月镜花,所以这个方向上现有的研究无一不以从极大规模生语料库中提炼出的
n
元汉字串之分布(n≥2)为基础。其中汉字之间的结合力通过全局统计量包括互信息、t-
测试差、卡方统计量、字串频等来表示。

  • 决定原始文本最重要的、需要保留的部分;
  • 在自动文本摘要中识别出1中的部分;
  • 基于语法和连贯性(Coherence)评价摘要的可读性(Readability)。

专有名词。对专有名词的未登录词的处理,首先依据从各类专有名词库中总结出的统计知识
(如姓氏用字及其频度)和人工归纳出的专有名词的某些结构规则,在输入句子中猜测可能成为专有名词的汉字串并给出其置信度,之后利用对该类专有名词有标识意义的紧邻上下文信息(如称谓),以及全局统计量和局部统计量(局部统计量是相对全局统计量而言的,是指从当前文章得到且其有效范围一般仅限于该文章的统计量,通常为字串频),进行进一步的鉴定。已有的工作涉及了四种常见的专有名词:中国人名的识别、外国译名的识别、中国地名的识别及机构名的识别。从各家报告的实验结果来看,外国译名的识别效果最好,中国人名次之,中国地名再次之,机构名最差。而任务本身的难度实质上也是遵循这个顺序由小增大。
沈达阳、孙茂松等(1997b )特别强调了局部统计量在未登录词处理中的价值。

评估一篇摘要的好坏,最简单的方法就是邀请若干专家根据标准进行人工评定。这种方法比较接近人的阅读感受,但是耗时耗力,无法用于对大规模自动文本摘要数据的评价,和自动文本摘要的应用场景并不符合。因此,文本摘要研究团队积极地研究自动评价方法。为了更高效地评估自动文本摘要,可以选定一个或若干指标(Metrics),基于这些指标比较生成的摘要和参考摘要(人工撰写,被认为是正确的摘要)进行自动评价。

  1. 方法

第二种分类文摘自动评估方法大致分为两类:内部评价方法和外部评价方法。

2.1 基于词典的方法

一类称作内部评价方法,与文摘系统的目的相关,它通过直接分析摘要的质量来评价文摘系统;第二类称作外部评价方法,它是一种间接的评价方法,与系统的功能相对应,将文摘应用于某一个特定的任务中,根据摘要功能对特定任务的效果来评价自动文摘系统的性能,如对于信息检索任务而言,可以对比采用摘要进行检索与采用原文进行检索的准确率差异,通过文摘对检索系统的效果来评价文摘系统的性能。

在基于词典的方法中,对于给定的词,只有词典中存在的词语能够被识别,其中最受欢迎的方法是最大匹配法(MM),这种方法的效果取决于词典的覆盖度,因此随着新词不断出现,这种方法存在明显的缺点。

内部评价方法按信息的覆盖面和正确率来评价文摘的质量,一般采用将系统结果与“理想摘要”相比较的方法。这种评价方法来源于信息抽取技术。在信息抽取评测中,将原文的关键要点抽取出来,然后与人工抽取的内容相比较,计算其召回率,准确率,冗余率和偏差率等几个指标。这种内部评价方法存在的主要困难是“理想摘要”的获得问题。

2.2 基于统计的方法

本课题研究中,公告信息披露这一问题场景对摘要信息的准确性有严格要求,生成式摘要技术不适用于本场景,本文主要介绍基于关键句选取、信息抽取和摘要模板生成式自动文本摘要。

基于统计的方法由于使用了概率或评分机制而非词典对文本进行分词而被广泛应用。这种方法主要有三个缺点:一是这种方法只能识别OOV(out-of-vocabulary)词而不能识别词的类型,比如只能识别为一串字符串而不能识别出是人名;二是统计方法很难将语言知识融入分词系统,因此对于不符合语言规范的结果需要额外的人工解析;三是在许多现在分词系统中,OOV词识别通常独立于分词过程。

2.3 LSTM序列标注模型

二. 词性标注

在自然语言理解中,一句话的前后顺序有着极其重要的语义信息,所以研究者在处理文本应用中大多采用
LSTM 模型。LSTM 模型是一种特殊的循环神经网络(Recurrent Neural
Network,RNN)
。RNN(Graves,2012)适合解决时间序列的输入输出问题,而自然语言恰好是一个序列标注问题,在传统神经网络模型中,是从输入层到隐含层再到输出层,层与层之间是全连接的,每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。例如,在之前的语言模型的例子中,要预测句子的下一个单词是什么,一般需要用到前面的单词,而一个句子中前后单词并不是独立的。RNN已经被在实践中证明对NLP是非常成功的。如词向量表达、语句合法性检查、词性标注等。

词性标注是指为给定句子中的每个词赋予正确的词法标记,给定一个切好词的句子,词性标注的目的是为每一个词赋予一个类别,这个类别称为词性标记(part-of-speech
tag),比如,名词(noun)、动词(verb)、形容词(adjective)
等。它是自然语言处理中重要的和基础的研究课题之一,也是其他许多智能信息处理技术的基础,已被广泛的应用于机器翻译、文字识别、语音识别和信息检索等领域。

下图便可以直观的理解RNN网络结构:

词性标注对于后续的自然语言处理工作是一个非常有用的预处理过程,它的准确程度将直接影响到后续的一系列分析处理任务的效果。
长期以来,兼类词的词性歧义消解和未知词的词性识别一直是词性标注领域需要解决的热点问题。当兼类词的词性歧义消解变得困难时,词性的标注就出现了不确定性的问题。而对那些超出了词典收录范围的词语或者新涌现的词语的词性推测,也是一个完整的标注系统所应具备的能力。

永利网站网址 1

  1. 词性标注方法

可以把x理解为自然语言句子中逐个单词的词向量,其中隐藏层St=f(Uxt+Wst−1),Wst-1便是前一个单词所携带的语义信息。由于每一层的St都会向后一直传递,所以理论上St能够捕获到前面每一层发生的事情。然而随着层数加深,RNN最终会计算成W的连乘积形式,如果初始梯度过大或过小,便会导致连乘积很大或趋近于0,进而无法有效学习,也就是梯度爆炸和梯度消失。

词性标注是一个非常典型的序列标注问题。最初采用的方法是隐马尔科夫生成式模型,
然后是判别式的最大熵模型、支持向量机模型,目前学术界通常采用结构感知器模型和条件随机场模型。近年来,随着深度学习技术的发展,研究者们也提出了很多有效的基于深层神经网络的词性标注方法。

长短期记忆网络(Long Short-Term Memory,LSTM)是一种 RNN
特殊的类型,通过学习长期依赖信来避梯度爆炸和梯度消失问题。所有RNN
都具有一种循环神经网络模块的链式的形式。在标准的 RNN
中,这个循环模块只有一个非常简单的结构,例如一个 tanh
层。LSTM同样具有这样的循环模块,但更复杂,其核心是记忆单元(memory
cell)。记忆单元在每一步里记住相关信息并忘掉无关信息。这样,重要的相关信息可以一直留存,从而其梯度不会变的太小。形式上来看,记忆单元可以用以下两个公式来定义:

迄今为止,词性标注主要分为基于规则的和基于统计的方法。

ct = ft ⊙ ct−1

规则方法能准确地描述词性搭配之间的确定现象,但是规则的语言覆盖面有限,庞大的规则库的编写和维护工作则显得过于繁重,并且规则之间的优先级和冲突问题也不容易得到满意的解决。

  • it ⊙ gt (1)

统计方法从宏观上考虑了词性之间的依存关系,可以覆盖大部分的语言现象,整体上具有较高的正确率和稳定性,不过其对词性搭配确定现象的描述精度却不如规则方法。针对这样的情况,如何更好地结合利用统计方法和规则处理手段,使词性标注任务既能够有效地利用语言学家总结的语言规则,又可以充分地发挥统计处理的优势成为了词性标注研究的焦点。

ht = ot ⊙ tanh(ct ) (2)

  1. 词性标注研究进展

其中⊙
是Hadamard乘积,在上面公式里表示对两个向量里相同维度分别相乘的到一个新向量。

词性标注和句法分析联合建模:研究者们发现,由于词性标注和句法分析紧密相关,词性标注和句法分析联合建模可以同时显著提高两个任务准确率。

公式(1)是说,当前的记忆单元 ct
的状态是以下两个因素之和:

异构数据融合:汉语数据目前存在多个人工标注数据,然而不同数据遵守不同的标注规范,因此称为多源异构数据。近年来,学者们就如何利用多源异构数据提高模型准确率,提出了很多有效的方法,如基于指导特征的方法、基于双序列标注的方法、以及基于神经网络共享表示的方法。

  • 上一步的记忆单元 ct −1 ,其权重为 ft (遗忘门forget gate的当前状态)
  • 新信息 gt ,其权重为 it (输入门,input gate的当前状态)

基于深度学习的方法:传统词性标注方法的特征抽取过程主要是将固定上下文窗口的词进行人工组合,而深度学习方法能够自动利用非线性激活函数完成这一目标。进一步,如果结合循环神经网络如双向
LSTM,则抽取到的信息不再受到固定窗口的约束,而是考虑整个句子。除此之外,深度学习的另一个优势是初始词向量输入本身已经刻画了词语之间的相似度信息,这对词性标注非常重要。

遗忘门控制有多少上一步的记忆单元信息流入当前记忆单元,而输入门控制有多少新信息流入当前的记忆单元。

三. 句法分析

公式(2)是说当前的隐层状态 ht
是从当前记忆单元得到的,其又由输出门(output gate)ot
来控制。LSTM的循环模块里的输入门 it
、遗忘门 ft
、输出门 ot ,以及需要新输入的信息 gt
可以用以下公式简洁地表示:

语言语法的研究有非常悠久的历史,可以追溯到公元前语言学家的研究。不同类型的句
法分析体现在句法结构的表示形式不同,实现过程的复杂程度也有所不同。因此,科研人员
采用不同的方法构建符合各个语法特点的句法分析系统。其主要分类如下图所示:

永利网站网址 2

下文主要对句法分析技术方法和研究现状进行总结分析:

在序列问题中,不仅仅是上文对当前词有影响,下文也是,也就发展出了双向LSTM(Bidirectional
Long Short-Term
Memory),即正向LSTM捕获了上文的特征信息,而反向LSTM捕获了下文的特征信息,通常情况下双向LSTM的表现都会比单向LSTM要好。

  1. 依存句法分析

2.4 命名实体识别

依存语法存在一个共同的基本假设:句法结构本质上包含词和词之间的依存(修饰)关系。一个依存关系连接两个词,分别是核心词(
head)和依存词(
dependent)。依存关系可以细分为不同的类型,表示两个词之间的具体句法关系。目前研究主要集中在数据驱动的依存句法分析方法,即在训练实例集合上学习得到依存句法分析器,而不涉及依存语法理论的研究。数据驱动的方法的主要优势在于给定较大规模的训练数据,不需要过多的人工干预,就可以得到比较好的模型。因此,这类方法很容易应用到新领域和新语言环境。数据驱动的依存句法分析方法主要有两种主流方法:基于图(
graph-based)的分析方法和基于转移( transition-based)的分析方法。

命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic
Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。
一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。

2.1 基于图的依存句法分析方法

命名实体大多数具有以下的特点:

基于图的方法将依存句法分析问题看成从完全有向图中寻找最大生成树的问题。一棵依存树的分值由构成依存树的几种子树的分值累加得到。根据依存树分值中包含的子树的复杂度,基于图的依存分析模型可以简单区分为一阶和高阶模型。高阶模型可以使用更加复杂的子树特征,因此分析准确率更高,但是解码算法的效率也会下降。基于图的方法通常采用基于动态规划的解码算法,也有一些学者采用柱搜索(beam
search)来提高效率。学习特征权重时,通常采用在线训练算法,如平均感知器(
averaged perceptron)。

  • 各类命名实体的数量众多:根据对人民日报1998年1月的语料库(共计2,305,896字)进行的统计,共有人名19,965个,而这些人名大多属于未登录词。
  • 命名实体的构成规律复杂:例如由于人名的构成规则各异,中文人名识别又可以细分为中国人名识别、日本人名识别和音译人名识别等;此外机构名的组成方式也最为复杂,机构名的种类繁多,各有独特的命名方式,用词也相当广泛,只有结尾用词相对集中。
  • 嵌套情况复杂:一个命名实体经常和一些词组合成一个嵌套的命名实体,人名中嵌套着地名,地名中也经常嵌套着人名。嵌套的现象在机构名中最为明显,机构名不仅嵌套了大量的地名,而且还嵌套了相当数量的机构名。互相嵌套的现象大大制约了复杂命名实体的识别,也注定了各类命名实体的识别并不是孤立的,而是互相交织在一起的。
  • 长度不确定:与其他类型的命名实体相比,长度和边界难以确定使得机构名更难识别。中国人名一般二至三字,最多不过四字,常用地名也多为二至四字。但是机构名长度变化范围极大,少到只有两个字的简称,多达几十字的全称。在实际语料中,由十个以上词构成的机构名占了相当一部分比例。

2.2 基于转移的依存句法分析方法

英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。

基于转移的方法将依存树的构成过程建模为一个动作序列,将依存分析问题转化为寻找最优动作序列的问题。早期,研究者们使用局部分类器(如支持向量机等)决定下一个动作。近年来,研究者们采用全局线性模型来决定下一个动作,一个依存树的分值由其对应的动作序列中每一个动作的分值累加得到。特征表示方面,基于转移的方法可以充分利用已形成的子树信息,从而形成丰富的特征,以指导模型决策下一个动作。模型通过贪心搜索或者柱搜索等解码算法找到近似最优的依存树。和基于图的方法类似,基于转移的方法通常也采用在线训练算法学习特征权重。

命名实体识别由3个问题组成:1.识别出文本中的命名实体;2.确定该实体的类型;3.对于多个实体表示同一事物时,选择其中的一个实体作为该组实体的代表。主要有如下的几种方法进行处理。

2.3 多模型融合的依存句法分析方法

2.5 基于规则和词典的方法

基于图和基于转移的方法从不同的角度解决问题,各有优势。基于图的模型进行全局搜索但只能利用有限的子树特征,而基于转移的模型搜索空间有限但可以充分利用已构成的子树信息构成丰富的特征。详细比较发现,这两种方法存在不同的错误分布。因此,研究者们使用不同的方法融合两种模型的优势,常见的方法有:stacked
learning;对多个模型的结果加权后重新解码(re-parsing);从训练语料中多次抽样训练多个模型(bagging)。 

基于规则的方法,多采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段,这类系统大多依赖于知识库和词典的建立。

  1. 短语结构句法分析

基于规则和词典的方法是命名实体识别中最早使用的方法,一般而言,当提取的规则能比较精确地反映语言现象时,基于规则的方法性能要优于基于统计的方法。但是这些规则往往依赖于具体语言、领域和文本风格,编制过程耗时且难以涵盖所有的语言现象,容易产生错误,系统可移植性不好,对于不同的系统需要语言学专家重新书写规则。基于规则的方法的另外一个缺点是代价大,存在系统建设周期长、移植性差而且需要建立不同领域知识库作为辅助以提高系统识别能力等问题。

分词,词性标注技术一般只需对句子的局部范围进行分析处理,目前已经基本成熟,其标志就是它们已经被成功地用于文本检索、文本分类、信息抽取等应用之中,而句法分析、语义分析技术需要对句子进行全局分析,目前,深层的语言分析技术还没有达到完全实用的程度。

2.6 基于统计的方法

短语结构句法分析的研究基于上下文无关文法(Context Free
Grammar,CFG)。上下文无关文法可以定义为四元组,其中 T
表示终结符的集合(即词的集合),N
表示非终结符的集合(即文法标注和词性标记的集合),S
表示充当句法树根节点的特殊非终结符,而 R
表示文法规则的集合,其中每条文法规则可以表示为 Ni®g ,这里的 g
表示由非终结符与终结符组成的一个序列(允许为空)。

基于统计机器学习的方法主要包括:隐马尔可夫模型(HiddenMarkovMode,HMM)、最大熵(MaxmiumEntropy,ME)、支持向量机(Support
VectorMachine,SVM)、条件随机场(ConditionalRandom Fields,CRF)
等。

根据文法规则的来源不同,句法分析器的构建方法总体来说可以分为两大类:

在这4种学习方法中,最大熵模型结构紧凑,具有较好的通用性,主要缺点是训练时间复杂性非常高,有时甚至导致训练代价难以承受,另外由于需要明确的归一化计算,导致开销比较大。而条件随机场为命名实体识别提供了一个特征灵活、

人工书写规则

全局最优的标注框架,但同时存在收敛速度慢、训练时间长的问题。一般说来,最大熵和支持向量机在正确率上要比隐马尔可夫模型高一些,但是隐马尔可夫模型在训练和识别时的速度要快一些,主要是由于在利用Viterbi算法求解命名实体类别序列的效率较高。隐马尔可夫模型更适用于一些对实时性有要求以及像信息检索这样需要处理大量文本的应用,如短文本命名实体识别。

从数据中自动学习规则

基于统计的方法对特征选取要求较高,需要从文本中选择对该项任务有影响的各种特征,并将这些特征加入到特征向量中。依据特定命名实体识别所面临的主要困难和所表现出的特性,考虑选择能有效反映该类实体特性的特征集合。主要做法是通过对训练语料所包含的语言信息进行统计和分析,从训练语料中挖掘出特征。有关特征可以分为具体的单词特征、上下文特征、词典及词性特征、停用词特征、核心词特征以及语义特征等。

人工书写规则受限于规则集合的规模:随着书写的规则数量的增多,规则与规则之间的冲突加剧,从而导致继续添加规则变得困难。

基于统计的方法对语料库的依赖也比较大,而可以用来建设和评估命名实体识别系统的大规模通用语料库又比较少。

与人工书写规模相比,自动学习规则的方法由于开发周期短和系统健壮性强等特点,加上大规模人工标注数据,比如宾州大学的多语种树库的推动作用,已经成为句法分析中的主流方法。而数据驱动的方法又推动了统计方法在句法分析领域中的大量应用。为了在句法分析中引入统计信息,需要将上下文无关文法扩展成为概率上下文无关文法(Probabilistic
Context Free Grammar,PCFG),即为每条文法规则指定概率值。

2.7 混合方法

概率上下文无关文法与非概率化的上下文无关文法相同,仍然表示为四元组,区别在于概率上下文无关文法中的文法规则必须带有概率值。获得概率上下文无关文法的最简单的方法是直接从树库中读取规则,利用最大似然估计(Maximum
Likelihood
Estimation,MLE)计算得到每条规则的概率值。使用该方法得到的文法可以称为简单概率上下文无关文法。在解码阶段,CKY
10等解码算法就可以利用学习得到的概率上下文无关文法搜索最优句法树。

自然语言处理并不完全是一个随机过程,单独使用基于统计的方法使状态搜索空间非常庞大,必须借助规则知识提前进行过滤修剪处理。目前几乎没有单纯使用统计模型而不使用规则知识的命名实体识别系统,在很多情况下是使用混合方法:

虽然基于简单概率上下文无关文法的句法分析器的实现比较简单,但是这类分析器的性能并不能让人满意。性能不佳的主要原因在于上下文无关文法采取的独立性假设过强:一条文法规则的选择只与该规则左侧的非终结符有关,而与任何其它上下文信息无关。文法中缺乏其它信息用于规则选择的消歧。因此后继研究工作的出发点大都基于如何弱化上下文无关文法中的隐含独立性假设。

  • 统计学习方法之间或内部层叠融合。
  • 规则、词典和机器学习方法之间的融合,其核心是融合方法技术。
  • 在基于统计的学习方法中引入部分规则,将机器学习和人工知识结合起来。
  • 将各类模型、算法结合起来,将前一级模型的结果作为下一级的训练数据,并用这些训练数据对模型进行训练,得到下一级模型。
  1. 总结

这种方法在具体实现过程中需要考虑怎样高效地将两种方法结合起来,采用什么样的融合技术。由于命名实体识别在很大程度上依赖于分类技术。

分词,词性标注技术一般只需对句子的局部范围进行分析处理,目前已经基本成熟,其标志就是它们已经被成功地用于文本检索、文本分类、信息抽取等应用之中,而句法分析、语义分析技术需要对句子进行全局分析,目前,深层的语言分析技术还没有达到完全实用的程度。

2.8 知识提取

四. 文本分类

知识提取(KnowledgeExtraction)研究如何根据给定本体从无语义标注的信息中识别并抽取与本体匹配的事实知识。该技术既可以抽取出事实知识用于构建基于知识的服务,也能够为语义
Web
的实现提供必要的语义内容。因此知识抽取技术对于充分利用现有数据是非常必要的。

文本分类是文本挖掘的核心任务,一直以来倍受学术界和工业界的关注。文本分类(Text
Classification)的任务是根据给定文档的内容或主题,自动分配预先定义的类别标签。

知识提取按照数据源类型可分类两类。

对文档进行分类,一般需要经过两个步骤:

  • 结构化提取:在已经结构化的数据集中,如在Freebase、Wikidata等知识库中进行近一步的实体分类或关联挖掘,通常采用本体推理的方法实现。
  • 非结构化(半结构化)提取:数据以纯文本或者少量结构信息(如表格)的形式展现,需要提取关键实体(如人名,公司名),以及实体间关系(如张三-就职-A公司)。由于公告信息均是PDF文本信息,部分附带表格,故属于第二类。此类工作,一般通过NLP的句法分析,专家领域词表,正则系统,以及前沿的深度学习网络混合构建实现。
  • 对非结构化文档的知识抽取:由于非结构化文档数据丰富,对该类文档的知识抽取一直是知识抽取领域的研究重点。这类文档具有一定的模式,因此可以利用信息抽取(Information
    Extraction, IE)技术抽取其中的知识(或信息)。

文本表示

按照应用领域又可划分为通用领域知识提取与专业领域知识提取。前者通常在海量文本中进行自动挖掘,实体识别被抽象为序列标注问题(Sequence
Labelling),其中CRF算法(条件随机场)被证明比较稳定有效。它结合了最大熵与隐马尔科夫模型的特点,是一种无向图模型,它将句子(也就是词序列)的每个词打上一个标记,一般在词的左右开一个小窗口,根据窗口里面的词和待标注词语来实现实体提取,最后通过特征组合决定归为哪类实体。

学习分类

在最近的研究中(Huang,Xu,Yu,2015),又探索出通过DNN(深度神经网络)的方法,以及将CRF与LSTM结合的BILSTM-CRF算法,准确率与召回率会有小许提高。实体关系的抽取传统采用依存关系分析的方法(Dependency
Parsing),也就是句子的语法树分析,它将句子进行词性标注(POSTagging),实体识别,构建语法树,便自然构成了SPO(Subject-Predicate-Object)的三元组关系。有最新研究将关系提取抽象为知识表示学习,将句子映射到实数向量空间表示,如TransE算法(Bordes,Usunier,Garcia-Duran,Weston,Yakhnenko,2013),把实体向量化到空间,问题便表达为三元组距离的损失函数,在向量空间中优化S+P=O,即最小化S+P=O。专业领域的知识提取通常由于语料不充足或表达特殊,一般的通用算法难以直接有效应用,这是由于一般分词算法的基础词库都采用通用词库,经常把专业词错分,所以通常需要先维护一个领域词典。领域词典的构建有很多方式,一般采用先通过词性标注,TF-IDF等传统方法首先进行标注,在结合领域知识对词表进行调整。在构建好领域词典后,实体识别中可以优先采用专业词典,学习过程也可以赋予更高权重。

文本表示是指将无结构化的文本内容转化成结构化的特征向量形式,作为分类模型的输入。在得到文本对应的特征向量后,就可以采用各种分类或聚类模型,根据特征向量训练分类器或进行聚类。因此,文本分类或聚类的主要研究任务和相应关键科学问题如下:

目前在具体工业应用中,知识提取算法主要受限于语料,所以在有丰富语料的场景中会有显著效果,如文本搜索,机器翻译,机器人问答等。在专业领域中,还不存在“一本万利”的方法,算法效果需要长时间的语料标注积累。

  1. 任务

(三)摘要系统设计

1.1    构建文本特征向量

本节首先分析公告的数据特征,进而给出算法框架与具体算法说明。

构建文本特征向量的目的是将计算机无法处理的无结构文本内容转换为计算机能够处
理的特征向量形式。文本内容特征向量构建是决定文本分类和聚类性能的重要环节。为了根据文本内容生成特征向量,需要首先建立特征空间。其中典型代表是文本词袋(Bag
of
Words)模型,每个文档被表示为一个特征向量,其特征向量每一维代表一个词项。所有词项构成的向量长度一般可以达到几万甚至几百万的量级。

3.1 问题分析

这样高维的特征向量表示如果包含大量冗余噪音,会影响后续分类聚类模型的计算效率和效果。因此,我们往往需要进行特征选择(Feature
Selection)与特征提取(Feature
Extraction),选取最具有区分性和表达能力的特征建立特征空间,实现特征空间降维;或者,进行特征转换(Feature
Transformation),将高维特征向量映射到低维向量空间。特征选择、提取或转换是构建有效文本特征向量的关键问题。

算法按顺序可分为如下几个关键步骤。1、公告分类;2、公告PDF解析;3、基于LSTM的关键语句提取;4、基于规则的结构化提取。

1.2 建立分类或聚类模型

由于上市公司公告类别必须按照官方要求发布,所以公告分类可以仅通过标题划分,仅需维护一些简单的特征组合即可,在此不做赘述。

在得到文本特征向量后,我们需要构建分类或聚类模型,根据文本特征向量进行分类或聚类。

通过对A股各类型公告的分析,按照知识提取的难度可分为三类,难度逐步增大。

其中,分类模型旨在学习特征向量与分类标签之间的关联关系,获得最佳的分类效果;
而聚类模型旨在根据特征向量计算文本之间语义相似度,将文本集合划分为若干子集。
分类和聚类是机器学习领域的经典研究问题。

3.1.1 基于语句的基本摘要

我们一般可以直接使用经典的模型或算法解决文本分类或聚类问题。例如,对于文本分类,我们可以选用朴素贝叶斯、决策树、k-NN、
逻辑回归(Logistic Regression)、支持向量机(Support Vector Machine,
SVM)等分类模型。 对于文本聚类,我们可以选用
k-means、层次聚类或谱聚类(spectral clustering)等聚类算法。
这些模型算法适用于不同类型的数据而不仅限于文本数据。

某一句话即包含全部关键信息。例如:业绩预告公告。“预计2016年实现归属于上市公司股东的净利润600万元—800万元,且2016年末归属于母公司的净资产为正数。”此类摘要,可以直接通过深度学习模型提取,便有较高准确率,结构化提取可以进一步规则解析。

但是,文本分类或聚类会面临许多独特的问题,例如,如何充分利用大量无标注的文本数据,如何实现面向文本的在线分类或聚类模型,如何应对短文本带来的表示稀疏问题,如何实现大规模带层次分类体系的分类功能,如何充分利用文本的序列信息和句法语义信息,如何充分利用外部语言知识库信息,等等。这些问题都是构建文本分类和聚类模型所面临的关键问题。

下面是董事辞职公告的例子:

  1. 模型

永利网站网址 3

2.1 文本分类模型

摘要为:“因个人原因,郑敏先生辞去公司第八届董事会董事及董事会专门委员会委员职务,辞职后不再担任公司任何职务。”

近年来,文本分类模型研究层出不穷,特别是随着深度学习的发展,深度神经网络模型
也在文本分类任务上取得了巨大进展。我们将文本分类模型划分为以下三类:

3.1.2 基于关键信息的简单摘要

基于规则的分类模型

关键信息在文本多个位置,但结构雷同。例如:董事会决议公告。“武汉祥龙电业股份有限公司第九届董事会第二次会议于2017年2月21日召开,会议审议通过《关于公司控股子公司签署工程合同暨关联交易的议案》、《关于公司控股子公司开展委托理财业务暨关联交易的议案》。”议案名在文章多个位置,但均在某段最左或单独作为一行,特征周围有书名号,数字序号,或通过、否决等标志。这类公告,同样可以采用深度学习,但准确率会有一定损失。

基于规则的分类模型旨在建立一个规则集合来对数据类别进行判断。这些规则可以从训
练样本里自动产生,也可以人工定义。给定一个测试样例,我们可以通过判断它是否满足某
些规则的条件,来决定其是否属于该条规则对应的类别。

下面是董事会决议的例子:

典型的基于规则的分类模型包括决策树(Decision Tree)、随机森林(Random
Forest)、 RIPPER 算法等。

永利网站网址 4

基于机器学习的分类模型

摘要为:“金正大生态工程集团股份有限公司第四届董事会第一次会议于近日召开,会议审议通过《关于选举公司董事长的议案》、《关于选举公司副董事长的议案》、《关于选举公司董事会各专门委员
会委员的议案》、《关于参与认购集合资金信托
计划并对控股子公司进行增资的议案》等事项。”

典型的机器学习分类模型包括贝叶斯分类器(Naïve
Bayes)、线性分类器(逻辑回归)、 支持向量机(Support Vector Machine,
SVM)、最大熵分类器等。

3.1.3 基于关键信息的复杂摘要

SVM
是这些分类模型中比较有效、使用较为广泛的分类模型。它能够有效克服样本分布不均匀、特征冗余以及过拟合等问题,被广泛应用于不同的分类任务与场景。通过引入核函数,SVM
还能够解决原始特征空间线性不可分的问题。

信息在多个位置,并且表述复杂,较为随意。例如:对外担保公告。“为满足项目建设资金需求,公司全资子公司XXX有限公司拟向XXX信托有限责任公司申请14亿元信托贷款,期限2年,公司为其提供全额全程连带责任担保。”其中担保原因表述不统一,担保对象有子公司、分公司,其他公司等多种方式,担保金额与期限有时会附带累计担保信息。对此类公告,目前认为只能采用严格的规则系统开发。

除了上述单分类模型,以 Boosting
为代表的分类模型组合方法能够有效地综合多个弱分类模型的分类能力。在给定训练数据集合上同时训练这些弱分类模型,然后通过投票等机制综合多个分类器的预测结果,能够为测试样例预测更准确的类别标签。

下面是权益分派公告的例子:

基于神经网络的方法

永利网站网址 5

以人工神经网络为代表的深度学习技术已经在计算机视觉、语音识别等领域取得了巨大
成功,在自然语言处理领域,利用神经网络对自然语言文本信息进行特征学习和文本分类,
也成为文本分类的前沿技术。

摘要为:“浙江三维橡胶制品股份有限公司实施2016年年度权益分派方案为:A股每股派发现金红利0.3元(含税),以资本公积金向全体股东每股转增0.4股。股权登记日:2017/6/22。除权(息)日:2017/6/23。新增无限售条件流通股份上市日:2017/6/26。现金红利发放日:2017/6/23。”

前向神经网络:多层感知机(Multilayer Perceptron,
MLP)是一种典型的前向神经网
络。它能够自动学习多层神经网络,将输入特征向量映射到对应的类别标签上。通过引入非线性激活层,该模型能够实现非线性的分类判别式。包括多层感知机在内的文本分类模型均使用了词袋模型假设,忽略了文本中词序和结构化信息。对于多层感知机模型来说,高质量的初始特征表示是实现有效分类模型的必要条件。

3.2 PDF语法解析

为了更加充分地考虑文本词序信息,利用神经网络自动特征学习的特点,研究者后续提出了卷积神经网络(Convolutional
Neural Network, CNN)和循环神经网络(Recurrent Neural Network,
RNN)进行文本分类。基于 CNN 和 RNN
的文本分类模型输入均为原始的词序列,输出为该文本在所有类别上的概率分布。这里,词序列中的每个词项均以词向量的形式作为输入。

目前较为成熟的PDF转换TXT工具有基于Python的Pdfminer与基于Java的Pdfbox,两者解析效果类似,在此本工作选用Apache旗下的Pdfbox,因为其源码维护更加活跃,并且提供了下面的功能:文本的提取,即在PDF文件里面把文本内容提取出来;合并和拆分PDF文档,可以把几个PDF合并成一个PDF文件,也可以把一个PDF文件拆分成多个PDF文件;PDF的校验,根据PDF/AISO
标准校验PDF文档;打印PDF,通过Java的API去打印PDF文件;把PDF转换成图片,把PDF文件转换成图片;创建PDF文件;PDF签名。PDF表格提取目前并没有非常有效的处理工具,对此本工作进行了自主开发。

卷积神经网络(CNN):卷积神经网络文本分类模型的主要思想是,对词向量形式的文本输入进行卷积操作。CNN
最初被用于处理图像数据。与图像处理中选取二维域进行卷积操作不同,面向文本的卷积操作是针对固定滑动窗口内的词项进行的。经过卷积层、
池化层和非线性转换层后,CNN 可以得到文本特征向量用于分类学习。CNN
的优势在于在计算文本特征向量过程中有效保留有用的词序信息。针对 CNN
文本分类模型还有许多改进工作, 如基于字符级 CNN
的文本分类模型、将词位置信息加入到词向量。

目前开源的PDF解析工具主要存在如下几个方面问题。

循环神经网络(RNN):循环神经网络将文本作为字符或词语序列{𝑥0 , … ,
𝑥𝑁},对于第𝑡时刻输入的字符或词语𝑥𝑡,都会对应产生新的低维特征向量s𝑡。如图
3 所示,s𝑡的取值会受到
𝑥𝑡和上个时刻特征向量s𝑡−1的共同影响,s𝑡包含了文本序列从𝑥0到𝑥𝑡的语义信息。因此,我们可以利用s𝑁作为该文本序列的特征向量,进行文本分类学习。与
CNN 相比,RNN
能够更自然地考虑文本的词序信息,是近年来进行文本表示最流行的方案之一。

  • 1、没有明确的段落信息,小标题与段落可能会连在一起转换成TXT文本,这样会导致后续的断句出现错误。
  • 2、没有篇章结构解析,无法按照树状结构表示文本,而篇章标题可成为LSTM训练的一个有效特征。
  • 3、处理表格时无法识别合并单元格的情况,直接转换出的表格是一个单元一个词,遇到空格等标志时导致程序无法对应行列信息。

为了提升 RNN
对文本序列的语义表示能力,研究者提出很多扩展模型。例如,长短时记忆网络(LSTM)提出记忆单元结构,能够更好地处理文本序列中的长程依赖,克服循环神经网络梯度消失问题。如图
4 是 LSTM 单元示意图,其中引入了三个门(input gate, output gate, forget
gate)来控制是否输入输出以及记忆单元更新。

对此本工作在Pdfbox解析后进行了修正:

提升 RNN 对文本序列的语义表示能力的另外一种重要方案是引入选择注意力机制
(Selective
Attention),可以让模型根据具体任务需求对文本序列中的词语给予不同的关
注度。

  • 1、通过标注<PAT>,<UAD>
    序号等PDF携带的特征将文本放进神经网络中训练,可以得到大于99%的分段准确率。
  • 2、篇章结构主要通过规则系统,识别PDF的章节特征,通常PDF篇章标题采用不同的序号与加大加粗字体表示。
  • 3、Pdfbox可以将表格还原为带有坐标位置信息的XML文件,这样可以判断横竖线链接,用于锁定表格。在表格处理中还要注意一些特殊情况,如有些表格会跨页,并且在PDF中页眉页脚带有横线;又或者有些表格的分割线为双横线;这些情况都需要做进一步特殊处理。表格识别本质是一个连通图问题,将表格每一个单元抽象成一个图结点,向四个方向游走,如果不遇到横竖线拦截则扩展单元,反之建立新节点。
  1. 应用

表格提取在公告处理中主要作用于特定信息提取,如财务报表,供应商与客户表,业务构成表等等。如财务报表信息,表格提取仅仅作用于还原表格结构,但具体结构化还需要两项工作。

文本分类技术在智能信息处理服务中有着广泛的应用。例如,大部分在线新闻门户网站(如新浪、搜狐、腾讯等)每天都会产生大量新闻文章,如果对这些新闻进行人工整理非常耗时耗力,而自动对这些新闻进行分类,将为新闻归类以及后续的个性化推荐等都提供巨大帮助。互联网还有大量网页、论文、专利和电子图书等文本数据,对其中文本内容进行分类,是实现对这些内容快速浏览与检索的重要基础。此外,许多自然语言分析任务如观点挖掘、垃圾邮件检测等,也都可以看作文本分类或聚类技术的具体应用。

一是实体对齐,如财务报表中的指标对齐,比如“资产总计=总资产”。

对文档进行分类,一般需要经过两个步骤:(1)文本表示,以及(2)学习。文本表示是指将无结构化的文本内容转化成结构化的特征向量形式,作为分类模型的输入。在得到文本对应的特征向量后,就可以采用各种分类或聚类模型,根据特征向量训练分类器

二是表格定位,即如何判定某一张表是五大供应商表还是五大客户表,这些需要通过表格的上下文判断,其中篇章结构的解析会对此有辅助定位功能。

五. 信息检索

利用PDF转换工具可以从绝大部分上市公司公告中提取到有效文本。对于可获取的其他格式文本,如Word或TXT,文本内容获取较易,本课题没有加以特别对待;而对部分由图片转换的PDF,由于涉及到图像识别等其他专项技术,未在本课题中加以覆盖。

信息检索(Information Retrieval,
IR)是指将信息按一定的方式加以组织,并通过信息查找满足用户的信息需求的过程和技术。1951
年,Calvin Mooers
首次提出了“信息检索”的概念,并给出了信息检索的主要任务:协助信息的潜在用户将信息需求转换为一张文献来源列表,而这些文献包含有对其有用的信息。信息检索学科真正取得长足发展是在计算机诞生并得到广泛应用之后,文献数字化使得信息的大规模共享及保存成为现实,而检索就成为了信息管理与应用中必不可少的环节。

整个PDFBox的处理流程如下图所示:

互联网的出现和计算机硬件水平的提高使得人们存储和处理信息的能力得到巨大的提高,从而加速了信息检索研究的进步,并使其研究对象从图书资料和商用数据扩展到人们生活的方方面面。伴随着互联网及网络信息环境的迅速发展,以网络信息资源为主要组织对象的信息检索系统:搜索引擎应运而生,成为了信息化社会重要的基础设施。

永利网站网址 6

2016 年初,中文搜索引擎用户数达到 5.66
亿人,这充分说明搜索引擎在应用层次取得的巨大成功,也使得信息检索,尤其是网络搜索技术的研究具有了重要的政治、经济和社会价值。

  1. PDF进过PDFBox处理生成想要的中间xml格式表示文件
  2. 分页模块对PDF进行逐页处理,将页眉页脚分别进行标注。
  3. 图片提取模块对PDF中的图片文件进行必要处理,保存到相应的媒体库中。
  4. 表格处理模块对PDF中存在的表格信息进行提取,一方面要对存在合并单元格的表格进行处理,另外一方面还要对跨页的表格进行处理。还原表格的语法结构,为后期对表格的语义处理提供必要支持。
  1. 内容结构

3.3 基于LSTM的关键句抽取

检索用户、信息资源和检索系统三个主要环节组成了信息检索应用环境下知识获取与信息传递的完整结构,而当前影响信息获取效率的因素也主要体现在这几个环节,即:

本项工作采用的是双向LSTM,其网络结构如下图所示:双向卷积神经网络的隐藏层要保存两个值,
A 参与正向计算, A’ 参与反向计算。最终的输出值 y 取决于 A 和 A’:

检索用户的意图表达

永利网站网址 7

信息资源(尤其是网络信息资源)的质量度量

即正向计算时,隐藏层的 st 与
st-1
有关;反向计算时,隐藏层的 st
与 st+1
有关:

需求与资源的合理匹配

永利网站网址 8

具体而言,用户有限的认知能力导致其知识结构相对大数据时代的信息环境而言往往存在缺陷,
进而影响信息需求的合理组织和清晰表述;数据资源的规模繁杂而缺乏管理,在互联网“注意力经济”盛行的环境下,不可避免地存在欺诈作弊行为,导致检索系统难以准确感知其质量;用户与资源提供者的知识结构与背景不同,对于相同或者相似事物的描述往往存在较大差异,使得检索系统传统的内容匹配技术难以很好应对,无法准确度量资源与需求的匹配程度。上述技术挑战互相交织,本质上反映了用户个体有限的认知能力与包含近乎无限信息的数据资源空间之间的不匹配问题。

因为首要目的是识别关键语句,然而很多语句经常会以被动形式表述,为了能同样捕捉到这些信息,需要将句子倒序化,简单来讲仅需分词后将序列倒排即可,不必通过依存句法分析器(Dependency
Parser)解析。

概括地讲,当前信息检索的研究包括如下四个方面的研究内容及相应的关键科学问题:

此外为了加强模型的泛化能力,可以将部分结点进行熔断(Dropout)处理。

1.1 信息需求理解

举例来讲,“公司ABC拟向XYZ公司申请1亿元贷款”,通过熔断到序列中的一些结点后,可以泛化为“公司ABC__XYZ公司申请1亿元贷款”,随机的熔断部分数据会加强模型泛化性。

面对复杂的泛在网络空间,用户有可能无法准确表达搜索意图;即使能够准确表达,搜
索引擎也可能难以正确理解;即使能够正确理解,也难以与恰当的网络资源进行匹配。这使
得信息需求理解成为了影响检索性能提高的制约因素,也构成了检索技术发展面临的第一个关键问题。

卷积(Convolution)和最大池化(Maxpooling)则是CNN的卷积网络结构,这里只用CNN对原文的词向量以某一长度的过滤卷积抽象,最后对原句子的表示还是使用LSTM,由于使用了抽象的含义向量,在实际效果优于仅仅LSTM的结构。

1.2 资源质量度量

本工作经过实践,总结出下图所示的模型。每类公告在训练前需要先进行标注,标注过程即在句子上进行分类。实践中可以先通过正则表达式进行粗筛,再进一步人工过滤。这部分工作使用了Tensorflow与Keras框架,在PDF转化为TXT之后,拆分成句子并进行向量化,如下图搭建模型并调节参数后,便训练出关键语句提取模型。

资源质量管理与度量在传统信息检索研究中并非处于首要的位置,但随着互联网信息资
源逐渐成为检索系统的主要查找对象,网络资源特有的缺乏编审过程、内容重复度高、质量
参差不齐等问题成为了影响检索质量的重要因素。目前,搜索引擎仍旧面临着如何进行有效
的资源质量度量的挑战,这构成了当前信息检索技术发展面临的第二个关键问题。

永利网站网址 9

1.3 结果匹配排序

3.4 基于知识的摘要信息抽取 3.4.1 实体提取

近年来,随着网络技术的进步,信息检索系统(尤其是搜索引擎)涉及的数据对象相应
的变得多样化、异质化,这也造成了传统的以文本内容匹配为主要手段的结果排序方法面临着巨大的挑战。高度动态繁杂的泛在网络内容使得文本相似度计算方法无法适用;整合复杂
异构网络资源作为结果使得基于同质性假设构建的用户行为模型难以应对;多模态的交互方
式则使得传统的基于单一维度的结果分布规律的用户行为假设大量失效。因此,在大数据时
代信息进一步多样化、异质化的背景下,迫切需要构建适应现代信息资源环境的检索结果匹
配排序方法,这是当前信息检索技术发展面临的第三个关键问题。

由于前两步流程仅仅获得了包含关键信息的句子,深度学习也难以高准确率的识别结构化信息,所以需要通过自然语言处理与规则系统来进一步提取。本文主要关注的信息抽取点有:公告标题、公司全称、公司简称、日期时间、会议名称、决议事项、业绩预测事件等,大体可分为实体和事件类两种信息抽取任务。

1.4 信息检索评价

命名实体识别(Named Entity
Recognition)
,简称“实体识别”,是自然语言处理的核心工作之一(Nadeau,Sekine,2007)。实体识别的主要任务是识别文本中具有特定意义的实体,包括人名、地名、机构名、时间信息和专有名词等。主要工作包括两部分:1.实体边界识别;2.确定实体类别。

信息检索评价是信息检索和信息获取领域研究的核心问题之一。信息检索和信息获取系
统核心的目标是帮助用户获取到满足他们需求的信息,而评价系统的作用是帮助和监督研究
开发人员向这一核心目标前进,以逐步开发出更好的系统,进而缩小系统反馈和用户需求之
间的差距,提高用户满意度。因此,如何设计合理的评价框架、评价手段、评价指标,是当
前信息检索技术发展面临的第四个关键问题。

为在一份“特别处理”公告上运行实体识别模块的处理后的可视化结果。

  1. 个性化搜索

这里的公司简称,公司名称,公司代码,日期时间,标题,段落标题,地址,人物,电话,电子邮件,时间区段,限制条件,指代,专有名词的识别是基于如下的处理实现的:

现有的主要个性化搜索算法可分为基于内容分析的算法、基于链接分析的方法和基于协作过滤的算法。

  1. 基于字典匹配的实体识别。
  2. 基于公告页眉内容的时候识别:从“证券代码:600877 证券简称:中国嘉陵
    编号:临
    20170015”的页眉结构中,我们可以提取到公司代码和公司简称实体。
  3. 基于表格内容的实体识别:

基于内容的个性化搜索算法通过比较用户兴趣爱好和结果文档的内容相似性来对文档的用户相关性进行判断进而对搜索结果进行重排。用户模型一般表述为关键词或主题向量或
层次的形式。个性化算法通过比较用户模型和文档的相似性,判断真实的搜索意图,并估计
文档对用户需求的匹配程度。

永利网站网址 10

基于链接分析的方法主要是利用互联网上网页之间的链接关系,并假设用户点击和访问
过的网页为用户感兴趣的网页,通过链接分析算法进行迭代最终计算出用户对每个网页的喜好度。

永利网站网址 11

基于协作过滤的个性化搜索算法主要借鉴了基于协作过滤的推荐系统的思想,这种方法
考虑到能够收集到的用户的个人信息有限,因此它不仅仅利用用户个人的信息,还利用与用户相似的其它用户或群组的信息,并基于用户群组和相似用户的兴趣偏好来个性化当前用户
的搜索结果。用户之间的相似性可以通过用户的兴趣爱好、历史查询、点击过的网页等内容计算得出。

3.4.2 事件提取

  1. 语义搜索技术

事件提取(Event Extraction)的研究(Hogenboom,Frasincar, Kaymak et al
2011)是多学科发展和应用的需要,具有深远的理论意义和广泛的应用价值。它涉及到自然语言处理、数据挖掘、机器学习、数据库等多个学科的技术和方法,在自动文摘,信息检索等领域均有着广泛的应用。因此,事件抽取技术的研究具有重要的现实意义。

随着互联网信息的爆炸式增长,传统的以关键字匹配为基础的搜索引擎,已越来越难以满足用户快速查找信息的需求。同时由于没有知识引导及对网页内容的深入整理,传统网页
搜索返回的网页结果也不能精准给出所需信息。针对这些问题,以知识图谱为代表的语义搜索(Semantic
Search)将语义 Web 技术和传统的搜索引擎技术结合,是一个很有研究价值
但还处于初期阶段的课题。

事件提取的主要工作分为事件类型识别以及事件元素与语义角色识别。

在未来的一段时间,结合互联网应用需求的实际和技术、产品运营能力的实际发展水平,语义搜索技术的发展重点将有可能集中在以各种情境的垂直搜索资源为基础,知识化推理为检索运行方式,自然语言多媒体交互为手段的智能化搜索与推荐技术。首先将包括各类垂直搜索资源在内的深度万维网数据源整合成为提供搜索服务的资源池;随后利用广泛分布在公众终端计算设备上的浏览器作为客户端载体,通过构建的复杂情境知识库来开发多层次查询技术,并以此管理、调度、整合搜索云端的搜索服务资源,满足用户的多样化、多模态查询需求;最后基于面向情境体验的用户行为模型构建,以多模态信息推荐的形式实现对用户信息需求的主动满足。

  1. 事件类型识别:事件类别识别是指从文本中检测出事件句,并依据一定的特征判断其所归属的类别。不难看出,事件类别识别是典型的分类问题,其重点在于事件句的检测和事件句的分类。现有的检测事件句的方法主要是基于触发词的方法。在这类方法中,将每个词作为一个实例来训练并判断是否为触发词的机器学习模型,但引入了大量的反例,导致正反例严重不平衡。为了解决了上述问题,一种基于局部特征选择和正负特征相结合的事件检测与分类方法,取得了不错的识别效果(谭红叶,2008)。
  2. 事件元素识别与语义角色标注(Semantic Role Labeling,
    SRL)任务有一定的相似性。所谓语义角色标注,是根据一个句中的动词(谓词)与相关各类短语等句子成分之间的语义关系,而赋予这些句子成分的语义角色信息,如施事、受事、工具或附加语等。事件元素识别是事件抽取中又一核心任务。该任务主要从众多命名实体(Entity)、时间表达式(Time
    Expression)和属性值(Value)中识别出真正的事件元素,并给予其准确的角色标注。

六. 信息抽取

国外学者对事件抽取技术的研究开展的较早,理论研究比较成熟,且有一些事件抽取的原型系统出现。国内对事件抽取技术的研究相对贫乏,仍处于起步阶段,但也取得了一定的成果。综合来看,事件抽取的方法大体上分为两大类:模式匹配方法和机器学习方法。下面就两种方法分别详细介绍。

信息抽取(Information
Extraction)是指从非结构化/半结构化文本(如网页、新闻、
论文文献、微博等)中提取指定类型的信息(如实体、属性、关系、事件、商品记录等),
并通过信息归并、冗余消除和冲突消解等手段将非结构化文本转换为结构化信息的一项综合技术。例如:

一、模式匹配法

从相关新闻报道中抽取出恐怖事件信息:时间、地点、袭击者、受害人、袭击
目标、后果等;

模式匹配法是指对于某种类型事件的识别和抽取是在一些模式的指导下进行的,采用各种模式匹配算法将待抽取的事件和已知的模式进行匹配。

从体育新闻中抽取体育赛事信息:主队、客队、赛场、比分等;

可见,模式匹配方法由两个基本步骤组成:模式选取和事件抽取。尽管不同的基于模式匹配的事件抽取系统有这样或那样的差异,但总的来讲,基于模式匹配的事件抽取方法准确率较高,且接近人的思维方式,知识表示直观、自然,便于推理。然而,这种方法往往依赖于具体语言,具体领域及文本格式,可移植性差,编制过程费时费力且容易产生错误,需要富有经验的语言学家才能完成;并且抽取的模式不可能涵盖所有的事件类型,当从一种语料转移到另一种语料时,为保证不损失性能,往往还需要花费很多工作在模式的重新获取上,因此性价比不高。

从论文和医疗文献中抽取疾病信息:病因、病原、症状、药物等

二、机器学习法

被抽取出来的信息通常以结构化的形式描述,可以为计算机直接处理,从而实现对海量非结构化数据的分析、组织、管理、计算、
查询和推理,并进一步为更高层面的应用和任务(如自然语言理解、知识库构建、智能问答
系统、舆情分析系统)提供支撑。

机器学习方法建立在统计模型基础之上,它是将事件抽取看作分类问题,主要是选择合适的特征并使用合适的分类器来完成。根据抽取模型中所采用的不同激励源,现有的方法主要可分为3大类:

目前信息抽取已被广泛应用于舆情监控、网络搜索、智能问答等多个重要领域。与此同时,信息抽取技术是中文信息处理和人工智能的核心技术,具有重要的科学意义。

  1. 事件元素激励:最大熵分类器,用于事件元素的识别。该方法实现了2个领域中的抽取任务,分别是半结构化的讲座通告(Seminar
    Announcement)和自由文本的人事管理(Management
    Succession)。该方法存在着一定的局限性,因为文本中存在着很多非事件元素的词,所以构建分类器时将引人太多的反例,导致正反例严重不平衡,影响抽取的效果。
  2. 触发词激励:2006 David Ahn结合MegaMTimbl
    两种方法分别实现了事件抽取中事件类和元素的识别。在 Ahn
    的方法中,最重要的一个步骤就是判断句子中的每个词是否是最能描述某个事件发生的触发词,如果是,则将其归为正例,并用一个多类分类器对其进行分类,获得其所属的事件类别,从而得出其所含的事件元素类型,用于构建识别每一类事件元素的分类器。此类方法是目前比较主流的事件抽取方法,将每个词作为一个实例进行训练,然后判断是否为触发词,但同样引入了大量的反例,导致正反例严重不平衡;并且,事件类别的多元分类以及为每类事件元素单独构造多元分类器时在语料规模较小的时候存在着一定的数据稀疏问题。
  3. 事件实例激励:是一种基于事件实例激励的抽取模型,充分利用事件和非事件实例的有代表性的特征,构造二元分类器过滤掉非事件的句子,然后来用多知识融合的方法表示候选的事件实例,利用支持向量机采用多元分类的方法自动识别候选事件实例所属的事件类别,实现事件提取任务。

一直以来,人工智能的关键核心部件之一是构建可支撑类人推理和自然语言理解的大规模常识知识库。然而,由于人类知识的复杂性、开放性、多样性和巨大的规模,目前仍然无法构建满足上述需求的大规模知识库。信息抽取技术通过结构化自然语言表述的语义知识,并整合来自海量文本中的不同语义知识,是构建大规模知识库最有效的技术之一。每一段文本内所包含的寓意可以描述为其中的一组实体以及这些实体相互之间的关联和交互,因此抽取文本中的实体和它们之间的语义关系也就成为了理解文本意义的基础。

综上所述,从国内外研究现状来看,比较流行的事件抽取方法是基于触发词激励的研究。但这类方法所面临的最大问题是必须先对文本中的所有词进行判断以确定其是否是事件触发词,然后再根据相关的信息判断事件的类型。但实际上文本中非触发词的那些词所占的比例很大,如果对所有词进行分类判断不仅增加计算的负担,更重要的是引入太多的反例,造成正反例的严重不平衡。遗憾的是,目前还没有高效的算法对非触发词能够进行有效的过滤,因此,基于触发词激励的事件抽取技术的研究巳陷入了瓶颈。

信息抽取可以通过抽取实体和实体之间的语义关系,表示这些语义关系承载的信息,并基于这些信息进行计算和推理来有效的理解一段文本所承载的语义。

在本课题实现中,事件由事件触发词(Trigger)和描述事件结构的元素(Argument)构成。描述事件的结构包括事件发生的主体、施体、时间、地点等一系列元素。下图为一份“特别处理”公告上运行事件提取模块的处理结果。

  1. 命名实体识别

永利网站网址 12

命名实体识别的目的是识别文本中指定类别的实体,主要包括人名、地名、机构名、专有名词等的任务。

根据以上任务分类,需要针对性的进行领域词典扩充,对此本工作将各公告首页中的全称-简称对应表、各财务报表的财务制表字段,高管人名等都加入领域词典。对于各个句子,通过词性标注(POS
Tagging)与依存关系分析(Dependency
Parsing)后便可提取出简单的实体与关系,比如对外担保公告中的“担保对象”、“担保金额”等。然而如“担保原因”这类语句并没有明确统一的表述方式,对此采用规则方法尽量穷尽可能性。这部分工作与传统方法并无明显差异,故不做赘述。

命名实体识别系统通常包含两个部分:实体边界识别和实体分类。

根据应用需求不同,知识提取的结果可以是结构化实体,也可以是摘要。摘要一方面可以通过结构化数据配合模板组合而成,也可以通过深度学习算法直接训练。本工作对两种方式都进行了尝试,模板组合方式可以高准确率的保证信息准确,但难以保持原文的行文方式;而深度学习方法直接捕捉原文进行组合,准确率有所不足,两者孰优孰劣需要考虑具体应用场景而定。

其中实体边界识别判断一个字符串是否是一个实体,而实体分类将识别出的实体划分到预先给定的不同类别中去。命名实体识别是一项极具实用价值的技术,目前中英文上通用命名实
体识别(人名、地名、机构名)的F1值都能达到
90%以上。命名实体识别的主要难点在于
表达不规律、且缺乏训练语料的开放域命名实体类别(如电影、歌曲名)等。

3.5 算法流程

  1. 关系抽取

上市公司信息披露自动摘要系统的算法流程如下:

关系抽取指的是检测和识别文本中实体之间的语义关系,并将表示同一语义关系的提及(mention)链接起来的任务。关系抽取的输出通常是一个三元组(实体
1,关系类别,实体 2),表示实体 1 和实体 2 之间存在特定类别的语义关系。

  1. PDF解析
  2. 系统自动识别PDF内标题,并根据标题进行分类
  3. 按段落和句子进行切分
  4. 关键句提取
  5. 实体或事件提取
  6. 摘要模板的生成

例如,句子“北京是中国的首都、政治中心和文化中心”中表述的关系可以表示为(中国,首都,北京),(中国,政治中心,北京)和(中国,文化中心,北京)。语义关系类别可以预先给定(如
ACE 评测中的七大类关系),也可以按需自动发现(开放域信息抽取)。

每类摘要标注50-100份即可,如果效果不足,可以通过模型测试界面进行观测与改进。

关系抽取通常包含两个核心模块:关系检测和关系分类。

永利网站网址 13

其中关系检测判断两个实体之间是否存在语义关系,而关系分类将存在语义关系的实体对划分到预先指定的类别中。在某些场景和任务下,关系抽取系统也可能包含关系发现模块,其主要目的是发现实体和实体之间存在的语义关系类别。例如,发现人物和公司之间存在雇员、CEO、CTO、创始人、董事长等关系类别。

(四)公告摘要制作流程及改进

  1. 事件抽取

本项工作的初始目的是为了公告制作小组提供合适的自动化处理工具,改进流程,降低风险,提高效率。公告制作小组的摘要内容制作流程是整个生产流程中的微小一环,包含三个步骤:

事件抽取指的是从非结构化文本中抽取事件信息,并将其以结构化形式呈现出来的任务。

  • 1.摘要采编;
  • 2.摘要一审;
  • 3.摘要二审及发布。

例如,从“毛泽东 1893 年出生于湖南湘潭”这句话中抽取事件{类型:出生,
人物:毛泽东,时间:1893 年,出生地:湖南湘潭}。

本工作在生产环境搭建了自动摘要微服务,为公告采编系统提供服务。在新的流程下,自动摘要服务取代了原有的摘要采编工作,自动生成的摘要仍通过人工审核后发布。

事件抽取任务通常包含事件类型识别和事件元素填充两个子任务。

根据统计,按照原有流程,摘要采编这道工序的时间从20秒至184秒不等,平均约为54秒;按照改进后的流程,自动摘要服务可在数秒之内完成摘要采编(含数据请求及返回的时间),单一工序效率提升了十倍有余。

事件类型识别判断一句话是否表达了特定类型的事件。事件类型决定了事件表示的模板,不同类型的事件具有不同的模板。例如出生事件的模板是{人物,
时间,出生地},而恐怖袭击事件的模板是{地点,时间,袭击者,受害者,受伤人数,…}。
事件元素指组成事件的关键元素,事件元素识别指的是根据所属的事件模板,抽取相应的元素,并为其标上正确元素标签的任务。

这在公告发布高峰期带来的工作量节约是相当可观的。根据实际使用情况来看,自动摘要服务给出的摘要正确率在可接受范围内,并有继续优化完善的空间。这也给我们对其他手工工作密集的工作程序改进带来了新思路。

  1. 信息集成

4.2 基于知识的信息抽取

实体、关系和事件分别表示了单篇文本中不同粒度的信息。在很多应用中,需要将来自不同数据源、不同文本的信息综合起来进行决策,这就需要研究信息集成技术。

本课题共针对9类高频公告的开展了实验,分别对结构化提取与摘要生成进行了测试。9类公告的选取主要考虑几个方面:

目前,信息抽取研究中的信息集成技术主要包括共指消解技术和实体链接技术。

  • 1、临时公告,保证数据量大,并且是高频、重要公告;
  • 2、公告关键信息明确,可以被结构化(反例:澄清公告等便没有结构化的必要);
  • 3、公告类别覆盖能“某一句话包含全部关键信息的”与“关键信息出现在多处需要聚合的”。

共指消解指的是检测同一实体/关系/事件的不同提及,并将其链接在一起的任务,例如,识别“乔布斯是苹果的创始人之一,他经历了苹果公司几十年的起落与兴衰”这句话中的“乔布斯”和“他”指的是同一实体。实体链接的目的是确定实体名所指向的真实世界实体。例如识别上一句话中的“苹果”和“乔布斯”分别指向真实世界中的苹果公司和其
CEO 史蒂夫·乔布斯。

9类公告的摘要示例及所需要抽取的信息点的分析如下:

七. 问答系统

4.2.1 股东大会/董事会决议公告

自动问答(Question Answering,
QA)是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。不同于现有搜索引擎,问答系统是信息服务的一种高级形式,系统返回用户的不再是基于关键词匹配排序的文档列表,而是精准的自然语言答案。

公告摘要示例:

近年来,随着人工智能的飞速发展,自动问答已经成为倍受关注且发展前景广泛的研究方向。自动问答的研究历史可以溯源到人工智能的原点。1950
年,人工智能之父阿兰图灵(Alan M.
Turing)在《Mind》上发表文章《Computing Machinery and Intelligence》,
文章开篇提出通过让机器参与一个模仿游戏(Imitation
Game)来验证“机器”能否“思考”,进而提出了经典的图灵测试(Turing
Test),用以检验机器是否具备智能。

(600390)“*ST 金瑞”公布第六届董事会第二十六次会议决议公告

金瑞新材料科技股份有限公司第六届董事会第二十六次会议于 2016 年 6 月 18
日召开,会议审议通过《关于公司发行股份购买资产暨关联交易方案的
议案》、《关于公司本次重组配套融资方案的议案》、《<金瑞新材料科技股份有
限公司发行股份购买资产并募集配套资金暨关联交易报告书(草案)>及其摘要的议案》等事项。

仅供参考,请查阅当日公告全文。

(600289)“亿阳信通”公布 2015 年年度股东大会决议公告

亿阳信通股份有限公司 2015 年年度股东大会于 2016 年 6 月 20 日召开,
会议审议通过公司 2015 年年度报告及摘要、公司 2015 年度利润分配预案、
公司续聘 2016 年度财务审计机构和内控审计机构的议案等事项。

仅供参考,请查阅当日公告全文。

同样,在自然语言处理研究领域,问答系统被认为是验证机器是否具备自然语言理解能力的四个任务之一(其它三个是机器翻译、复述和文本摘要)。自动问答研究既有利于推动人工智能相关学科的发展,也具有非常重要的学术意义。从应用上讲,现有基于关键词匹配和浅层语义分析的信息服务技术已经难以满足用户日益增长的精准化和智能化信息需求,已有的信息服务范式急需一场变革。

对应信息点:

2011年,华盛顿大学图灵中心主任 Etzioni 在 Nature 上发表的《Search Needs
a Shake-Up》中明确指出: 在万维网诞生 20
周年之际,互联网搜索正处于从简单关键词搜索走向深度问答的深刻变革的风口浪尖上。以直接而准确的方式回答用户自然语言提问的自动问答系统将构成下一代搜索引擎的基本形态。同一年,以深度问答技术为核心的
IBM Watson 自动问答机器人在美国智力竞赛节目 Jeopardy
中战胜人类选手,引起了业内的巨大轰动。Watson
自动问答系统让人们看到已有信息服务模式被颠覆的可能性,成为了问答系统发展的一个里程碑。

  1. 公司全称(实体)
  2. 公司简称(实体)
  3. 公司代码(实体)
  4. 股东大会名称(实体)
  5. 股东大会召开时间(实体)
  6. 通过的审议项(实体)

此外,随着移动互联网崛起与发展,以苹果公司 Siri、Google Now、微软
Cortana
等为代表的移动生活助手爆发式涌现,上述系统都把以自然语言为基本输入方式的问答系统看作是下一代信息服务的新形态和突破口,并均加大人员、资金的投入,试图在这一次人工智能浪潮中取得领先。

4.2.2 召开股东大会通知公告

  1. 关键问题

公告摘要示例:

自动问答系统在回答用户问题时,需要正确理解用户所提的自然语言问题,抽取其中的
关键语义信息,然后在已有语料库、知识库或问答库中通过检索、匹配、推理的手段获取答
案并返回给用户。上述过程涉及词法分析、句法分析、语义分析、信息检索、逻辑推理、知识工程、语言生成等多项关键技术。传统自动问答多集中在限定领域,针对限定类型的问题
进行回答。伴随着互联网和大数据的飞速发展,现有研究趋向于开放域、面向开放类型问题
的自动问答。概括地讲,自动问答的主要研究任务和相应关键科学问题如下。

(600707)“彩虹股份”公布关于召开 2017 年第三次临时股东大会的通知

彩虹显示器件股份有限公司董事会决定于 2017 年 10 月 25 日 14 点 00 分召
开 2017 年第三次临时股东大会,审议关于对外投资的议案。

网络投票系统:上海证券交易所网络投票系统;

交易系统投票时间:2017 年 10 月 25 日 9:15-9:25,9:30-11:30,
13:00-15:00;

互联网投票平台投票时间:2017 年 10 月 25 日 9:15-15:00。

仅供参考,请查阅当日公告全文。

(603027)“千禾味业”公布关于召开 2017 年第二次临时股东大会的通知

千禾味业食品股份有限公司董事会决定于 2017 年 10 月 25 日 10 点 00 分召
开 2017 年第二次临时股东大会,审议《关于公司<2017
年限制性股票激励计划
(草案修订稿)>及其摘要的议案》、《关于公司<2017
年限制性股票激励计划实
施考核管理办法(草案修订稿)>的议案》、《关于修订<公司章程>的议案》等事
项。

表决方式:现场投票和网络投票相结合;
网络投票系统:上海证券交易所网络投票系统; 交易系统投票时间:2017 年 10
月 25 日 9:15-9:25,9:30-11:30,13:00-15:00;

互联网投票平台投票时间:2017 年 10 月 25 日 9:15-15:00。

仅供参考,请查阅当日公告全文。

1.1 问句理解

对应信息点:

给定用户问题,自动问答首先需要理解用户所提问题。用户问句的语义理解包含词法分析、句法分析、语义分析等多项关键技术,需要从文本的多个维度理解其中包含的语义内容。

  1. 公司全称(实体)
  2. 公司简称(实体)
  3. 公司代码(实体)
  4. 股东大会名称(实体)
  5. 股东大会召开时间(日期)
  6. 待审议项(实体)
  7. 表决方式(实体)
  8. 网络投票系统类型(实体)
  9. 交易系统投票时间(日期)
  10. 互联网投票平台投票时间(日期) 4.2.3 利润分配实施公告

在词语层面,需要在开放域环境下,研究命名实体识别(Named Entity
Recognition)、术语识别(Term
Extraction)、词汇化答案类型词识别(Lexical Answer Type Recognition)、
实体消歧(Entity Disambiguation)、关键词权重计算(Keyword Weight
Estimation)、答案集中词识别(Focused Word Detection)等关键问题。

公告摘要示例:

在句法层面,需要解析句子中词与词之间、短语与短语之间的句法关系,分析句子句法结构。在语义层面,需要根据词语层面、句法层面的分析结果,将自然语言问句解析成可计算、结构化的逻辑表达形式(如一阶谓词逻辑表达式)。

(600072)“钢构工程”公布关于 2015 年度利润分配的实施公告

中船钢构工程股份有限公司实施 2015 年度利润分配方案为:每 10 股派发 现金
0.15 元(含税)。

股权登记日:2016 年 6 月 24 日 除息日:2016年6月27日 现金红利发放日:2016
年 6 月 27 日

仅供参考,请查阅当日公告全文。

(600323)“瀚蓝环境”公布关于 2011 年公司债券 2016 年本息兑付和摘牌公告

南海发展股份有限公司 2011 年公司债券(简称“PR 发展债”)将于 2016 年 7 月
7 日开始支付:5 年期债券“PR 发展债”之本金的 70%;5 年期债券“PR 发
展债”自2015年7月7日至2016年7月6日的利息。

兑付债权登记日:2016 年 7 月 4 日 债券停牌起始日:2016 年 7 月 5 日
兑付资金发放日:2016 年 7 月 7 日 债券摘牌日:2016年7月7日

仅供参考,请查阅当日公告全文。

1.2 文本信息抽取

对应信息点:

给定问句语义分析结果,自动问答系统需要在已有语料库、知识库或问答库中匹配相关的信息,并抽取出相应的答案。传统答案抽取构建在浅层语义分析基础之上,采用关键词匹配策略,往往只能处理限定类型的答案,系统的准确率和效率都难以满足实际应用需求。为保证信息匹配以及答案抽取的准确度,需要分析语义单元之间的语义关系,抽取文本中的结构化知识。早期基于规则模板的知识抽取方法难以突破领域和问题类型的限制,远远不能满足开放领域自动问答的知识需求。为了适应互联网实际应用的需求,越来越多的研究者和开发者开始关注开放域知识抽取技术,其特点在于:

  1. 公司全称(实体)
  2. 公司简称(实体)
  3. 公司代码(实体)
  4. 利润分配方案名称(实体)
  5. A股每股现金红利(数字)
  6. 股权登记日每股转增股份(数字)
  7. 除权(息)日(日期)
  8. 新增无限售条件流通股份上市日(日期)
  9. 现金红利发放日(日期)
  10. 公司债券简称(实体)
  11. 兑付债权登记日(日期)
  12. 兑付资金发放日(日期)
  13. 债券摘牌日(日期)

文本领域开放:处理的文本是不限定领域的网络文本

4.2.4 业绩预测公告

内容单元类型开放:不限定所抽取的内容单元类型,而是自动地从网络中挖掘内容单元的类型,例如实体类型、事件类型和关系类型等。

公告摘要示例:

1.3 知识推理

(600602)“云赛智联”公布 2016 年半年度业绩预增公告

经云赛智联股份有限公司财务部门初步测算,预计 2016 年半年度实现
归属于上市公司股东的净利润与上年同期(法定披露数据)相比,将增加 95%
以上。

仅供参考,请查阅当日公告全文。

自动问答中,由于语料库、知识库和问答库本身的覆盖度有限,并不是所有问题都能直
接找到答案。这就需要在已有的知识体系中,通过知识推理的手段获取这些隐含的答案。

对应信息点:

例如,知识库中可能包括了一个人的“出生地”信息,但是没包括这个人的“国籍”信息,因此无法直接回答诸如“某某人是哪国人?”这样的问题。但是一般情况下,一个人的“出生地”所属的国家就是他(她)的“国籍”。在自动问答中,就需要通过推理的方式学习到这样的模式。传统推理方法采用基于符号的知识表示形式,通过人工构建的推理规则得到答案。

  1. 公司全称(实体)
  2. 公司简称(实体)
  3. 公司代码(实体)
  4. 业绩预测描述(句子)

但是面对大规模、开放域的问答场景,如何自动进行规则学习,如何解决规则冲突仍然是亟待解决的难点问题。目前,基于分布式表示的知识表示学习方法能够将实体、概念以及它们之间的语义关系表示为低维空间中的对象(向量、矩阵等),并通过低维空间中的数值计算完成知识推理任务。

4.2.5 停、复牌公告

虽然这类推理的效果离实用还有距离,但是我们认为这是值得探寻的方法,特别是如何将已有的基于符号表示的逻辑推理与基于分布式表示的数值推理相结合,研究融合符号逻辑和表示学习的知识推理技术,是知识推理任务中的关键科学问题。

公告摘要示例:

  1. 技术方法

(600767)“运盛医疗”公布重大事项停牌公告

运盛(上海)医疗科技股份有限公司收到第一大股东上海九川投资(集团)有限公司通知,九川集团正在筹划涉及公司的重大事项,该事项可能对

公司的控股权造成重大影响,该事项存在较大不确定性。

经公司申请,公司股票自 2016 年 6 月 14 日起停牌。

仅供参考,请查阅当日公告全文。

(603788)“宁波高发”公布关于筹划非公开发行股票事项复牌的公告

鉴于宁波高发汽车控制系统股份有限公司董事会已审议通过非公开发行
股票相关事项,经向上海证券交易所申请,本公司股票于 2016 年 6 月 15 日
复牌。

仅供参考,请查阅当日公告全文。

根据目标数据源的不同,已有自动问答技术大致可以分为三类:

对应信息点:

检索式问答;

  1. 公司全称(实体)
  2. 公司简称(实体)
  3. 公司代码(实体)
  4. 停复牌原因描述(句子)
  5. 停牌时间(日期)
  6. 复牌时间(日期)

社区问答;

4.2.6 新股/限售股上市公告

知识库问答。

公告摘要示例:

以下分别就这几个方面对研究现状进行简要阐述。

(603085)“天成自控”公布首次公开发行限售股上市流通公告

浙江天成自控股份有限公司本次限售股上市流通数量为 3,750,000 股;上
市流通日期为2016年6月30日。

仅供参考,请查阅当日公告全文。

2.1 检索式问答

对应信息点:

检索式问答研究伴随搜索引擎的发展不断推进。1999 年,随着 TREC QA
任务的发起, 检索式问答系统迎来了真正的研究进展。TREC QA
的任务是给定特定 WEB
数据集,从中找到能够回答问题的答案。这类方法是以检索和答案抽取为基本过程的问答系统,具体过程包括问题分析、篇章检索和答案抽取。

  1. 公司全称(实体)
  2. 公司简称(实体)
  3. 公司代码(实体)
  4. 上市日期(日期)
  5. 限售股上市流通数量(数字)

根据抽取方法的不同,已有检索式问答可以分为基于模式匹配的问答方法和基于统计文本信息抽取的问答方法。

4.2.7 风险警示公告

基于模式匹配的方法往往先离线地获得各类提问答案的模式。在运行阶段,系统首先判断当前提问属于哪一类,然后使用这类提问的模式来对抽取的候选答案进行验证。同时为了提高问答系统的性能,人们也引入自然语言处理技术。由于自然语言处理的技术还未成熟,现有大多数系统都基于浅层句子分析。

公告摘要示例:

基于统计文本信息抽取的问答系统的典型代表是美国 Language Computer
Corporation 公司的 LCC
系统。该系统使用词汇链和逻辑形式转换技术,把提问句和答案句转化成统一的逻辑形式(Logic
Form),通过词汇链,实现答案的推理验证。LCC 系统在 TREC QA Track 2001 永利网站网址,~
2004 连续三年的评测中以较大领先优势获得第一名的成绩。 2011 年,IBM
研发的问答机器人 Watson在美国智力竞赛节目《危险边缘
Jeopardy!》中战胜人类选手,成为问答系统发展的一个里程碑。

(600381)“青海春天”公布关于公司股票实施其他风险警示暨股票复牌 的公告

根据相关规定,青海春天药用资源科技股份有限公司股票将于 2016 年 6 月 28
日继续停牌 1 天,6 月 29 日起复牌并实施其他风险警示,实施其他风
险警示后股票价格的日涨跌幅限制为 5%,将在风险警示板交易。实施其他风
险警示后的股票简称:ST 春天,股票代码:600381。

仅供参考,请查阅当日公告全文。

Watson 的技术优势大致可以分为以下三个方面:

对应信息点:

强大的硬件平台:包括 90 台 IBM 服务器,分布式计算环境;

  1. 公司全称(实体)
  2. 公司简称(实体)
  3. 公司代码(实体)
  4. 风险警示描述(句子)
  5. 实施其他风险警示后股票价格的日涨跌幅限制(数字)

强大的知识资源:存储了大约 2
亿页的图书、新闻、电影剧本、辞海、文选和《世界图书百科全书》等资料;

4.2.8 终止上市公告

深层问答技术(DeepQA):涉及统计机器学习、句法分析、主题分析、信息抽取、
知识库集成和知识推理等深层技术。

公告摘要示例:

然而,Watson
并没有突破传统问答式检索系统的局限性,使用的技术主要还是检索和匹配,回答的问题类型大多是简单的实体或词语类问题,而推理能力不强。

(600087)“*ST 长油”公布关于股票终止上市的公告

2014 年 4 月 11 日,中国长江航运集团南京油运股份有限公司收到上海
证券交易所自律监管决定书[2014]161 号《关于终止中国长江航运集团南京
油运股份有限公司股票上市交易的决定》,上海证券交易所决定终止公司股
票上市交易。

仅供参考,请查阅当日公告全文。

2.2 社区问答

对应信息点:

 随着 Web2.0 的兴起,基于用户生成内容(User-Generated Content,
UGC)的互联网 服务越来越流行,社区问答系统应运而生,例如 Yahoo!
Answers、百度知道等。问答社区的出现为问答技术的发展带来了新的机遇。据统计
2010 年 Yahoo! Answers 上已解决的问题量达到 10 亿,2011
年“百度知道”已解决的问题量达到 3
亿,这些社区问答数据覆盖了方方面面的用户知识和信息需求。

  1. 公司全称(实体)
  2. 公司简称(实体)
  3. 公司代码(实体)
  4. 自律监管决定书(实体)
  5. 终止上市执行描述(句子)

此外,社区问答与传统自动问答的另一个显著区别是:社区问答系统有大量的用户参与,存在丰富的用户行为信息,例如用户投票信息、用户评价信息、回答者的问题采纳率、用户推荐次数、页面点击次数以及用户、问题、答案之间的相互关联信息等等,这些用户行为信息对于社区中问题和答案的文本内容分析具有重要的价值。

4.2.9 融资融券公告

一般来讲,社区问答的核心问题是从大规模历史问答对数据中找出与用户提问问题语义相似的历史问题并将其答案返回提问用户。假设用户查询问题为q0,用于检索的问答对数据为SQ,A
= {(q1 , a1 ), (q2 , a2 )}, … , (qn,
an)}},相似问答对检索的目标是从SQ,A中检索出能够解答问题q0的问答对(qi ,
ai )。
针对这一问题,传统的信息检索模型,如向量空间模型、语言模型等,都可以得到应用。

公告摘要示例:

但是,相对于传统的文档检索,社区问答的特点在于:用户问题和已有问句相对来说都非常短,用户问题和已有问句之间存在“词汇鸿沟”问题,基于关键词匹配的检索模型很难达到较好的问答准确度。目前,很多研究工作在已有检索框架中针对这一问题引入单语言翻译概率模型,通过
IBM
翻译模型,从海量单语问答语料中获得同种语言中两个不同词语之间的语义转换概率,从而在一定程度上解决词汇语义鸿沟问题。例如和“减肥”对应的概率高的相关词有“瘦身”、“跑步”、“饮食”、“健康”、“远动”等等。
除此之外,也有许多关于问句检索中词重要性的研究和基于句法结构的问题匹配研究。

(601107)“四川成渝”公开发行 2016 年公司债券(第一期)发行公告(面
向公众投资者)

四川成渝高速公路股份有限公司面向公众投资者公开发行面值不超过 10
亿元(含 10 亿元)的公司债券已获得中国证券监督管理委员会证监许可
[2015]1484 号文核准。

四川成渝高速公路股份有限公司 2016 年公司债券(第一期)基础发行
规模为人民币 5 亿元,可超额配售不超过 5 亿元。请投资者仔细阅读公告
全文。

仅供参考,请查阅当日公告全文。

2.3 知识库问答

对应信息点:

 检索式问答和社区问答尽管在某些特定领域或者商业领域有所应用,但是其核心还是关键词匹配和浅层语义分析技术,难以实现知识的深层逻辑推理,无法达到人工智能的高级目标。因此,近些年来,无论是学术界或工业界,研究者们逐步把注意力投向知识图谱或知识库(Knowledge
Graph)。其目标是把互联网文本内容组织成为以实体为基本语义单元(节点)的图结构,其中图上的边表示实体之间语义关系。

  1. 公司全称(实体)
  2. 公司简称(实体)
  3. 公司代码(实体)
  4. 发行类型(实体)
  5. 发行面值(数字)
  6. 发行规模(数字)
  7. 获批文件号(实体)

目前互联网中已有的大规模知识库包括 DBpedia、Freebase、YAGO
等。这些知识库多是以“实体-关系-实体”三元组为基本单元所组成的图结构。基于这样的结构化知识,问答系统的任务就是要根据用户问题的语义直接在知识库上查找、推理出相匹配的答案,这一任务称为面向知识库的问答系统或知识库问答。要完成在结构化数据上的查询、匹配、推理等操作,最有效的方式是利用结构化的查询语句,例如:SQL、SPARQL
等。

4.3 实验结果评测

然而,这些语句通常是由专家编写,普通用户很难掌握并正确运用。对普通用户来说,自然语言仍然是最自然的交互方式。因此,如何把用户的自然语言问句转化为结构化的查询语句是知识库问答的核心所在,其关键是对于自然语言问句进行语义理解。目前,主流方法是通过语义分析,将用户的自然语言问句转化成结构化的语义表示,如范式和
DCS-Tree。相对应的语义解析语法或方法包括组合范畴语法( Category
Compositional Grammar, CCG )以 及 依 存 组 合 语 法( Dependency-based
Compositional Semantics, DCS)等。

对结构化提取测试主要观察提取的实体是否准确并全面,摘要的准确率则与公告制作小组制作的人工摘要通过edit-distance方法直接对比,摘要的实现力求与官方要求一致。

八. 机器翻译

在模型开发过程中,公告种类和数量循序增加,本课题期间,系统经过了15个版本的迭代。前4、5个版本准确率的提升非常明显,通过深度学习结合统计的方式,准确率快速提升到75%的区域。伴随着测试数据多样性的增加,在6版本到14版本迭代的过程中,准确率出现了波动,通过对异常情况进行分析,提升统计学习的泛化能力,同时对异常情况进行规则整理,最终准确率获得了提升。

  1. 理论应用

永利网站网址 14

机器翻译(machine
translation,MT)是指利用计算机实现从一种自然语言到另外一种自然语言的自动翻译。被翻译的语言称为源语言(source
language),翻译到的语言称作目标语言(target language)。

本文在3000+公告数据集上对系统的最终效果进行了回测分析,在其中222篇有人工标注摘要结果的公告数据上进行了准确率分析。测试结果如表1所示,可以看到,无论是结构化提取准确率,还是摘要生成准确率(评估值),都比较令人满意。

简单地讲,机器翻译研究的目标就是建立有效的自动翻译方法、模型和系统,打破语言壁垒,最终实现任意时间、任意地点和任意语言的自动翻译,完成人们无障碍自由交流的梦想。

以下为九类公告的准确率统计:

人们通常习惯于感知(听、看和读)自己母语的声音和文字,很多人甚至只能感知自己的母语,因此,机器翻译在现实生活和工作中具有重要的社会需求。

永利网站网址 15

从理论上讲,机器翻译涉及语言学、计算语言学、人工智能、机器学习,甚至认知语言学等多个学科,是一个典型的多学科交叉研究课题,因此开展这项研究具有非常重要的理论意义,既有利于推动相关学科的发展,揭示人脑实现跨语言理解的奥秘,又有助于促进其他自然语言处理任务,包括中文信息处理技术的快速发展。

(注:摘要准确率:由公告制作小组对摘要文本描述进行人工评测)

从应用上讲,无论是社会大众、政府企业还是国家机构,都迫切需要机器翻译技术。特别是在“互联网+”时代,以多语言多领域呈现的大数据已成为我们面临的常态问题,机器翻译成为众多应用领域革新的关键技术之一。例如,在商贸、体育、文化、旅游和教育等各个领域,人们接触到越来越多的外文资料,越来越频繁地与持各种语言的人通信和交流,从而对机器翻译的需求越来越强烈;在国家信息安全和军事情报领域,机器翻译技术也扮演着非常重要的角色。

(五)研究总结 5.1 成果落地

可以说离开机器翻译,基于大数据的多语言信息获取、挖掘、分析和决策等其他应用都将成为空中楼阁。尤其值得提出的是,在未来很长一段时间里,建立于丝绸之路这一历史资源之上的“一带一路”将是我国与周边国家发展政治、经济,进行文化交流的主要战略。据统计,“一带一路”涉及
60 多个国家、44 亿人口、53
种语言,可见机器翻译是“一带一路”战略实施中不可或缺的重要技术。

依据本研究课题,我们设计并实现了自动公告摘要系统,以微服务的方式为周边系统服务,提供了单篇公告测试页面和批量摘要生成API。该系统目前已经上线运行,服务于公告制作小组,有效降低了部分摘要的制作时间,降低了风险,提升了效率。

  1. 技术现状

5.2 总结展望

基于规则的机器翻译方法需要人工设计和编纂翻译规则,统计机器翻译方法能够自动获取翻译规则,但需要人工定义规则的形式,而端到端的神经网络机器翻译方法可以直接通过编码网络和解码网络自动学习语言之间的转换算法。

本文介绍了上市公司公告专业领域的知识抽取工作,采用了深度学习与传统规则方法的混合算法流程,并以9类高频公告作为测试集,均达到了理想可用的效果

从某种角度讲,其自动化程度和智能化程度在不断提升,机器翻译质量也得到了显著改善。机器翻译技术的研究现状可从欧盟组织的国际机器翻译评测(WMT)的结果中窥得一斑。
该评测主要针对欧洲语言之间的互译,2006 年至 2016
年每年举办一次。对比法语到英语历年的机器翻译评测结果可以发现,译文质量已经在自动评价指标
BLEU 值上从最初小于 0.3 到目前接近 0.4(大量的人工评测对比说明,BLEU
值接近 0.4 的译文能够达到人类基本可以理解的程度)。

未来工作可以围绕几方面开展:

另外,中国中文信息学会组织的全国机器翻译评测(CWMT)每两年组织一次,
除了英汉、日汉翻译评测以外,CWMT
还关注我国少数民族语言(藏、蒙、维)和汉语之间的翻译。相对而言,由于数据规模和语言复杂性的问题,少数民族与汉语之间的翻译性能要低于汉英、汉日之间的翻译性能。虽然机器翻译系统评测的分值呈逐年增长的趋势,译文质量越来越好,但与专业译员的翻译结果相比,机器翻译还有很长的路要走,可以说,在奔向“信、达、雅”翻译目标的征程上,目前的机器翻译基本挣扎在“信”的阶段,很多理论和技术问题仍有待于更深入的研究和探索。

  • 一、扩展现有模型的应用范围。目前仅对沪市的9类高频公告进行了处理,可以考虑从几个方面扩展应用范围:1)其他类别公告;2)历史公告;3)其他市场公告。
  • 二、扩展现有自动摘要系统的输入格式。目前仅考虑了覆盖绝大部分公告披露的PDF格式,可以考虑增加其他格式的文件输入,如Word、TXT、HTML等。
  • 三、进一步探索新方法以加强现有算法的不足。目前方法处理的公告仍相对简单,如澄清公告、重大资产重组公告里面有更复杂更不规范的自然语言描述,这些特点都会使得深度学习无效,以及规则方法变得更加复杂。对于解决这类特殊问题,目前仍缺乏基本语料的储备。对此可以考虑通过大规模新闻语料进行迁移学习,即如何将通用领域的学习模型迁移到专业领域上。
  • 四、在结构化数据的基础上进行数据挖掘与产品化尝试。比如,可以围绕一家上市公司的经营情况自动生成“重大里程碑”,而这些数据均通过在不同类别公告的知识提取完成。还可以将人事变动公告进行解析,构成人物图谱,通过社交网络的分析方式查看管理层之间关系。此外,可以将直接反映公司经营情况的公告直接与股价挂钩,观察某一公司或某一行业发布的公告与其股价的关系。

九. 自动摘要

(六)参考文献

自动文摘(又称自动文档摘要)是指通过自动分析给定的一篇文档或多篇文档,提炼、总结其中的要点信息,最终输出一篇长度较短、可读性良好的摘要(通常包含几句话或数百字),该摘要中的句子可直接出自原文,也可重新撰写所得。简言之,文摘的目的是通过对原文本进行压缩、提炼,为用户提供简明扼要的文字描述。用户可以通过阅读简短的摘要而知晓原文中所表达的主要内容,从而大幅节省阅读时间。

  1. 中国证监会,2007,《上市公司信息披露办法》。
  2. 上海证券交易所,2013,《上海证券交易所信息披露公告类别索引》。
  3. 谭红叶,2008,《中文事件抽取关键技术研究》,哈尔滨工业大学。
  4. Ahn D, The stages of event extraction. InProceedings of the Workshop
    on Annotating and Reasoning about Time and Events,pages 1–8.
    Association for Computational Linguistics 2006.
  5. Bengio Y, Simard P, Frasconi P LearningLong-Term Dependencies with
    Gradient Descent is Difficult IEEE TRANSACTIONS ONNEUREAL NETWORKS
    VOL 5. NO.2 1994.
  6. Bordes A, Usunier N, Garcia-Duran A, et al.Translating embeddings
    for modeling multi-relational data[C]. Advances inneural
    information processing systems. 2013: 2787-2795.
  7. Cho K, Bahdanau D, Learning PhraseRepresentations using RNN
    Encoder–Decoder for Statistical Machine Translation. arXiv:
    1406.1078v3 2014.
  8. Gers, Schmidhuber, Recurrent Nets that Timeand Count,2000,
    10.1109/IJCNN.2000.861302.
  9. GravesA, Supervised sequence labelling with recurrent neural
    networks[M]. Heidelberg:Springer, 2012.
  10. Graves A, Generating Sequences with RecurrentNeural Networks.
    arXiv:1308.0850, 2013.
  11. Hochreiter S, Schmidhuber J. Long short-termmemory[J]. Neural
    computation, 1997, 9(8): 1735-1780.
  12. Hogenboom F, Frasincar F, Kaymak U, et al. Anoverview of event
    extraction from text[C]//Workshop on Detection,Representation, and
    Exploitation of Events in the Semantic Web (DeRiVE 2011) atTenth
    International Semantic Web Conference (ISWC 2011). 2011, 779: 48-57.
  13. Huang Z, Xu W, Yu K. Bidirectional LSTM-CRFmodels for sequence
    tagging[J]. arXiv preprint arXiv:1508.01991, 2015.
  14. Nadeau D, Sekine S, A survey of named entityrecognition and
    classification[J]. Lingvisticae Investigationes, 2007, 30(1):3-26.
  15. Radev D R, Hovy E, McKeown K. Introduction tothe special issue on
    summarization[J]. Computational linguistics, 2002, 28(4):399-408.

自动文摘研究的目标是建立有效的自动文摘方法与模型,实现高性能的自动文摘系统。
近二十年来,业界提出了各类自动文摘方法与模型,用于解决各类自动摘要问题,在部分自动摘要问题的研究上取得了明显的进展,并成功将自动文摘技术应用于搜索引擎、新闻阅读
等产品与服务中。例如谷歌、百度等搜索引擎均会为每项检索结果提供一个短摘要,方便用
户判断检索结果相关性。在新闻阅读软件中,为新闻事件提供摘要也能够方便用户快速了解
该事件。2013 年雅虎耗资 3000 万美元收购了一项自动新闻摘要应用
Summly,则标志着自动文摘技术的应用走向成熟。

拓展阅读:

自动文摘的研究在图书馆领域和自然语言处理领域一直都很活跃,最早的应用需求来自
于图书馆。图书馆需要为大量文献书籍生成摘要,而人工摘要的效率很低,因此亟需自动摘
要方法取代人工高效地完成文献摘要任务。随着信息检索技术的发展,自动文摘在信息检索
系统中的重要性越来越大,逐渐成为研究热点之一。经过数十年的发展,同时在
DUC 与 TAC
等自动文摘国际评测的推动下,文本摘要技术已经取得长足的进步。国际上自动文摘方面比较著名的几个系统包括
ISI 的 NeATS 系统,哥伦比亚大学的 NewsBlaster 系统,密歇根大学的
NewsInEssence 系统等。

加入我们

  1. 方法

如果你还不熟悉文因互联:文因互联是位于北京的智能金融创业公司。技术团队来自MIT、RPI、IBM、Samsung等知名大学和公司,深耕人工智能十余年,是知识图谱领域的领军团队。我们用人工智能技术解决交易所、银行、券商等面临的投资研究、自动化监管、投资顾问等问题。经过两轮融资,财务健康,目前市场拓展顺利,也建立了良好的行业口碑。

自动文摘所采用的方法从实现上考虑可以分为抽取式摘要(extractive
summarization) 和生成式摘要(abstractive
summarization)。抽取式方法相对比较简单,通常利用不同方法对文档结构单元(句子、段落等)进行评价,对每个结构单元赋予一定权重,然后选择最重要的结构单元组成摘要。而生成式方法通常需要利用自然语言理解技术对文本进行语法、
语义分析,对信息进行融合,利用自然语言生成技术生成新的摘要句子。目前的自动文摘方法主要基于句子抽取,也就是以原文中的句子作为单位进行评估与选取。抽取式方法的好处是易于实现,能保证摘要中的每个句子具有良好的可读性。

以下招聘岗位职责描述仅供参考,请不要让它们限制住你的想象和勇气。

为解决如前所述的要点筛选和文摘合成这两个关键科学问题,目前主流自动文摘研究工作大致遵循如下技术框架:
内容表示 → 权重计算 → 内容选择 → 内容组织。

前端工程师

首先将原始文本表示为便于后续处理的表达方式,然后由模型对不同的句法或语义单元
进行重要性计算,再根据重要性权重选取一部分单元,经过内容上的组织形成最后的摘要。

【岗位职责】

1.1 内容表示与权重计算

1.
负责与产品需求和设计团队、开发架构团队密切配合,完成前端框架设计和技术实现方案

原文档中的每个句子由多个词汇或单元构成,后续处理过程中也以词汇等元素为基本单
位,对所在句子给出综合评价分数。

2.
负责按照各类需求文档和设计文档,完成前端代码开发

以基于句子选取的抽取式方法为例,句子的重要性得分由其组成部分的重要性衡量。由于词汇在文档中的出现频次可以在一定程度上反映其重要性,
我们可以使用每个句子中出现某词的概率作为该词的得分,通过将所有包含词的概率求和得到句子得分。

3.
负责创建用户友好、符合标准的跨浏览器应用

也有一些工作考虑更多细节,利用扩展性较强的贝叶斯话题模型,对词汇本身的话题相关性概率进行建模。
一些方法将每个句子表示为向量,维数为总词表大小。
通常使用加权频数作为句子向量相应维上的取值。加权频数的定义可以有多种,如信息检索中常用的词频-逆文档频率
(TF-IDF)权重。

4.
遵循并参与项目开发规范和开发流程

也有研究工作考虑利用隐语义分析或其他矩阵分解技术,得到低维隐含语义表示并加以利用。得到向量表示后计算两两之间的某种相似度(例如余弦相似度)。随后根据计算出的相似度构建带权图,图中每个节点对应每个句子。在多文档摘要任务中,重要的句子可能和更多其他句子较为相似,所以可以用相似度作为节点之间的边权,通过迭代求解基于图的排序算法来得到句子的重要性得分。

  1. 精通 HTML5、CSS3、ES6 等 Web
    前端开发技术

  2. 熟悉 Java
    面向对象编程、函数式编程及其相关设计模式

  3. 熟悉 React /Vue技术栈,了解 Redux/Vuex
    或基于它们二次开发的状态管理框架

  4. 熟悉 webpack、Babel、npm/Yarn
    等现代前端开发工具

也有很多工作尝试捕捉每个句子中所描述的概念,例如句子中所包含的命名实体或动词。

NLP工程师

出于简化考虑,现有工作中更多将二元词(bigram)作为概念。近期则有工作提出利用频繁图挖掘算法从文档集中挖掘得到深层依存子结构作为语义表示单元。

【岗位职责】

另一方面,很多摘要任务已经具备一定数量的公开数据集,可用于训练有监督打分模型。例如对于抽取式摘要,我们可以将人工撰写的摘要贪心匹配原文档中的句子或概念,从而得到不同单元是否应当被选作摘要句的数据。然后对各单元人工抽取若干特征,利用回归模型或排序学习模型进行有监督学习,得到句子或概念对应的得分。

1.
信息抽取、文本摘要、自动问答等方面的研发以及语言资源/知识库维护

文档内容描述具有结构性,因此也有利用隐马尔科夫模型(HMM)、条件随机场(CRF)、结构化支持向量机(Structural
SVM)等常见序列标注或一般结构预测模型进行抽取式摘要有监督训练的工作。所提取的特征包括所在位置、包含词汇、与邻句的相似度等等。对特定摘要任务一般也会引入与具体设定相关的特征,例如查询相关摘要任务中需要考虑与查询的匹配或相似程度。

  1. 金融知识图谱构建

  2. 客户项目开发

1.2 内容选择

1.
有自然语言处理经验,熟悉分词、实体识别等NLP基本模块(知道基本原理,并且使用过某个相关库)

无论从效果评价还是从实用性的角度考虑,最终生成的摘要一般在长度上会有限制。在
获取到句子或其他单元的重要性得分以后,需要考虑如何在尽可能短的长度里容纳尽可能多
的重要信息,在此基础上对原文内容进行选取。内容选择方法包括贪心选择和全局优化。

2.
有Python项目开发经验,熟悉collections标准库下的数据结构

  1. 技术现状
  1. 可以完全在linux下工作

相比机器翻译、自动问答、知识图谱、情感分析等热门领域,自动文摘在国内并没有受
到足够的重视。国内早期的基础资源与评测举办过中文单文档摘要的评测任务,但测试集规
模比较小,而且没有提供自动化评价工具。2015 年 CCF
中文信息技术专委会组织了 NLPCC
评测,其中包括了面向中文微博的新闻摘要任务,提供了规模相对较大的样例数据和测试数据,并采用自动评价方法,吸引了多支队伍参加评测,目前这些数据可以公开获得。但上述中文摘要评测任务均针对单文档摘要任务,目前还没有业界认可的中文多文档摘要数据,这在事实上阻碍了中文自动摘要技术的发展。

4.
有git开发项目经验,并能描述自己的workflow

近些年,市面上出现了一些文本挖掘产品,能够提供中文文档摘要功能(尤其是单文档
摘要),例如方正智思、拓尔思(TRS),海量科技等公司的产品。百度等搜索引擎也能为检索到的文档提供简单的单文档摘要。这些文档摘要功能均被看作是系统的附属功能,其实现方法均比较简单。

  1. 良好的沟通能力,一定的学习能力

十. 学习资料

【加分项】

  1. 书籍
  1. 遵循良好的代码风格(如Google
    Style或PEP8)。

1.1 李航《统计学习方法》

2.
有全周期项目开发经验加分。有开源项目、个人微博、博客证明自己者优先

这本经典书值得反复读,从公式推导到定理证明逻辑严谨,通俗易懂。

3.
熟悉机器学习、深度学习,有使用深度学习在NLP中的应用经验,熟悉至少一种开源库,如tensorflow。

推荐指数:五颗星

商务经理

1.1  宗成庆《统计自然语言处理》

【岗位职责】

推荐指数:四颗星

  1. 完成年度商务指标和相应营销工作
  1. 博客

2.
完成所在区域金融客户的跟踪推进工作。包括拜访区域内各主要银行、券商等金融机构、发展维护渠道合作伙伴关系

斯坦福cs224d: 

3.
组织协调公司资源,完成与客户签约相关的招投标、谈判、签约、收款及售后客户关系工作

 

4.维护本地金融客户日常关系,收集反馈客户对公司产品和服务等方面的意见

中文版博客专栏

1.
统招本科及以上学历,特别优秀者可放宽,专业、工作经验不限。

  1. 会议
  1. 喜欢与客户交流沟通,能适度出差

ACL 2015: 

3.
具有良好的自我学习能力与团队合作精神,有强烈责任感。

 

4.对金融、银行、证券等业务熟悉的优先,有计算机专业背景的优先。

ACL 2016: 

数据标注实习生

 

【岗位职责】

EMNLP 2015: 

1.
使用标注工具,针对文本数据进行归类、整理、标注。

 

  1. 学习标注规则,及时反馈标注质量及进度。

  2. (如有编程能力)协助编写数据清理和处理代码。

  1. 实践案例

【优先考虑】

1.
本科或硕士在校生优先,专业不限。

 

  1. 对数据敏感,细致踏实;有较强的沟通能力。

  2. 每周出勤时间不少于3天,最好能连续实习两个月。

 

【加分项】(非必须项):

十一. 进一步学习

  1. 有一定的编程能力,熟悉 Python。

  2. 有数据标注和校验经验。

  3. 有语言学、自然语言处理或金融、财会背景。

论文下载地址:

是人才我们都不想错过,欢迎你过来一起聊聊。公司博客是
主页是

简历投递地址:hr@memect.co 等着你来!返回搜狐,查看更多

责任编辑:

发表评论

电子邮件地址不会被公开。 必填项已用*标注

标签:, , , , ,
网站地图xml地图