《中文文本信息抽取模型与方法研究》5:基于论元结构的事件要素及其角色识别
论元结构是沟通认知与句法结构的桥梁,是语义和句法的接口,在现代句法学和语义学研究中有着相当重要的地位,对于确定句子含义和进行文本理解意义重大。利用CRF来识别事件要素及其角色的方法。
语义分析旨在让计算机能够根据句子的句法结构和句子中每个实词的词义推到出这个句子的意义。对中文文本事件信息抽取中的事件要素及其语义角色的识别这一具体问题来说,就是要分析事件表述语句中的触发词和它所支配的句法成分(论元)间的语义关系,进而确定该事件的事件要素及其角色,并将这些信息填充到事件模板中。
从事件表述语句中识别事件要素并判定其语义角色是文本事件信息抽取中难度最大的问题,其中涉及自然语言处理中许多核心问题,特别是动词的论元结构分析和语义角色标注。从句法结构层次上看这些论元分别属于:主语、直接宾语、间接宾语、状语等句法成分;从语义层次上看这些论元分别属于:施事、经事、系事、时间等语义角色。通过这些分析,就能将触发词的论元和事件模板中的槽对应起来。语义角色标注是根据一个句子中的动词(谓词)与相关的各类短语等句子成分之间的语义关系而赋予这些句子成分的语义角色信息。动词在特定的句式中有固定的语义角色,这些角色表示动词所涉及的主体、客体或动作、行为、状态、所处的场所、发生的时间、借助的工具等。
论元结构和事件模板的对应
在文本事件信息抽取中,事件模板起到把要抽取的信息内容类型化和结构化的作用。比如,用户所关心的一个职务变动事件中的五个信息项目:谁、什么时候、什么组织、什么职务、事件状态(任职还是离职),可以表示为职务变动事件模板中的五个模板元素。这样,与某种特定类型事件相关的模板就是一个事件模板,模板中的槽就是事件的要素。如果把一个事件模板看作是一个句子的语义的某种抽象化表示,那么模板元素之间的关系就是动词的意义,各个模板元素就是动词所支配的论元。因此,袁指出:动词的论元结构可以传递到事件模板中,动词的论元最终将成为填入事件模板中的信息项目。对于中文文本事件信息抽取来说,触发词的论元将和事件模板中的大部分槽相对应。例:
触发词“任命”的论元结构中的论元:
Arg0:进行任命的人或组织
Arg1:被任命的人
Arg2:职位或职务
ArgM-TMP:时间
例句1:{1月1日}ArgM-TMP,[巴西新总统]Arg0任命[球王贝利]Arg1为[体育部长]Arg2
5.4 利用条件随机场识别事件要素及其角色
该方法以浅层句法分析为基础,把短语或命名实体作为识别标注的基本单元,将CRF用于事件表述语句中事件要素及其语义角色的识别。