前言:
毕设选题是事件抽取,但是这一周了解下来,我遇到了两个问题:
- 网络上关于事件抽取的论文都好杂好乱,连一篇优质综述都没找到,一点都不系统化。
- 自己做的评测任务——《面向金融领域的小样本跨类迁移事件抽取》没有很好的开源解决方案,所以NLP小白一度觉得很迷,不知如何下手。
因此,针对上面两个问题,我打算通过《科大讯飞-事件抽取挑战赛》这个比赛来解决:一边看开源解决方案,一边补充其中涉及到的事件抽取/NLP知识,以复现开源解决方案来促进自己的学习。同时也需要每周阅读几篇另外的顶会论文来扩展自己的视野。
🔗原文链接:http://challenge.xfyun.cn/topic/info?type=hotspot
赛事概要
一、赛事背景
事件抽取将非结构化文本中的事件信息展现为结构化形式,在舆情监测、文本摘要、自动问答、事理图谱自动构建等领域有着重要应用。在真实新闻中,由于文本中可能存在句式复杂,主被动转换,多事件主客体共享等难点,因此“事件抽取”是一项极具挑战的抽取任务。
二、赛事任务
本赛事任务旨在从通用新闻文本中抽取事件触发词、事件论元以及事件属性。
在传统的事件定义中,事件由事件触发词(Trigger) 和描述事件结构的元素(Argument)构成。事件触发词标识着事件的发生。事件论元为事件主体(Subject)、客体(Object)、时间(Time)、地点(Location)等,是表达事件重要信息的载体。
事件属性包括事件极性(Polarity)、时态(Tense),是衡量事件是否真实发生的重要依据。 通过极性,事件分为肯定、否定、可能事件。通过时态,事件分为过去发生的事件、现在正在发生的事件、将要发生的事件以及其他无法确定时态的事件。
本赛事任务一为初赛任务,任务二为复赛任务,在任务一的基础上增加了事件属性识别。为了模拟真实场景,数据中包含了非实际发生的事件。
📝任务一:事件触发词及论元抽取
该任务旨在从文本中抽取标识事件发生的触发词和论元,触发词往往为动词和名词。触发词对应的事件论元,主要为主体(Subject)、客体(Object)、时间(Time)、地点(Location),其中主体为必备论元。
示例 1:
文本:北京时间 3 月 27 日晚上 7 点 15 分,英国首相鲍里斯约翰逊确诊感染了新冠肺炎。
抽取结果:
示例 2:
文本:4 月 1 日,因应英国央行英伦银行的要求,汇丰控股及渣打集团一举停止派息及回购。
抽取结果:
示例 3:
文本:过渡政府部队发言人说, 北约的战机 1 6 日在苏尔特附近击中了一座建筑,炸死大批卡扎菲部队士兵。
抽取结果:
示例 4:
文本:中华人民共和国证监会正式表态,对中国星巴克瑞幸咖啡财务造假行为表示强烈的谴责。
抽取结果:
📝任务二:事件属性抽取
该任务旨在从文本中抽取表达事件发生状态的属性,包括极性、时态。极性分为:肯定、否定、可能;时态分为:过去、现在、将来、其他。
示例 1:
文本:中国驻俄罗斯大使张汉晖 4 月 7 日向媒体回应称,经向俄有关强力部门了解,目前在俄没有一起中国公民遭到拘留或受到俄强力部门限制的案例。
抽取结果:
示例 2:
文本:过往世卫组织曾 5 度宣布“国际关注公共卫生紧急事件”。
抽取结果:
示例 3:
文本:英国很可能将恢复接受世界贸易组织条款的规范。
抽取结果:
示例 4:
文本:看守政府总理迈赫迪打算驱逐约 5300 名美国士兵。
抽取结果:
三、评审规则
1. 初赛数据说明
本次比赛初赛为参赛选手提供了6958条中文句子,及其9644条提取结果(存在一对多的情况):
1.1 训练集:共5758条句子,包含句子中对应的触发词、论元等,用于竞赛模型训练。(训练集在data/preliminary/train.csv
当中)
1.2 测试集:共1200条句子。(测试集在data/preliminary/test.csv
中)
2. 复赛数据说明
本次比赛复赛为参赛选手提供了3335条中文句子,及其3384条提取结果(存在一对多的情况):
2.1 训练集:共2456条句子,包含句子中对应的触发词、论元及其角色、事件属性等,用于竞赛模型训练。
2.2 测试集:共879条句子。
3. 评价指标
本模型依据提交的结果文件,采用F值进行评价。
3.1 事件触发词及论元抽取评价指标
对于事件触发词及论元抽取,使用触发词进行事件对齐,对于触发词匹配的事件,计算论元F值。最终F值包括论元与触发词(将触发词当做一种论元计算得分)。论元F值为严格F值与松弛F值的平均得分。
3.1.1 严格F值:预测论元与标注论元必须完全匹配(类型必须正确)
论元准确率$P_{span}$ = 预测论元和标注论元匹配的个数 / 预测论元个数
论元召回率$R_{span}$ = 预测论元和标注论元匹配的个数 / 标注论元个数
论元F值 $F1_{span}$ = $2P_{span}* R_{span} /( P_{span} + R_{span})$
3.1.2 松弛F值:预测论元与标注论元存在字符级别匹配也能得到部分分数(类型必须正确)
论元准确率$P_{char}$ = 预测论元和标注论元匹配的字符数 / 预测论元字符数
论元召回率$R_{char}$ = 预测论元和标注论元匹配的字符数 / 标注论元字符数
论元F值 $F1_{char}$ = $2 P_{char}*R_{char} /( P_{char} + R_{char})$
3.1.3 最终得分:$F1 = (F1_{span} + F1_{char}) / 2$
3.2 事件属性抽取评价指标
对于事件属性抽取,使用F值进行评价。
属性准确率P = 预测属性和标注属性匹配的个数/ 预测属性个数
属性召回率R = 预测属性和标注属性匹配的个数 / 标注属性个数
属性F值 F1= 2 P R /( P+ R)
4. 评测及排行
- 初赛和复赛均提供下载数据,选手在本地进行算法调试,在比赛页面提交结果。
- 每支团队每天最多提交3次。
- 排行按照得分从高到低排序,排行榜将选择团队的历史最优成绩进行排名。
四、作品提交要求
文件格式 :按照 csv 格式提交
文件大小 :无要求
提交次数限制 :每支队伍每天最多 3 次
文件详细说明 :
- 对于该赛题复赛阶段的所有数据,统一采用json格式,编码格式为utf-8,结构及关键字解释如下:
2)提交格式见样例
五、赛程规则
初赛 6月22日——8月21日
- 初赛截止成绩以团队在初赛时间段内最优成绩为准(不含测试排名)。
- 初赛作品提交截止日期为8月20日17:00;初赛名次公布日期为8月21日10:00。
复赛 8月21日——9月21日
- 排名前20%的团队晋级复赛,大赛官网将公示团队信息。选手通过大赛官网下载新增的训练集和开发集,本地调试算法,在线提交结果。
- 复赛成绩以参赛团队在复赛时间段内最优成绩为准。
- 复赛作品提交截止日期为9月20日17:00;复赛名次公布日期为9月21日10:00。
决赛 10月24日
- 前三名团队将受邀参加科大讯飞全球1024开发者节并于现场进行决赛。
- 决赛以答辩(10min陈述+5min问答)的形式进行。
- 根据复赛成绩和答辩成绩综合评分(复赛成绩占比70%,现场答辩分数占比30%)。
六、奖项设置
- 入围复赛
- 复赛入围证书
- 大赛专属Geek礼包
- 大赛限量文化衫
- 入围决赛
- 科大讯飞1024开发者节全场通票
- 决赛入围证书
- 科大讯飞创孵基地绿色入驻通道
- A.I.服务市场入驻特权
- 决赛胜出
- 决赛奖金,各赛道TOP10选手将阶梯获得赛道奖金,第一名3万元、第二名2万元、第三名1万元、第四-第十名分别获得“算法菁英奖”2500元。
- 参与1024全球开发者节颁奖盛典,现场授予奖金、证书与定制奖杯
- A.I.全链创业扶持
- 绿色就业通道&讯飞Offer