今天跟老师聊了一下毕设的方向,老师提出了两方面的改进目标:
图神经网络的方法论上进行创新
从GNN的构图,表征学习等方面进行创新,这样一来,数据集不再是局限于金融数据集,可以是其他开源的数据集。
金融领域出发
从金融领域出发就不再只有反欺诈了,老师将毕设的选题再次扩大到整个金融领域,可以是金融领域的事件抽取,知识图谱的建立等等。
CCKS的评测任务是金融中的反欺诈任务的事件抽取,整个任务可以围绕怎么去构造知识图谱。有一个叫做基于本体的金融知识图谱自动化构建技术,将GNN只作为解决这一个问题的工具,可以对这个问题的本身怎么去建模可能要优先大于在方法论上的创新。
什么是CCKS?(CCKS主要聚焦在哪些领域?)
全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and Semantic Computing)由中国中文信息学会语言与知识计算专业委员会主办。
全国知识图谱与语义计算大会源自中文知识图谱研讨会the Chinese Knowledge Graph Symposium (CKGS)和中国语义互联网与Web科学大会Chinese Semantic Web and Web Science Conference (CSWS)。2016年两会合并。
全国知识图谱与语义计算大会已经成为国内知识图谱、语义技术、链接数据等领域的核心学术会议,聚集了知识表示、自然语言理解、知识获取、智能问答、链接数据、图数据库、图计算、自动推理等相关技术领域的和研究人员的学者和研究人员。
2020年全国知识图谱和语义计算大会(www.sigkg.cn/ccks2020) 将于2020年11月12日至11月15日在南昌召开。
社区支持:智源社区。
重要信息
主会
讲习班
重要通知
大会征稿截止时间延期至:2020年8月7日会议延期至2020年11月12-15日在南昌召开
第一轮论文征稿已经发布,详见Calls评测任务征集已经发布,详见Calls
CCKS的评测任务
CCKS技术评测旨在为研究人员提供测试知识图谱与语义计算技术、算法、及系统的平台和资源,促进国内知识图谱领域的技术发展,以及学术成果与产业需求的融合和对接。CCKS2019技术评测吸引了1666支队伍报名参赛,形成了较高的影响力。经过前期的评测任务征集和评测组委会筛选,CCKS 2020共设立8个相关主题评测任务,分别是:
- 新冠知识图谱构建与问答
- 面向中文短文本的实体链指
- 面向中文电子病历的医疗实体及事件抽取
- 面向金融领域的小样本跨类迁移事件抽取
- 面向金融领域的篇章级事件主题与要素抽取
- 基于本体的金融知识图谱自动化构建技术评测
- 基于标题的大规模商品实体检索
- 面向试验鉴定的命名实体识别
任务四:面向金融领域的小样本跨类迁移事件抽取
在金融领域,事件抽取是一项十分重要的任务,也是自然语言处理领域一项比较复杂的任务,而小样本下的事件抽取模型在落地应用中也极为需要。
本任务需要从金融领域新闻资讯句子中,抽取事件知识(包括事件类型、触发词和事件元素),并将大样本下训练的模型跨类迁移到小样本的其他事件类型上。
其中,事件类型分为两类,初始事件类型限定为:质押、股份股权转让、投资、起诉和高管减持,需要迁移的事件类型为:收购、担保、中标、签署合同和判决,每个事件类型都有其对应的事件框架,需要抽取出每个事件对应的事件元素。即给出一段句子级新闻资讯文本,针对该文本需要判断其所属的事件类型,抽取该事件的各个事件元素。
任务五:面向金融领域的篇章级事件主题与要素抽取
“事件抽取”是舆情监控领域和金融领域的重要任务之一,“事件”在金融领域是投资分析,资产管理的重要决策参考;事件也是知识图谱的重要组成部分,事件抽取是进行图谱推理、事件分析的必要过程。本次评测任务的文本范围包括互联网上的新闻文本,上市公司发布的公告文本(PDF文档已转成无结构化的文本内容)。 本次评测任务的事件类型包括:财务造假、偿付能力不足、高层失联/去世、企业破产、重大资损、重大赔付、重大事故、股权冻结、股权质押、增持、减持等。
本次评测包括两个子任务:
1)事件主体抽取:旨在从文本中抽取事件类型和对应的事件主体。即给定文本T,抽取T中所有的事件类型集合S,对于S中的每个事件类型s,从文本T中抽取s的事件主体。其中各事件类型的主体实体类型为公司名称或人名或机构名称。
2)篇章事件要素抽取:旨在从文本中抽取事件类型和对应的事件要素。即给定文本T,抽取T中所有的事件类型集合S,对于S中的每个事件类型s,从文本T中抽取s的事件要素。
任务六:基于本体的金融知识图谱自动化构建技术评测
金融研报是各类金融研究结构对宏观经济、金融、行业、产业链以及公司的研究报告。报告通常是由专业人员撰写,对宏观、行业和公司的数据信息搜集全面、研究深入,质量高,内容可靠。报告内容往往包含产业、经济、金融、政策、社会等多领域的数据与知识,是构建行业知识图谱非常关键的数据来源。另一方面,由于研报本身所容纳的数据与知识涉及面广泛,专业知识众多,不同的研究结构和专业认识对相同的内容的表达方式也会略有差异。这些特点导致了从研报自动化构建知识图谱困难重重,解决这些问题则能够极大促进自动化构建知识图谱方面的技术进步。
本评测任务参考TAC KBP中的Cold Start评测任务的方案,围绕金融研报知识图谱的自动化图谱构建所展开。评测从预定义图谱模式(Schema)和少量的种子知识图谱开始,从非结构化的文本数据中构建知识图谱。其中图谱模式包括10种实体类型,如机构、产品、业务、风险等;19个实体间的关系,如(机构,生产销售,产品)、(机构,投资,机构)等;以及若干实体类型带有属性,如(机构,英文名)、(研报,评级)等。在给定图谱模式和种子知识图谱的条件下,评测内容为自动地从研报文本中抽取出符合图谱模式的实体、关系和属性值,实现金融知识图谱的自动化构建。所构建的图谱在大金融行业、监管部门、政府、行业研究机构和行业公司等应用非常广泛,如风险监测、智能投研、智能监管、智能风控等,具有巨大的学术价值和产业价值。
评测本身不限制各参赛队伍使用的模型、算法和技术。希望各参赛队伍发挥聪明才智,构建各类无监督、弱监督、远程监督、半监督等系统,迭代的实现知识图谱的自动化构建,共同促进知识图谱技术的进步。
参考资料
基于本体的金融知识图谱自动化构建技术评测
输入:文本
输出:关系和属性抽取
本评测任务围绕从金融研报自动化构建知识图谱所展开:
- 给定:预定义图谱模式(Schema,本体)
- 给定:种子知识图谱开始
- 给定:金融研报的文本,经过人工处理过的txt格式
- 要求:选手实现自动化构建图谱的算法、模型和软件
- 要求包括:实体抽取
- 要求包括:关系和属性抽取
- 要求包括:实体合并和对齐
- 期望:迁移学习、无监督或弱监督、远程监督等
- 期望:多用算法少用规则
数据集:schema
上图是知识图谱涉及的3个方面:实体,关系和属性。
关系三元组是指:(实体,关系,实体)
属性三元组是指:(属性,属性名,属性值)
评测标准
任务价值
技术价值与业务价值两个方面。
报名参赛情况
获奖情况
获奖技术方案总结:实体抽取
实体抽取中最基本和主流的方案:BERT+规则
获奖技术方案总结:关系和属性抽取
实体间的共现存在着一定的问题,因为两个实体之间可以存在多种关系的。