CCKS 2020:面向金融领域的小样本跨类迁移事件抽取


数据集

该数据集分为两大块:A榜数据和B榜数据

本次数据来自真实金融新闻,由专业人员标注,训练集、验证集及测试集的说明如下(数据规模以实际下载数据为准):

ccks_3_nolabel_data

A榜数据集

存储地址:G:\SelfLearning\JupyterNotebook3.0\Conferences\CCKS\2020\task4\数据集\ccks_3_nolabel_data

当前的数据总共包含以下几份文件:

train_base.json

  • train代表训练集
  • base的中文是“基本”,代表的就是原始类别。

train_base.json是原始训练集,包含质押股份股权转让投资起诉减持五个类别;

一共包含2732条annotated数据,一个示例为:

{
    "id": "cbc5a8ed0bc6dcebd15cbe5d2b6b8311", 
    "content": "兴发集团发布公告,控股股东宜昌兴发集团有限责任公司于2019年11月20日将2000万股进行质押,质押方为上海浦东发展银行股份有限公司宜昌分行,质押股数占其所持股份比例的8.50%,占公司总股本的2.15%。", 
    "events": 
     [
         {"type": "质押", 
          "mentions": 
                    [
                        {"word": "股", "span": [43, 44], "role": "collateral"}, 
                        {"word": "8.50%", "span": [85, 90], "role": "proportion"}, 
                        {"word": "上海浦东发展银行股份有限公司宜昌分行", "span": [53, 71], "role": "obj-org"}, 
                        {"word": "质押", "span": [46, 48], "role": "trigger"}, 
                        {"word": "2000万", "span": [38, 43], "role": "number"}, 
                        {"word": "2019年11月20日", "span": [26, 37], "role": "date"}, 
                        {"word": "宜昌兴发集团有限责任公司", "span": [13, 25], "role": "sub-org"}
                    ]
         }
     ]
}

关于JSON文件的语义理解,可以将一个{}看作是一个对象,{}里面的每一个key:value对看作是该对象的属性;而一个[]看作是一个数组,里面包含了很多的{}对象。这样就很好理解啦~

dev_base.json

dev_base.json是原始验证集;

一共包含163763条unannotated数据,一个示例为:

{
    "id": "d45bb6fb70598b9a472c14d28ad12708", 
     "content": "上述股权已于2012年9月25日办理了股权质押登记手续,股权质押期限自股权质押登记之日起至质权人办理解除质押登记为止。"
}

trans_train.json

trans_train.json是A榜迁移训练集,包含收购判决这两个类别;

一共包含361条annotated数据,一个示例为:

{
    "id": "ecb7d40130299305dd53bc9096449919", 
    "content": "所以,鉴于三人特殊的亲戚关系,业内认为,金马股份收购众泰汽车的做法,更像是一场自导自演、自我抬高身价的家族游戏。", 
    "events": 
     [
         {"type": "收购", 
          "mentions": 
                    [
                        {"word": "金马股份", "span": [20, 24], "role": "sub-org"}, 
                        {"word": "收购", "span": [24, 26], "role": "trigger"}, 
                        {"word": "众泰汽车", "span": [26, 30], "role": "obj-org"}
                    ]
         }
     ]
}

trans_dev.json

trans_dev.json是A榜迁移验证集。

一共包含60731条unannotate数据,一个示例为:

{
    "id": "37ae36de04ec5f061ccbbc90fcdc1321",
     "content": "智通财经APP讯,百信国际(00574)公布,于2019年3月8日,该公司直接全资附属ReadyGainLimited拟向余健伟及朱显明收购百胜百惠顾问有限公司的全部股权,代价为4532.5万港元。"
}

注意:
(1)选手需要根据train_base.jsontrans_train.json做模型训练,然后在dev_base.jsontrans_dev.json做模型推断。
其中:dev_base.json的类别为质押、股份股权转让、投资、起诉和减持,trans_dev.json的类别为收购和判决。选手将两份预测结果合并,提交到平台即可。
(2)担保、中标和签署合同这几个迁移事件的少量训练样本,会在最终评测的时候才放出。

Final Release-CCKS 2020_3

B榜数据集

存储地址:G:\SelfLearning\JupyterNotebook3.0\Conferences\CCKS\2020\task4\数据集\Final Release-CCKS 2020_3

trans_train.json

trans_train.json,是在A榜的迁移训练集trans_train.json基础上,新增了担保、中标和签署合同三个类别的少量含标数据,加上A榜的判决和收购,总共含五个类别;其包含了A榜迁移训练集trans_train.json中的所有含标数据。

一共820条数据,一个示例为:

{
    "id": "4ae4ae60de1bf10833f4dfc40cba96c8", 
    "content": "龙马环卫:中标8.85亿元环卫一体化项目龙马环卫(603686)7月25日晚间公告,公司中标三亚市崖州区环卫一体化项目,服务期限9年,合同年化金额9829.91万元/年,合同总金额8.85亿元。", 
    "events": 
    [
        {"type": "中标", 
         "mentions": 
         [
             {"word": "龙马环卫", "span": [20, 24], "role": "sub"}, 
             {"word": "7月25日", "span": [32, 37], "role": "date"}, 
             {"word": "中标", "span": [44, 46], "role": "trigger"}, 
             {"word": "三亚市崖州区", "span": [46, 52], "role": "obj"}, 
             {"word": "8.85亿元", "span": [90, 96], "role": "amount"}
         ]
        }
    ]
}

trans_test.json

trans_test.json是B榜测试集,与任何dev集都不相同。

一共32879条数据,一个示例如下:

{
    "id": "7932deb94b830a80dd103c283872e8bc", 
    "content": "截至2019年7月底,中国证券投资基金业协会已登记私募基金管理人24322家,存续备案私募基金78734只,其中证券类私募基金管理人8776家,占比36.08%;"
}

注意:
(1)选手需要根据A榜的train_base.json和B榜的trans_train.json做模型训练,然后根据B榜的trans_test.json做模型推断。B榜的trans_test.json需要预测的类别为判决、收购、担保、中标和签署合同。
(2)最终排名以B榜的得分为主。仅在B榜得分小数点后三位一样时,再看A榜得分确定排名。

数据解决方案

原始类别包括:质押股份股权转让投资起诉减持,已有标注数量为2732,按照8-2原则,训练集拥有数据2185条,测试集拥有数据547条。

迁移类别包括:收购判决(其他三个类别感觉数据量太小了,不好使用),已有标注数量为361,按照8-2原则,训练集拥有数据288条,测试集拥有数据73条。

第一名方案

image.png

image.png

image.png

什么是多标签多类型文本分类问题

image.png

image.png

image.png

image.png

image.png

image.png

消融实验

第三名方案


文章作者: CarlYoung
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 CarlYoung !
  目录