数据集
该数据集分为两大块:A榜数据和B榜数据
本次数据来自真实金融新闻,由专业人员标注,训练集、验证集及测试集的说明如下(数据规模以实际下载数据为准):
ccks_3_nolabel_data
A榜数据集
存储地址:G:\SelfLearning\JupyterNotebook3.0\Conferences\CCKS\2020\task4\数据集\ccks_3_nolabel_data
当前的数据总共包含以下几份文件:
train_base.json
- train代表训练集
- base的中文是“基本”,代表的就是原始类别。
train_base.json
是原始训练集,包含质押、股份股权转让、投资、起诉和减持五个类别;
一共包含2732条annotated数据,一个示例为:
{
"id": "cbc5a8ed0bc6dcebd15cbe5d2b6b8311",
"content": "兴发集团发布公告,控股股东宜昌兴发集团有限责任公司于2019年11月20日将2000万股进行质押,质押方为上海浦东发展银行股份有限公司宜昌分行,质押股数占其所持股份比例的8.50%,占公司总股本的2.15%。",
"events":
[
{"type": "质押",
"mentions":
[
{"word": "股", "span": [43, 44], "role": "collateral"},
{"word": "8.50%", "span": [85, 90], "role": "proportion"},
{"word": "上海浦东发展银行股份有限公司宜昌分行", "span": [53, 71], "role": "obj-org"},
{"word": "质押", "span": [46, 48], "role": "trigger"},
{"word": "2000万", "span": [38, 43], "role": "number"},
{"word": "2019年11月20日", "span": [26, 37], "role": "date"},
{"word": "宜昌兴发集团有限责任公司", "span": [13, 25], "role": "sub-org"}
]
}
]
}
关于JSON文件的语义理解,可以将一个{}
看作是一个对象,{}
里面的每一个key:value
对看作是该对象的属性;而一个[]
看作是一个数组,里面包含了很多的{}
对象。这样就很好理解啦~
dev_base.json
dev_base.json
是原始验证集;
一共包含163763条unannotated数据,一个示例为:
{
"id": "d45bb6fb70598b9a472c14d28ad12708",
"content": "上述股权已于2012年9月25日办理了股权质押登记手续,股权质押期限自股权质押登记之日起至质权人办理解除质押登记为止。"
}
trans_train.json
trans_train.json
是A榜迁移训练集,包含收购和判决这两个类别;
一共包含361条annotated数据,一个示例为:
{
"id": "ecb7d40130299305dd53bc9096449919",
"content": "所以,鉴于三人特殊的亲戚关系,业内认为,金马股份收购众泰汽车的做法,更像是一场自导自演、自我抬高身价的家族游戏。",
"events":
[
{"type": "收购",
"mentions":
[
{"word": "金马股份", "span": [20, 24], "role": "sub-org"},
{"word": "收购", "span": [24, 26], "role": "trigger"},
{"word": "众泰汽车", "span": [26, 30], "role": "obj-org"}
]
}
]
}
trans_dev.json
trans_dev.json
是A榜迁移验证集。
一共包含60731条unannotate数据,一个示例为:
{
"id": "37ae36de04ec5f061ccbbc90fcdc1321",
"content": "智通财经APP讯,百信国际(00574)公布,于2019年3月8日,该公司直接全资附属ReadyGainLimited拟向余健伟及朱显明收购百胜百惠顾问有限公司的全部股权,代价为4532.5万港元。"
}
注意:
(1)选手需要根据train_base.json
和trans_train.json
做模型训练,然后在dev_base.json
和trans_dev.json
做模型推断。
其中:dev_base.json
的类别为质押、股份股权转让、投资、起诉和减持,trans_dev.json
的类别为收购和判决。选手将两份预测结果合并,提交到平台即可。
(2)担保、中标和签署合同这几个迁移事件的少量训练样本,会在最终评测的时候才放出。
Final Release-CCKS 2020_3
B榜数据集
存储地址:G:\SelfLearning\JupyterNotebook3.0\Conferences\CCKS\2020\task4\数据集\Final Release-CCKS 2020_3
trans_train.json
trans_train.json
,是在A榜的迁移训练集trans_train.json
基础上,新增了担保、中标和签署合同三个类别的少量含标数据,加上A榜的判决和收购,总共含五个类别;其包含了A榜迁移训练集trans_train.json
中的所有含标数据。
一共820条数据,一个示例为:
{
"id": "4ae4ae60de1bf10833f4dfc40cba96c8",
"content": "龙马环卫:中标8.85亿元环卫一体化项目龙马环卫(603686)7月25日晚间公告,公司中标三亚市崖州区环卫一体化项目,服务期限9年,合同年化金额9829.91万元/年,合同总金额8.85亿元。",
"events":
[
{"type": "中标",
"mentions":
[
{"word": "龙马环卫", "span": [20, 24], "role": "sub"},
{"word": "7月25日", "span": [32, 37], "role": "date"},
{"word": "中标", "span": [44, 46], "role": "trigger"},
{"word": "三亚市崖州区", "span": [46, 52], "role": "obj"},
{"word": "8.85亿元", "span": [90, 96], "role": "amount"}
]
}
]
}
trans_test.json
trans_test.json
是B榜测试集,与任何dev集都不相同。
一共32879条数据,一个示例如下:
{
"id": "7932deb94b830a80dd103c283872e8bc",
"content": "截至2019年7月底,中国证券投资基金业协会已登记私募基金管理人24322家,存续备案私募基金78734只,其中证券类私募基金管理人8776家,占比36.08%;"
}
注意:
(1)选手需要根据A榜的train_base.json
和B榜的trans_train.json
做模型训练,然后根据B榜的trans_test.json
做模型推断。B榜的trans_test.json
需要预测的类别为判决、收购、担保、中标和签署合同。
(2)最终排名以B榜的得分为主。仅在B榜得分小数点后三位一样时,再看A榜得分确定排名。
数据解决方案
原始类别包括:质押、股份股权转让、投资、起诉、减持,已有标注数量为2732,按照8-2原则,训练集拥有数据2185条,测试集拥有数据547条。
迁移类别包括:收购和判决(其他三个类别感觉数据量太小了,不好使用),已有标注数量为361,按照8-2原则,训练集拥有数据288条,测试集拥有数据73条。
第一名方案
什么是多标签多类型文本分类问题
消融实验