NLP赛事

法研杯

第五届中国法研杯 LAIC 2022 司法人工智能挑战赛 http://data.court.gov.cn/pages/laic2021.html 中国法律智能技术评测CAIL(Challenge of AI in Law) http://cail.cipsc.org.cn/index.html

分为技术方向赛道和应用方向赛道 技术方向赛道每届的任务

第四届

刑期预测

第一届“中国法研杯”比赛上我们提出了刑期预测任务,今年我们将针对往届刑期预测准确率不高的罪名进行专项研究,并提供更多维度信息(如省份、年份)进行帮助提升。

犯罪金额要素提取

本任务的主要目的是为了将案件描述中的犯罪金额自动计算出来。

争议焦点识别提取(多分类任务)

本赛道的任务是根据裁判文书中原被告的诉请及答辩内容,对其中的争议焦点进行识别和检测。争议焦点的自动识别和检测对我国法治建设具有现实意义与必要性。

具体来说,我们会提供裁判文书中的庭审相关内容(包括诉请+答辩段落),选手的任务是依据预先定义的标签体系,预测识别输出对应的若干争议焦点标签。

我们允许选手使用任何外部资料作为知识来帮助模型

第三届

阅读理解、司法摘要、司法考试、论辩挖掘 2020年推出升级版阅读理解赛道数据集,不仅文书种类增加了行政案件,问题类型也由单步预测扩展为多步推理,以期辅助法官、律师以及普通大众更方便的获取所需信息。司法摘要赛道则是对裁判文书的内容进行压缩、归纳和总结,反映案件审理过程中的裁判过程、事实、理由和判决依据等。司法考试赛道针对司法考试的问答,提供司法考试的题面以及选项,由选手输出最后题目答案。论辩挖掘赛道通过分析庭审过程中辩、诉双方观点证据和事实陈述差异,抽取出裁判文书中辩方诉方之间的逻辑交互论点,即争议焦点。比赛吸引了众多研究者和法律实务工作人员参赛,各赛道均取得较大突破。

NLP技术路线

文本挖掘技术

基本流程 (Basic Procedure) 、 (Graph) 、文档 (Document) 、词嵌入 (Word Embedding)、序列标注 (Sequential Labeling) ,以及NLP基本假设 (NLP Basic Hypothesis)。 https://github.com/graykode/nlp-roadmap/blob/master/img/textmining.png

NLP

https://github.com/graykode/nlp-roadmap/blob/master/img/nlp.png 一是基础 (Basic) ,详细梳理了NLP常用的几类网络:循环模型、卷积模型和递归模型。

二是语言模型 (Language Model) ,包含了编码器-解码器模型,以及词表征到上下文表征 (Word Representation to Contextual Representation) 这两部分。许多著名模型,比如BERTXLNet,都是在这里得到了充分拆解,也是你需要努力学习的内容。

三是分布式表征 (Distributed Representation) ,许多常用的词嵌入方法都在这里,包括GloVeWord2Vec,它们会一个个变成你的好朋友。

四是任务 (Task) ,机器翻译、问答、阅读理解、情绪分析……你已经是合格的NLP研究人员了,有什么需求,就调教AI做些什么吧。

文本摘要相关

自动摘要技术

  1. extractive summarization 关键句子摘要(抽取式摘要)
  2. abstractive summarization 抽象摘要 摘要生成,每个句子标注是否为关键句子的标签,只能保证75%的准确率。什么样的句子算是关键句子。