Nlp相关知识

NLP赛事

法研杯

第五届中国法研杯 LAIC 2022 司法人工智能挑战赛 http://data.court.gov.cn/pages/laic2021.html 中国法律智能技术评测CAIL(Challenge of AI in Law) http://cail.cipsc.org.cn/index.html

分为技术方向赛道和应用方向赛道技术方向赛道每届的任务

第四届

刑期预测

第一届“中国法研杯”比赛上我们提出了刑期预测任务，今年我们将针对往届刑期预测准确率不高的罪名进行专项研究，并提供更多维度信息（如省份、年份）进行帮助提升。

犯罪金额要素提取

本任务的主要目的是为了将案件描述中的犯罪金额自动计算出来。

争议焦点识别提取（多分类任务）

本赛道的任务是根据裁判文书中原被告的诉请及答辩内容，对其中的争议焦点进行识别和检测。争议焦点的自动识别和检测对我国法治建设具有现实意义与必要性。

具体来说，我们会提供裁判文书中的庭审相关内容（包括诉请+答辩段落），选手的任务是依据预先定义的标签体系，预测识别输出对应的若干争议焦点标签。

我们允许选手使用任何外部资料作为知识来帮助模型

第三届

阅读理解、司法摘要、司法考试、论辩挖掘 2020年推出升级版阅读理解赛道数据集，不仅文书种类增加了行政案件，问题类型也由单步预测扩展为多步推理，以期辅助法官、律师以及普通大众更方便的获取所需信息。司法摘要赛道则是对裁判文书的内容进行压缩、归纳和总结，反映案件审理过程中的裁判过程、事实、理由和判决依据等。司法考试赛道针对司法考试的问答，提供司法考试的题面以及选项，由选手输出最后题目答案。论辩挖掘赛道通过分析庭审过程中辩、诉双方观点证据和事实陈述差异，抽取出裁判文书中辩方诉方之间的逻辑交互论点，即争议焦点。比赛吸引了众多研究者和法律实务工作人员参赛，各赛道均取得较大突破。

NLP技术路线

文本挖掘技术

基本流程 (Basic Procedure) 、图 (Graph) 、文档 (Document) 、词嵌入 (Word Embedding)、序列标注 (Sequential Labeling) ，以及NLP基本假设 (NLP Basic Hypothesis)。 https://github.com/graykode/nlp-roadmap/blob/master/img/textmining.png

NLP

https://github.com/graykode/nlp-roadmap/blob/master/img/nlp.png 一是基础 (Basic) ，详细梳理了NLP常用的几类网络：循环模型、卷积模型和递归模型。

二是语言模型 (Language Model) ，包含了编码器-解码器模型，以及词表征到上下文表征 (Word Representation to Contextual Representation) 这两部分。许多著名模型，比如BERT和XLNet，都是在这里得到了充分拆解，也是你需要努力学习的内容。

三是分布式表征 (Distributed Representation) ，许多常用的词嵌入方法都在这里，包括GloVe和Word2Vec，它们会一个个变成你的好朋友。

四是任务 (Task) ，机器翻译、问答、阅读理解、情绪分析……你已经是合格的NLP研究人员了，有什么需求，就调教AI做些什么吧。

文本摘要相关

自动摘要技术

extractive summarization 关键句子摘要（抽取式摘要）
abstractive summarization 抽象摘要摘要生成，每个句子标注是否为关键句子的标签，只能保证75%的准确率。什么样的句子算是关键句子。