科技文献挖掘语义标注数据集

数据规模: 100万条
数据大小: 20GB
应用场景: 大模型
数据类型: 文本
最后更新: 2023-09-02 13:17
 
数据简介

人工整编的可用于科技文献语步识别、概念定义识别、研究问题识别、领域分类、领域科研实体识别等任务的训练数据集。

其中语步识别数据集40万条,标注了文献摘要中各句子的语步类型,包括研究背景句、研究目的句、研究方法句、研究结果句、研究结论句;概念定义识别数据集1万条,标注了文献中描述概念定义的句子;研究问题识别数据集1万条,标注了文献中描述研究问题的句子;分类数据集50万条,包括了每篇文章及其中图分类号的对应关系;科研实体识别数据集10万条,标注了文献摘要中描述研究问题、方法模型、数据资料、仪器设备等实体词。

(2)数据规模:

100万条

数据类型:

结构化文本数据


0相关评论
数据提供方信息查看主页

中国科学院文献情报中心

中国科学院文献情报系统由院所两级的文献情报机构组成,协同面向研究所科研一线提供文献情报与知识服务。
  • 14
更多>本企业其它数据
中国科学引文数据库数据集 科技文献挖掘语义标注数据集

北京人工智能高质量数据集服务平台

创新数据服务,积极推进数据拓展应用

关于我们

联系我们