自然语言处理
中文千万轮对话语料库 DOTS-NLP-216

产品概述:

数据集构成:真实场景对话采集,高度还原真实场景的模拟对话。兼顾分布的代表性、多样性和样本规模。
覆盖领域:工作、生活、校园等场景,及金融、教育、影视、体育、汽车、科技等。
覆盖语言风格:符合中国人表达习惯的自然对话数据集。包含正式&非正式风格对话,使用偏口语化自然表达。正式对话常见于金融等正式领域客服对话,使用正式的语言、礼貌的措辞和尊重的称呼。非正式对话常见于生活、影视、校园等非正式领域对话,使用偏口语化自然表达。

数据规模
共计约10,000,000轮
上亿级 token

数据格式:
json

数据提供方:
发表评论
0评