手机版
选择频道搜索
人工智能高质量数据集
数据提供方
首页
>
人工智能高质量数据集
按行业查看
大模型
(18)
金融
(5)
医疗
(7)
交通
(3)
工业
(1)
太空探索
(0)
通信
(0)
医药
(5)
安防
(1)
农业
(4)
林业
(0)
建筑业
(0)
零售业
(0)
餐饮业
(0)
旅游业
(0)
环境与地理
(1)
人文历史
(0)
教育业
(4)
体育业
(0)
房地产业
(0)
酒店与住宿
(0)
家居生活
(0)
计算机科学
(3)
人物形态
(0)
机器视觉
(0)
自然语言处理
(1)
游戏动漫
(0)
能源电力
(0)
生物微生物
(0)
语音识别
(12)
动物识别
(0)
商业信息
(5)
您可以
或
哈萨克语
数据规模:1275小时数据格式:wav
2024-09-13
应用场景:新闻/故事等
guanli
粤语方言对话
数据规模:673小时数据格式:wav
2024-09-13
应用场景:客户对话场景、金融场景
guanli
四川方言对话
数据规模:780小时数据格式:wav
2024-09-13
应用场景:客户对话场景、金融场景
guanli
成人中英文语音
数据规模:252小时数据格式:wav
2024-09-13
应用场景:中英文短句
guanli
成人英语语音
数据规模:111小时数据格式:wav
2024-09-13
应用场景:英文短语
guanli
儿童中英文语音
数据规模:150小时数据格式:wav
2024-09-13
应用场景:中英文短句
guanli
儿童英语语音 (英语单词、短句、和对话)
数据规模:79小时数据格式:wav
2024-09-13
应用场景:英文单词、短语
guanli
儿童中文语音
数据规模:317小时数据格式:wav
2024-09-13
应用场景:学校、家庭等场景下的日常话题
guanli
儿童中文语音
数据规模:935小时数据格式:wav
2024-09-13
应用场景:通用场景
guanli
TTS平均音色库
数据规模:142小时数据格式:wav
2024-09-13
应用场景:新闻/故事等
guanli
高质量跨语言行业知识图谱三元组库
面向全球企业、产业链、创新技术、防务目标的高质量知识数据,涵盖多语种对齐,实体数量高达5亿,三元组数量近100亿数据规模100
2023-09-03
应用场景:金融科技和全球防务
中译语通科技股份有限公司
120G
生成式对话大模型精调语料
面向对话大模型的高质量、多类型指令数据集,包括但不限于单轮对话、多轮对话、个性化指令、上下文理解指令和推理思维链等数据规
2023-09-03
应用场景:通用领域和全球防务领域
中译语通科技股份有限公司
30G
大模型多语种语音识别数据集
来自世界10多个国家的20万小时音频文本,主要包含中、英、维、藏等国内重点安防关注领域;数据规模20万+小时的音频与对应标注文
2023-09-03
应用场景:国防安全
中译语通科技股份有限公司
20T
高品质、大规模、多语种双语平行语料数据集
来自于科技服务、军事、国防安全、金融、医疗等领域的专利、论文、科技文献等资料整理的双语平行语料数据规模80 亿对数据格式:
2023-09-03
应用场景:科技服务、军事、国防安全、金融、医疗等领域
中译语通科技股份有限公司
1.6T
拓知基因数据库
拓知全球基因专利数据库由拓尔思和知识产权出版社联合开发,系统涵盖全球40多个国家、地区和组织的生物序列相关专利数据及32个公
2023-09-03
应用场景:数据库+文本
拓尔思信息技术股份有限公司
3.0T
政务网站数据
标签化的政务网站数据。数据规模8431万条json格式的文本数据数据格式:json
2023-09-03
应用场景:媒体、政务、舆情、教育、科技等行业数据服务
拓尔思信息技术股份有限公司
900G
新闻资讯客户端数据
标签化的互联网主流新闻客户端数据。数据规模3.2亿条json格式的文本数据数据格式:json
2023-09-03
应用场景:媒体、政务、舆情、网信、教育、科技等行业数据服务
拓尔思信息技术股份有限公司
3.2T
互联网主流新闻网站数据
官方媒体网站数据 (中央新闻网站-地方新闻网站)门户资讯网站数据(如:新浪、搜狐、网易、腾讯、凤凰等)行业新闻门户网站数据
2023-09-03
应用场景:媒体、政务、舆情、网信、教育、科技等行业数据服务
拓尔思信息技术股份有限公司
52.94T
电子报刊数据
标签化的全国各级党报、行业专业报刊数据。数据规模3500万json格式的文本数据、1332万幅图片及PDF数据格式:json、jpg、pdf
2023-09-03
应用场景:媒体、政务
拓尔思信息技术股份有限公司
6.36T
绿色投资标的评估数据集
是根据绿色投资相关标准和框架形成的评估数据集,该数据集包含各类绿色相关评估标签和信息语料,有助于构建绿色投资标的评估模型
2023-09-03
应用场景:金融
网智天元科技集团股份有限公司
20G
区域产业链数据集
说明:全国信息化、数字化建设项目公开信息数据。同时,对文本进行了清洗,形成了结构化字段。 字段:包括建设单位、项目名称、
2023-09-03
应用场景:金融、政务
网智天元科技集团股份有限公司
500G
监管处罚与裁判数据集
监管部门开出的监管处罚和司法部分的裁判文书数据,高度结构化和关联分析后的数据集。数据规模1亿条数据格式:文本
2023-09-03
应用场景:金融、政务
网智天元科技集团股份有限公司
400G
企业风险智库数据集
金融企业的各类风险典型案例分析的原始数据和成果数据协同的数据集。数据规模1000万条数据格式:数据库
2023-09-03
应用场景:金融
网智天元科技集团股份有限公司
300G
MagicData-CLAM_SFT 大模型微调数据集-通用领域
此数据集包含200万组通用领域多任务单轮问答数据,任务类型包含头脑风暴、内容分类、关键信息提取、文章生成、内容重写、聊天、
2023-09-03
应用场景:通用
北京晴数智慧科技有限公司
1.3G
产业研究报告数据集
精准招商、城市画像、产业研究、企业尽调、融资监测、知识产权、国高新企业分析、国家专精特新分析模板报告及精品报告数据规模:
2023-09-03
应用场景:科技服务
北京上奇数字科技有限公司
2G
产业数据
全国、省、市、区县宏观经济数据、产业发展指标数据、产业链指标数据数据规模:覆盖全国省市县区,2000+指标,765万条数据数据格
2023-09-03
应用场景:产业数据
北京上奇数字科技有限公司
3GB
产业链数据集
信创、5G、物联网、传感器、云计算、网络安全、集成电路、地理信息、精密测绘、软件服务、数字经济、工业软件、智能终端、数据中
2023-09-03
应用场景:产业知识图谱
北京上奇数字科技有限公司
1T
智能会议场景高质量对话式语音数据集
涵盖956场真实会议场景,多人多轮次对话音频数据集,可应用于语音对话与听觉大模型的研究。数据规模:666小时数据格式:WAV、txt
2023-09-03
应用场景:语料语义
北京希尔贝壳科技有限公司
3.2TB
大模型方言口语语音数据集
涵盖17种方言口语,自然表达的音频数据集,可应用于语音对话与听觉大模型的研究。数据规模:12000小时数据格式:WAV
2023-09-03
应用场景:语料语义
北京希尔贝壳科技有限公司
1TB
中文千万轮对话语料库 DOTS-NLP-216
数据集构成:真实场景对话采集,高度还原真实场景的模拟对话。兼顾分布的代表性、多样性和样本规模。覆盖领域:工作、生活、校园
2023-09-03
应用场景:语料语义
北京海天瑞声科技股份有限公司
4G
搜索排行
15条
1
语音
2条
2
科技
2条
3
自动驾驶
23条
4
大模型
3条
5
电
北京人工智能高质量数据集服务平台
创新数据服务,积极推进数据拓展应用
关于我们
・
北京人工智能高质量数据服务平台简介
・
网站法律声明及隐私权政策
联系我们
・留言:
提交反馈/留言
・合作:15911018798
©2020-2023 北京人工智能高质量数据集服务平台 SYSTEM All Rights Reserved
指导单位:
北京市经济和信息化局
北京人工智能产业联盟
运营单位:
北京帕依提提科技有限公司
京ICP备2022014932号-1