手机版
选择频道搜索
人工智能高质量数据集
数据提供方
首页
>
人工智能高质量数据集
>
搜索
您可以
或
大模型多语种语音识别
数据
集
来自世界10多个国家的20万小时音频文本,主要包含中、英、维、藏等国内重点安防关注领域;
数据
规模20万+小时的音频与对应标注文
2023-09-03 13:58
应用场景:国防安全
中译语通科技股份有限公司
20T
高品质、大规模、多语种双语平行语料
数据
集
来自于科技服务、军事、国防安全、金融、医疗等领域的专利、论文、科技文献等资料整理的双语平行语料
数据
规模80 亿对
数据
格式:
2023-09-03 13:58
应用场景:科技服务、军事、国防安全、金融、医疗等领域
中译语通科技股份有限公司
1.6T
拓知基因
数据
库
拓知全球基因专利
数据
库由拓尔思和知识产权出版社联合开发,系统涵盖全球40多个国家、地区和组织的生物序列相关专利
数据
及32个公
2023-09-03 13:57
应用场景:数据库+文本
拓尔思信息技术股份有限公司
3.0T
政务网站
数据
标签化的政务网站
数据
。
数据
规模8431万条json格式的文本
数据
数据
格式:json
2023-09-03 13:57
应用场景:媒体、政务、舆情、教育、科技等行业数据服务
拓尔思信息技术股份有限公司
900G
新闻资讯客户端
数据
标签化的互联网主流新闻客户端
数据
。
数据
规模3.2亿条json格式的文本
数据
数据
格式:json
2023-09-03 13:57
应用场景:媒体、政务、舆情、网信、教育、科技等行业数据服务
拓尔思信息技术股份有限公司
3.2T
互联网主流新闻网站
数据
官方媒体网站
数据
(中央新闻网站-地方新闻网站)门户资讯网站
数据
(如:新浪、搜狐、网易、腾讯、凤凰等)行业新闻门户网站
数据
2023-09-03 13:57
应用场景:媒体、政务、舆情、网信、教育、科技等行业数据服务
拓尔思信息技术股份有限公司
52.94T
电子报刊
数据
标签化的全国各级党报、行业专业报刊
数据
。
数据
规模3500万json格式的文本
数据
、1332万幅图片及PDF
数据
格式:json、jpg、pdf
2023-09-03 13:56
应用场景:媒体、政务
拓尔思信息技术股份有限公司
6.36T
绿色投资标的评估
数据
集
是根据绿色投资相关标准和框架形成的评估
数据
集,该
数据
集包含各类绿色相关评估标签和信息语料,有助于构建绿色投资标的评估模型
2023-09-03 13:56
应用场景:金融
网智天元科技集团股份有限公司
20G
区域产业链
数据
集
说明:全国信息化、数字化建设项目公开信息
数据
。同时,对文本进行了清洗,形成了结构化字段。 字段:包括建设单位、项目名称、
2023-09-03 13:56
应用场景:金融、政务
网智天元科技集团股份有限公司
500G
监管处罚与裁判
数据
集
监管部门开出的监管处罚和司法部分的裁判文书
数据
,高度结构化和关联分析后的
数据
集。
数据
规模1亿条
数据
格式:文本
2023-09-03 13:56
应用场景:金融、政务
网智天元科技集团股份有限公司
400G
企业风险智库
数据
集
金融企业的各类风险典型案例分析的原始
数据
和成果
数据
协同的
数据
集。
数据
规模1000万条
数据
格式:
数据
库
2023-09-03 13:55
应用场景:金融
网智天元科技集团股份有限公司
300G
MagicData-CLAM_SFT 大模型微调
数据
集-通用领域
此
数据
集包含200万组通用领域多任务单轮问答
数据
,任务类型包含头脑风暴、内容分类、关键信息提取、文章生成、内容重写、聊天、
2023-09-03 13:55
应用场景:通用
北京晴数智慧科技有限公司
1.3G
产业研究报告
数据
集
精准招商、城市画像、产业研究、企业尽调、融资监测、知识产权、国高新企业分析、国家专精特新分析模板报告及精品报告
数据
规模:
2023-09-03 13:55
应用场景:科技服务
北京上奇数字科技有限公司
2G
产业
数据
全国、省、市、区县宏观经济
数据
、产业发展指标
数据
、产业链指标
数据
数据
规模:覆盖全国省市县区,2000+指标,765万条
数据
数据
格
2023-09-03 18:29
应用场景:产业数据
北京上奇数字科技有限公司
3GB
产业链
数据
集
信创、5G、物联网、传感器、云计算、网络安全、集成电路、地理信息、精密测绘、软件服务、数字经济、工业软件、智能终端、
数据
中
2023-09-03 13:54
应用场景:产业知识图谱
北京上奇数字科技有限公司
1T
智能会议场景高质量对话式语音
数据
集
涵盖956场真实会议场景,多人多轮次对话音频
数据
集,可应用于语音对话与听觉大模型的研究。
数据
规模:666小时
数据
格式:WAV、txt
2023-09-03 13:53
应用场景:语料语义
北京希尔贝壳科技有限公司
3.2TB
大模型方言口语语音
数据
集
涵盖17种方言口语,自然表达的音频
数据
集,可应用于语音对话与听觉大模型的研究。
数据
规模:12000小时
数据
格式:WAV
2023-09-03 13:52
应用场景:语料语义
北京希尔贝壳科技有限公司
1TB
信息化项目
数据
集
说明:全国信息化、数字化建设项目公开信息
数据
。同时,对文本进行了清洗,形成了结构化字段。字段:包括建设单位、项目名称、预
2023-09-03 13:51
应用场景:商业信息
北京中软国际信息技术有限公司
9.3G
电商商品
数据
集
说明:主流电商商品信息
数据
,。同时,实现了商品信息文本的精准结构化,并基于相关
数据
构建知识图谱字段:包括标题、副标题、SK
2023-09-03 13:51
应用场景:商业信息
北京中软国际信息技术有限公司
1.5T
采购合作
数据
集
说明:全国公开的招投标信息
数据
,招投标各阶段的公告文本和附件。同时,实现了公告文本的精准结构化,并基于相关
数据
构建知识图
2023-09-03 13:51
应用场景:商业信息
北京中软国际信息技术有限公司
1.1T
«上一页
1
2
…
3
下一页»
共53条/3页
相关搜索
在
数据提供方
找 数据
在
资讯
找 数据
在
产业范例库
找 数据
在
北京市通用人工智能产业创新伙伴计划
找 数据
您是不是在找?
约42条
数据集
今日排行
53条
1
数据
2条
2
自动驾驶
42条
3
数据集
15条
4
语音
3条
5
电
2条
6
科技
本周排行
53条
1
数据
42条
2
数据集
15条
3
语音
2条
4
科技
2条
5
自动驾驶
23条
6
大模型
3条
7
电
7条
8
医疗
本月排行
53条
1
数据
42条
2
数据集
15条
3
语音
2条
4
科技
2条
5
自动驾驶
23条
6
大模型
3条
7
电
7条
8
医疗
北京人工智能高质量数据集服务平台
创新数据服务,积极推进数据拓展应用
关于我们
・
北京人工智能高质量数据服务平台简介
・
网站法律声明及隐私权政策
联系我们
・留言:
提交反馈/留言
・合作:15911018798
©2020-2023 北京人工智能高质量数据集服务平台 SYSTEM All Rights Reserved
指导单位:
北京市经济和信息化局
北京人工智能产业联盟
运营单位:
北京帕依提提科技有限公司
京ICP备2022014932号-1