企业资讯

首页 关于我们

企业资讯

海天瑞声8月热门数据集!
发布时间:2025/08/26
返回列表

海天瑞声本月精选多项热门数据集,涵盖语音识别、语音合成与多模态等核心领域。我们始终以高质量、真实、多元的数据资源,助力模型训练与优化,通过持续扩充与更新的数据供给,为打造更高效、更智能的 AI 系统提供强劲的数据动能。

 

· 9000 小时中文双工数据集 – 对话语音

· 多语种对话平行语料数据集 – 方言&小语种

· 中文自由对话TTS数据集 – 丰富副语言

· 多语种多风格TTS数据集 – 多情感单人Free Talk

· 百类音效数据集 – 人类、动物、环境、机械

· 多语种多场景OCR数据集

· 海外人像会议视频数据集

· 3D手势数据库

 

9000小时中文双工数据集

该数据集面向语音识别、语音合成、语音理解及多轮人机交互系统设计,打造真实、高质量的中文普通话双工对话语音资源,适用于各类语音模型训练与评估。


 

中文普通话双工对话数据集(桌面)

产品特色:数据集包含约 2000 名发音人,总时长约 1000 小时,覆盖不同年龄层,发音人性别平均,麦克风录制,字准率 97% 

数据内容:涵盖日常闲聊、家庭生活、朋友交流、商务会议场景

产品编号:King-ASR-956-1


 

中文普通话双工对话数据集(手机)

产品特色:数据集包含 8000 名发音人,总时长约 8000 小时,覆盖不同年龄层,发音人性别平均,手机录制,字准率 97% 

数据内容:涵盖日常闲聊、AI、新能源场景

产品编号:King-ASR-193

 

 

多语种对话平行语料数据集

该数据集可广泛应用于机器翻译、跨语言对话系统、语音识别与合成等场景,帮助提升小语种与方言的识别准确性和翻译流畅度。


 

粤语 & 闽南语平行语料库

产品特色:语料库涵盖粤语 650 小时闽南语 110 小时,方言文本均翻译为普通话文本。

数据内容:日常闲聊场景,覆盖真实对话语境

产品编号:King-ASR-880-1、King-ASR-879-1、King-ASR-443-1、King-ASR-854-2


 

俄语 / 马来语 / 土耳其语 / 墨西哥西语平行语料库

产品特色:语料库涵盖俄语、马来语、土耳其语、墨西哥西语各 100 小时,小语种文本翻译为中文与英文文本。

数据内容:日常对话与闲聊,适配跨语言任务

产品编号:King-ASR-272-1、King-ASR-223-1、King-ASR-660-1、King-ASR-334-1

 

中文自由对话TTS数据集

该数据集适用于语音合成、语音识别、对话系统等多种 AI 应用,能够提升儿童和老年人语音的识别效果。丰富的发音人、多年龄段语音交互、覆盖自由对话及语气词场景,为模型生成自然流畅、富有表现力的语音提供高质量训练数据。


 

中文自由对话闲聊合成库

产品特色:由 350 发音人参与录制,其中包括 60 位儿童、 60 位老人 和 200+ 成年人,总时长约 350 小时,采用两人一组形式录制。

数据内容:日常闲聊对话,真实自然

产品编号:King-TTS-331


 

中文平均音色合成库 – 自由对话 & 语气词

产品特色:由 750 位成年发音人参与录制,总时长约 1000 小时,采用两人一组的形式录制,每位发音人均单独录制一段长音频,保证语音清晰自然。

数据内容:自由对话与多样语气词,副语言标注包括啧啧声、笑声、咳嗽、叹气等。

产品编号:King-TTS-316


 

多语种多风格TTS数据集

该数据集可广泛应用于多语种语音合成、语音生成、情感语音交互及多模态 AI 研究。数据集覆盖四种语音风格,多语种与场景组合,为构建自然、灵活、风格多样的语音模型提供高质量训练数据。


 

产品特色:每个单语种包含 1 男 1 女发音人每人录制 2 小时涵盖4种风格。同时,每人录制 2 小时多情感自由表达。语音助手采用单句录制,其他风格采用段落式录制,兼顾单句与连续语音,满足多样化训练需求。

数据内容:涵盖4种风格:语音助手、有声书、播客、在线教育;及多情感自由表达,涵盖5种情绪:高兴、生气、伤心、恐惧、共情。

语种覆盖:阿联酋阿拉伯语、沙特阿拉伯语、奥地利德语、瑞士德语、南非英语、澳大利亚英语、加拿大英语、爱尔兰英语、印度英语、希伯来语、比利时荷兰语、新挪威语、吴语(杭州、温州、苏州、宁波、绍兴)。

标注信息:文本 + 情感标注


 

百类音效数据集

该数据集适用于语音合成、声音场景建模、虚拟环境音效、游戏及影视音效设计等多种应用场景,帮助 AI 系统生成更自然、多样化的音效,提升语音交互的沉浸感与真实感,为多模态和多场景 AI 应用提供高质量训练数据。

产品特色:音效总时长 300 小时,覆盖 4 个一级分类22 个二级分类100 个三级分类,囊括人类声音、动物声音、环境音、机械音等全场景音效。

数据内容

一级分类:人类声音(140h)、环境声音(70h)、动物声音(20h)、机械声音(70h);

二级分类:如呼吸系统声、心跳声、家养宠物、风声、水声、建筑声音、爆炸声等;

三级分类:如口如打呼噜声、叹息声、打嗝声、蛙叫、溪流声、风声、汽车鸣笛、键盘打字、烟花等。

标注信息:音效类别完整标注,支持多层级检索与训练

产品编号:King-TTS-280


 

多语种多场景OCR数据集

该数据集覆盖票据、广告牌、菜单、手写体等真实应用场景,支持主流语种高精度文字识别。百万级优质样本,助力企业和研究团队快速提升模型性能,让 OCR 在更多行业场景中表现更智能、更可靠。


产品特色:覆盖约 30+ 国家/地区主流语种,百万级高质量图像样本,场景多元,数据真实、大部分样本附有标注结果,平均准确率可达 97%,可满足多行业实际应用需求。

数据内容:自然场景及文档,例如广告牌、书籍、菜单、收据、名片、店铺名、路牌、车票、景点介绍、证件类等。

语种覆盖:中文、英文、法语、德语、意大利语、日语、韩语、葡萄牙语、俄语、西班牙语、印度语、越南语等。

产品编号:King-OCR-007、King-OCR-009、King-OCR-010

 

 

海外人像会议视频数据集

该数据集包含的会议场景多样化,适用于会议场景下的语音识别、跨语种音视频对齐、人脸识别与情绪识别等多模态 AI 应用开发与训练。


产品特色:采集会议场景,全部由手机拍摄,每位采集者采集 3 段视频:一段朗读内容、一段Free Talk、一段静默录像。

数据内容:涵盖室内与室外多种环境,多种语种录制,采集者使用其日常惯用语言进行表达。覆盖白人和黄种人群,均为成年人,性别比例均衡。

产品规模:1500 人,视频分辨率 4k视频约1min

产品编号King-VD-052


 

3D手势数据库

该数据库可广泛应用于 XR/AR/VR 交互、虚拟人动作捕捉、人机交互、手势识别 AI 模型训练等场景,为构建沉浸式交互体验和多模态 AI 应用提供核心支撑。

 

产品特色:基于 XR 第一人称视角采集的高质量 3D手部关节点(21点)数据,涵盖静态手势和动态手势两大类,左右手均包含,真实还原自然交互过程,确保手势动作的精准建模与可扩展性。

数据内容:约21类手势,包括 Yes、食指/中指/无名指/小拇指依次竖起、捏合等常见交互手势。

产品规模:100人,覆盖不同手型尺寸

产品编号King-IM-080

分享到微信朋友圈

打开微信,点击底部的"发现"

使用“扫一扫”即可将网页分享至朋友圈。