企业资讯-海天瑞声

海天瑞声8月热门数据集！

发布时间：2025/08/26

返回列表

海天瑞声本月精选多项热门数据集，涵盖语音识别、语音合成与多模态等核心领域。我们始终以高质量、真实、多元的数据资源，助力模型训练与优化，通过持续扩充与更新的数据供给，为打造更高效、更智能的 AI 系统提供强劲的数据动能。

· 9000 小时中文双工数据集 – 对话语音

· 多语种对话平行语料数据集 – 方言&小语种

· 中文自由对话TTS数据集 – 丰富副语言

· 多语种多风格TTS数据集 – 多情感单人Free Talk

· 百类音效数据集 – 人类、动物、环境、机械

· 多语种多场景OCR数据集

· 海外人像会议视频数据集

· 3D手势数据库

9000小时中文双工数据集

该数据集面向语音识别、语音合成、语音理解及多轮人机交互系统设计，打造真实、高质量的中文普通话双工对话语音资源，适用于各类语音模型训练与评估。

中文普通话双工对话数据集（桌面）

产品特色：数据集包含约 2000 名发音人，总时长约 1000 小时，覆盖不同年龄层，发音人性别平均，麦克风录制，字准率 97% 。

数据内容：涵盖日常闲聊、家庭生活、朋友交流、商务会议场景

产品编号：King-ASR-956-1

中文普通话双工对话数据集（手机）

产品特色：数据集包含 8000 名发音人，总时长约 8000 小时，覆盖不同年龄层，发音人性别平均，手机录制，字准率 97% 。

数据内容：涵盖日常闲聊、AI、新能源场景

产品编号：King-ASR-193

多语种对话平行语料数据集

该数据集可广泛应用于机器翻译、跨语言对话系统、语音识别与合成等场景，帮助提升小语种与方言的识别准确性和翻译流畅度。

粤语 & 闽南语平行语料库

产品特色：语料库涵盖粤语 650 小时、闽南语 110 小时，方言文本均翻译为普通话文本。

数据内容：日常闲聊场景，覆盖真实对话语境

产品编号：King-ASR-880-1、King-ASR-879-1、King-ASR-443-1、King-ASR-854-2

俄语 / 马来语 / 土耳其语 / 墨西哥西语平行语料库

产品特色：语料库涵盖俄语、马来语、土耳其语、墨西哥西语各 100 小时，小语种文本翻译为中文与英文文本。

数据内容：日常对话与闲聊，适配跨语言任务

产品编号：King-ASR-272-1、King-ASR-223-1、King-ASR-660-1、King-ASR-334-1

中文自由对话TTS数据集

该数据集适用于语音合成、语音识别、对话系统等多种 AI 应用，能够提升儿童和老年人语音的识别效果。丰富的发音人、多年龄段语音交互、覆盖自由对话及语气词场景，为模型生成自然流畅、富有表现力的语音提供高质量训练数据。

中文自由对话闲聊合成库

产品特色：由 350 位发音人参与录制，其中包括 60 位儿童、 60 位老人 和 200+ 成年人，总时长约 350 小时，采用两人一组形式录制。

数据内容：日常闲聊对话，真实自然

产品编号：King-TTS-331

中文平均音色合成库 – 自由对话 & 语气词

产品特色：由 750 位成年发音人参与录制，总时长约 1000 小时，采用两人一组的形式录制，每位发音人均单独录制一段长音频，保证语音清晰自然。

数据内容：自由对话与多样语气词，副语言标注包括啧啧声、笑声、咳嗽、叹气等。

产品编号：King-TTS-316

多语种多风格TTS数据集

该数据集可广泛应用于多语种语音合成、语音生成、情感语音交互及多模态 AI 研究。数据集覆盖四种语音风格，多语种与场景组合，为构建自然、灵活、风格多样的语音模型提供高质量训练数据。

产品特色：每个单语种包含 1 男 1 女发音人，每人录制 2 小时涵盖4种风格。同时，每人录制 2 小时多情感自由表达。语音助手采用单句录制，其他风格采用段落式录制，兼顾单句与连续语音，满足多样化训练需求。

数据内容：涵盖4种风格：语音助手、有声书、播客、在线教育；及多情感自由表达，涵盖5种情绪：高兴、生气、伤心、恐惧、共情。

语种覆盖：阿联酋阿拉伯语、沙特阿拉伯语、奥地利德语、瑞士德语、南非英语、澳大利亚英语、加拿大英语、爱尔兰英语、印度英语、希伯来语、比利时荷兰语、新挪威语、吴语（杭州、温州、苏州、宁波、绍兴）。

标注信息：文本 + 情感标注

百类音效数据集

该数据集适用于语音合成、声音场景建模、虚拟环境音效、游戏及影视音效设计等多种应用场景，帮助 AI 系统生成更自然、多样化的音效，提升语音交互的沉浸感与真实感，为多模态和多场景 AI 应用提供高质量训练数据。

产品特色：音效总时长 300 小时，覆盖 4 个一级分类、22 个二级分类、100 个三级分类，囊括人类声音、动物声音、环境音、机械音等全场景音效。

数据内容：

一级分类：人类声音（140h）、环境声音（70h）、动物声音（20h）、机械声音（70h）；

二级分类：如呼吸系统声、心跳声、家养宠物、风声、水声、建筑声音、爆炸声等；

三级分类：如口如打呼噜声、叹息声、打嗝声、蛙叫、溪流声、风声、汽车鸣笛、键盘打字、烟花等。

标注信息：音效类别完整标注，支持多层级检索与训练

产品编号：King-TTS-280

多语种多场景OCR数据集

该数据集覆盖票据、广告牌、菜单、手写体等真实应用场景，支持主流语种高精度文字识别。百万级优质样本，助力企业和研究团队快速提升模型性能，让 OCR 在更多行业场景中表现更智能、更可靠。

产品特色：覆盖约 30+ 国家/地区主流语种，百万级高质量图像样本，场景多元，数据真实、大部分样本附有标注结果，平均准确率可达 97%，可满足多行业实际应用需求。

数据内容：自然场景及文档，例如广告牌、书籍、菜单、收据、名片、店铺名、路牌、车票、景点介绍、证件类等。

语种覆盖：中文、英文、法语、德语、意大利语、日语、韩语、葡萄牙语、俄语、西班牙语、印度语、越南语等。

产品编号：King-OCR-007、King-OCR-009、King-OCR-010

海外人像会议视频数据集

该数据集包含的会议场景多样化，适用于会议场景下的语音识别、跨语种音视频对齐、人脸识别与情绪识别等多模态 AI 应用开发与训练。

产品特色：采集会议场景，全部由手机拍摄，每位采集者采集 3 段视频：一段朗读内容、一段Free Talk、一段静默录像。

数据内容：涵盖室内与室外多种环境，多种语种录制，采集者使用其日常惯用语言进行表达。覆盖白人和黄种人群，均为成年人，性别比例均衡。

产品规模：1500 人，视频分辨率 4k，视频约1min。

产品编号：King-VD-052

3D手势数据库

该数据库可广泛应用于 XR/AR/VR 交互、虚拟人动作捕捉、人机交互、手势识别 AI 模型训练等场景，为构建沉浸式交互体验和多模态 AI 应用提供核心支撑。

产品特色：基于 XR 第一人称视角采集的高质量 3D手部关节点（21点）数据，涵盖静态手势和动态手势两大类，左右手均包含，真实还原自然交互过程，确保手势动作的精准建模与可扩展性。

数据内容：约21类手势，包括 Yes、食指/中指/无名指/小拇指依次竖起、捏合等常见交互手势。

产品规模：100人，覆盖不同手型尺寸

产品编号：King-IM-080

上一篇：海天瑞声携手人形机器人训练中心成立具身智能数据训练场，深度布局具身智能产业下一篇：海天瑞声携手杭州上城区助力具身智能产业加速落地