多模态数据集-海天瑞声

分类筛选

技术领域

语音识别语音合成自然语言处理计算机视觉词典

数据格式

JPG，分辨率（1920×1080）及以上

mp4，544*960、720*1280、1080*1920等多分辨率，每段约1min

文本

视频

文本，图像

文本，视频

WAV，TextGrid，mp4

语言选择

全部

TA-IN泰米尔语(印度)

BN-IN孟加拉语(印度)

SW-TZ斯瓦希里语(坦桑尼亚)

SO-SO索马里语(索马里)

DA-DK丹麦语(丹麦)

NB-NO挪威语(挪威)

AR-MSA 现代标准阿拉伯语

PL-PL波兰语(波兰)

SV-SE瑞典语(瑞典)

NL-NL荷兰语(荷兰)

HI-IN印地语(印度)

RO-RO罗马尼亚语(罗马尼亚)

TL-PH塔加洛语(菲律宾)

TR-TR土耳其语(土耳其)

VI-VN越南语(越南)

RU-RU俄语(俄国)

KO-KR韩语(韩国)

CT-HK粤语(中国香港)

印尼语

美式英语

应用场景

IT互联网，智能搜索，智能驾驶，社交软件，教育科研，智能家居，智能安防，智慧金融，智慧城市，物联网，全行业

IT互联网

智能搜索

智能驾驶

社交软件

教育科研

智能家居

智能安防

智慧金融

智慧城市

物联网

搜索

美国英语多模态语音视频数据集

King-ASR-863-2

购买咨询

产品描述产品规格产品样例

多模态模型被认为是目前提高人工智能系统能力的最佳途径之一，而本产品库采用最新采集形式，同时采集录制美式英语native发音人的多人对话的音频和视频数据，共计约85小时的有效对话数据，音频和视频数据采集结果会进行对齐处理，误差在30毫秒以内。在稀缺资源语种的基础上具有非常高的信息丰富度，可提供更加全面的信息输入从而高效提升系统的表现和效率。

产品规格

购买咨询

产品库编号

King-ASR-863-2

产品名称

美国英语多模态语音视频数据集

录音语种

美式英语

录音时长

产品规模

120条音频、120条转写文本、120条视频

产品样例

更多样例咨询

您想了解更多产品信息吗？请咨询我们

购买咨询

请先登录

分享链接已复制到您的剪切板,您可以把链接分享给好友

分享到微信朋友圈

打开微信，点击底部的"发现"

使用“扫一扫”即可将网页分享至朋友圈。