多模态数据集
返回数据集
技术领域
数据格式
视频
文本,图像
文本,视频
WAV,TextGrid,mp4
语言选择
全部
印尼语
美式英语
应用场景
IT互联网
智能搜索
智能驾驶
社交软件
教育科研
智能家居
智能安防
智慧金融
智慧城市
物联网
King-ASR-863-2
多模态模型被认为是目前提高人工智能系统能力的最佳途径之一,而本产品库采用最新采集形式,同时采集录制美式英语native发音人的多人对话的音频和视频数据,共计约85小时的有效对话数据,音频和视频数据采集结果会进行对齐处理,误差在30毫秒以内。在稀缺资源语种的基础上具有非常高的信息丰富度,可提供更加全面的信息输入从而高效提升系统的表现和效率。
产品库编号
产品名称
美国英语多模态语音视频数据集
录音语种
录音时长
85
产品规模
120条音频、120条转写文本、120条视频
产品推荐
单人的高清特写高质量数据集(普通动作)
单人的高清特写高质量数据集(复杂动作)
双人动作高质量数据集(普通动作)
双人动作高质量数据集(复杂动作)
多人素材高质量数据集
人物面部高清特写和人物表情高质量数据集
乐器演奏视频高质量数据集
人物对话语音数据集
您想了解更多产品信息吗?请咨询我们
请先登录
选择分享平台
微信
企业微信
钉钉
微博
分享链接已复制到您的剪切板,您可以把链接分享给好友
分享到微信朋友圈
打开微信,点击底部的"发现"
使用“扫一扫”即可将网页分享至朋友圈。