日前,作为国内AI数据资源领域登陆科创板的代表企业,海天瑞声的一款由400+个数据集构成的大规模语音数据产品——“海天智源”登陆上海数交所挂牌交易。
海天瑞声副总经理/首席语言学家郝玉峰博士受邀做客上海数据交易所D25演播室。他表示,近些年随着AI技术发展,AI技术的应用落地层出不穷,其中语音作为最直接的沟通方式,应用场景也最广泛。此次挂牌数据产品,主要用于语音识别/合成技术与产品研发,帮助客户快速实现模型训练/测试、产品开发/验证与上线。
这款产品具有四大亮点:
A. 语言丰富:包含100多个语种及方言,不仅包含常见语言的语音数据,还包括大量的小语种和方言语音;
B. 规模大:包括数据采集场景多、采集设备种类多、人群分布广,语音时长累计约10万小时;
C. 内容丰富:数据内容和标注丰富,制作规范,标准化程度高;
D. 数据安全:内控严格,安全使用。
谈及此次挂牌数据产品对场景应用、行业发展将有哪些积极的推动作用,郝博士表示,一方面是智能语音赋能:利用数据集,可以快速地进行ASR/TTS模型训练、产品研发与应用落地,为产品增加智能语音交互功能,让产品能听会说,从而大大提升产品的易用性和友好度;另一方面,多语种拓展便于产品出海:数据集中包含有100多个语种及方言,例如一带一路沿线的20多个国家和语言(波兰语、阿拉伯语、土耳其语、印度印地语等),因此对于AI产品的出海有着积极的支撑和推动作用。
海天瑞声是国内最早从事AI训练数据的专业服务商之一,近年来已成为具有国际竞争力、领先性的标杆企业,核心技术自主创新能力不断得到行业主管部门的高度认可,先后获得“国家重点软件企业”、国家专精特新“小巨人”企业等荣誉,充分彰显了公司在基础数据服务行业的创新实力与影响力。海天瑞声于2021年在上海证券交易所科创板上市,成为国内AI数据资源领域登陆科创板的代表企业。此外,公司于2022年上半年成功入选中国国际大数据产业博览会 “十佳大数据案例”,同时成功入选国家工业和信息化部2022年大数据产业发展试点示范项目,充分展示出公司在数据技术自主创新和融合应用上的最佳实践。
“上海数据交易所是推动数据要素流通、释放数字红利、促进数字经济发展的重要举措,开创了数据交易的先河。”郝博士表示,我们期望能发挥海天瑞声的优势,与上海数据交易所和诸位数商同仁,一同构建繁荣的数据要素市场生态,催生数据要素市场的新业态、新模式,释放数据要素价值,推动数字经济高质量发展。