企业资讯-海天瑞声

企业资讯

李科：跨语言模型训练中文语料不足难题可解，高质量数据源是关键

发布时间：2025/09/25

返回列表

9月23-24日，由凤凰卫视、凤凰网主办的“凤凰湾区财经论坛2025”在广州举行，本届论坛以“新格局·新路径”为主题，汇聚全球政商学界精英，共同洞察变局脉络、探寻发展新机。

李科海天瑞声联合创始人、CEO

海天瑞声联合创始人、CEO李科在参加主题为“人工智能+：新浪潮、新蓝海”的圆桌对话时表示，跨语言模型训练是AI全球化中非常重要的一个难题。对于中文语料较少的问题，他认为主要有两个方面来解决：

第一，大语言模型技术本身能够一定程度上缓解或解决中文语料不足的问题。李科指出，“现在很多大模型都是在用混合语料来进行训练的”，大语言模型技术的本身会在模型底层构建不同语言之间的连接。

第二，要挖掘更多高质量的中文数据来源。李科表示，“我们希望能够跟凤凰卫视开展合作，能够挖掘咱们沉淀的这些数据资产，把这些数据资产补充到我们整个训练语料当中去”。他相信凤凰卫视的数据“非常非常高的质量”，补充这些语料能够提升中文在大语言模型当中的能力。

针对训练语料可能耗尽的观点，李科分享了他的不同思考。他指出，现在人类社会生产数据的速度远远大于之前，“整个数据量本身还是在处于一个高速的增长，或者是一个爆发的过程”。

同时，李科强调数据质量的重要性。他认为互联网上数据的同质化非常严重，需要寻找更多高质量的数据源。他再次以凤凰卫视的数据为例，说明其高质量体现在两个方面：一是制作非常精良；二是数据是知识的载体，“凝聚着咱们凤凰人的智慧”，包括节目想传递给观众的观点，以及整个节目的设计过程。