开源数据集
助力AI开放生态构建
本届中关村论坛的主题是“开放合作·共享未来”。开放生态是全球人工智能发展的大势所趋,尤其是AI算法的优化和模型的训练需要足够优质和丰富的数据集支持,因此共享数据集就成为AI开放生态系统中非常关键的一环,对行业的推动作用也变得至关重要。在此背景下,海天瑞声在本次大会上宣布开放共享数据集就更显得意义重大。
海天瑞声CEO王晓东表示,作为AI数据行业里首家上市公司,海天瑞声天然肩负着开源开放、推进数据资源整合共享的社会责任。开源数据集可以帮助各领域的研究者和开发者快速获得更多高质数据样本,进而提高模型的精准度和鲁棒性,帮助他们更好地进行算法研究和模型训练。此次即将开源的多模态数据集「DOTS-MM-0526」涵盖图像、语音、文本等多个维度。海天瑞声希冀与全球AI开发者和研究人员建立更加紧密的合作关系,共同推动人工智能技术的发展和应用。同时,开源数据集计划亦是公司对于AI开放生态的一次有益尝试,是公司在数据智能化应用领域持续发力的体现。
去年年底以来,ChatGPT、GPT-4等大模型接二连三地发布,让我们加速走进了大模型时代,并真切地感受到了其与日俱增的能力。众所周知,大模型也需要进行训练,那么在此过程中与数据相关的工作,与此前有什么不同呢?
对此,海天瑞声CTO黄宇凯认为,从大方向上来看并没有什么不同,还是需要先提出数据方案,然后进行设计,再执行采集、标注等一系列的工作流程,最终目标也是让客户能够基于所提供的数据,训练出效果良好的模型。
其中,不一样的地方在于,不同企业关注的侧重点不同。比如,大模型主要分为预训练和强化学习两个阶段,这两个阶段对数据都有很高的要求。就前者而言,虽然大模型对应的是大数据,但却并不是数据越多越好,还要执行数据清洗的步骤。数据公司必须掌握如何清洗、向哪个方向清洗,才能更好地应用于大模型的基础能力。对于后者来说,进行强化学习需要撰写对应的提示词,这对数据标注人员的逻辑思维能力和表达能力也有较高的要求。
对于一家数据公司来说,数据安全与合规是其底线,也是立身之本。因此,海天瑞声组建了专门的团队,对欧盟颁布的《通用数据保护条例》、我国颁布的《数据安全法》和《个人信息法》等法规法规进行了深刻的研究,并制定了高于国家法律的数据合规要求。具体来说,其在整个公司层面上,要求所有成员在严格遵循当地法律法规的基础之上,开展包括数据采集、标注等在内的具体工作。