近日,“第十届华为全联接大会2025”在上海召开。期间,城市数据基础设施建设圆桌论坛上,首都信息数据总监崔晓峰与论坛嘉宾围绕数据要素领域“打破数据孤岛,释放数据价值”的主题,就“城市数据基础设施”这一核心议题展开专题讨论,聚焦促进数据“供得出、流得动、用得好、保安全”,深入分析构建高质量数据集对解决人工智能面对的挑战,促进数据要素高效流通,推动智慧城市发展的重要作用,分享首都信息在数据要素领域的探索与创新实践。
谈及人工智能,数据是关键所在。崔晓峰指出,人工智能的“粮食”就是数据。当前,业界的目光聚焦于算力的狂飙和大模型的强大,但践行者已经意识到,再智能的模型,如果“吃”进去的是质量不高的数据,那“吐”出来的也不会是“精华”。
高质量数据集的建设,质量比数量更为重要。崔晓峰表示,这将是贯穿“设计、治理、质检、运营” 全生命周期的系统工程,是AI模型成功的基石,其价值要远高于模型本身。首先,数据质量决定模型天花板。一个算法模型的上限,在它看到数据的那一刻已经决定。就好比,有偏差、有噪声的低质数据就像糟糕的老师,会把聪明的学生教偏。而通过改进和优化数据的质量、多样性和代表性,可以显著提高模型的性能和鲁棒性,而不是仅依赖于模型架构的复杂性和计算资源的投入。
第二,着力建设高质量数据集是贯穿“设计、治理、质检、运营”全生命周期的系统工程。过去片段式建设数据集,局限于阶段性发挥作用,难以长久持续生效。而高质量数据集的建设是一项系统工程,它需要从源头明确定义任务边界和数据标准,需要在采集环节设计严谨的流程,以保证代表性和公平性,并在标注环节建立科学的质检体系,以确保一致性。
第三,推进人机协同和持续迭代。数据的标注和理解,通常深度依赖人类的先验知识和判断。这个过程本质上是将人类的智慧与认知,“注入”到冰冷的数据中,使其变得有温度、有意义。从这个意义上说,高质量数据集是人类智能与机器智能之间的关键桥梁。通过量化评估奠定技术基础,动态机制实现过程把控,持续优化闭环推动迭代升级,三者协同之下,将有力推进构建起严密的数据质量保障体系。
高质量的数据集一旦建成,将是一份永久传承和增值的宝贵资产。那么,如何建设高质量数据集?近年来,首都信息积极探索,在加速推动高质量数据集应用于各行业的建设,积累了多方面行动经验。首先,树立“以数据为中心”的思维。在启动AI项目时,将主要精力投入到数据策略思考,工作重心放在数据的质量、多样性和代表性上,通过改进和优化数据,提高模型的性能和鲁棒性。其次,拥抱开放协作与标准化的理念。鼓励建设更多开放、高质量的基础数据集,推动数据格式、标注规范的标准化,降低整个行业的重复建设成本,让研究者们能够站在更高的起点上创新。
近年来,在发展战略的推动下,首都信息自主研发的红磐数据平台践行“数据工程”,提供了统一的标准、元数据、调度、访问控制和数据血缘管理,驱动数据集系统化规划和建设,持续关注数据的获取、存储、处理、分析等全生命周期管理,系统化思考行业高质量数据集建设,着力破解建设过程中的数据质量问题和数据持续可用性问题。伴随这一演进,红磐数据平台把高质量数据集的建设持续“内生化”。在人工智能时代,高质量数据集往往是决定大模型质量的关键因素,不仅是构筑数据和AI的重要基础,更是构筑智能未来的数字基石,而红磐数据平台在这一专业领域,势将发挥愈加重要的角色作用。