9月6日,中国工业互联网研究院院长鲁春丛在2025全球工业互联网大会开幕式上发布《工业高质量数据集研究报告》,对工业高质量数据集的理论体系、建设路径、评估体系、流通应用进行总结归纳。
数据作为新型生产要素,是实体经济数智化进程中的基础资源,是培育壮大智能产业的关键驱动力量。我国是工业大国,门类齐全、体系完整、场景丰富,近年来,企业数字化转型进程加速推进,为工业数据的汇聚与应用奠定了良好基础。工业高质量数据集是从研发、生产、供应、销售、服务等全生命周期各环节产生和采集,经过清洗、标注等专业化处理,用于分析、建模、训练的数据集合。加快建设工业高质量数据集,是将我国庞大的数据资源优势和完备的产业体系优势,转化为赋能新型工业化核心竞争力的关键举措。
当前,人工智能对产业变革的赋能正从试验探索迈向实际应用。以工业智能体为例,部分头部工业企业已经在产线质检、车间注塑、工厂运营等环节广泛部署智能体应用,极大提升了生产制造效率,而高质量数据集正是实现这一切的重要前提。可以说,“没有工业数据,就没有工业智能;没有工业高质量数据集,就没有高水平工业智能”。许多智能化改造项目中,数据工程的投入占比高达50%~60%,这说明数据要素报酬递增、低成本复用的特点已成为业界的广泛共识。我们认为,应按照“分类分级、标准引导、集中管理、分布部署”的思路,加快建设工业高质量数据集,为人工智能赋能新型工业化夯实数据根基。
一、工业高质量数据集的理论体系
建设工业高质量数据集,需要一套科学、系统的理论体系作为指引。核心在于把握工业数据集的多元、分级、融合三大特征,推动工业数据在“更广范围”“更深程度”和“更高水平”上实现价值创造。
(一)把握工业数据集的多元特征。工业数据的复杂性与多元化,集中体现在工业行业繁多、业务环节复杂、数据模态多样等方面,要求数据集建设要在“更广范围”上拓展边界。工业门类多元,我国工业门类齐全,涵盖41个工业大类、207个中类、666个小类,不同行业的数据蕴含着独特的工艺机理与知识。数据集建设在深耕本行业专业性的同时,也为跨领域知识迁移与价值创造提供可能。业务环节多元,工业数据贯穿研发设计、生产制造、运维服务等产品全生命周期,并纵向延伸至产业链上下游。数据集建设需要打通过去散落在不同业务系统的“数据孤岛”,实现业务协同。数据模态多元,工业现场存在大量结构化与非结构化、时序与非时序等形态属性交织的原始数据。数据集建设要具备强大的异构数据融合和处理能力,形成贴合场景的高价值数据,构建完整的数字画像,实现深度赋能。
(二)把握工业数据集的分级特征。工业场景存在从“设备、产线、工厂、企业”到“产业生态”的多重层级。不同层级的数据,其融合程度与决策价值各不相同,尤其当数据应用需要打通产业链上下游、实现跨主体协同时,会面临数据共享意愿低、权属不清、信任缺失等现实挑战。这要求数据集建设需遵循分级分类的原则,在“更深程度”上逐级深化。基础层(设备与产线级),从业务执行的最小单元出发,汇聚设备运行、工艺参数等高质量数据,实现故障诊断、能耗优化等局部效率提升,为数字化转型奠定坚实的数据基石。核心层(工厂与企业级),聚合生产计划、成本投入、经营管理等数据,驱动生产调度、资源配置等核心业务流程的系统性优化,提升企业整体运营水平。生态层(产业生态级),通过聚合跨主体、跨领域的数据,赋能供应链柔性与韧性、产品全生命周期绿色低碳、产业风险监测预警等应用,创造生态协同的增量价值。这种分级推进的数据集开发与利用路径,为企业在不同发展阶段深化数据应用、获取数据价值提供了清晰的指引。
(三)把握工业数据集的融合特征。工业数据必须与工业机理、专家知识、先进算法深度融合,才能发挥应用价值。这决定了数据集建设要从单纯的数据积累转向“知识资产”的沉淀,在“更高水平”上融合应用。面向“工业生产控制”,实现实时的工艺优化、闭环控制与异常处置,其所需的数据集具有高频、实时、参数聚焦的特点。这种融合将数据与控制算法结合,使物理设备和生产过程变得更加智能、更具智慧,提升整体运行效率。面向“工业知识传承”,将专家的隐性知识进行显性化、模型化与软件化复用,加速信息技术(IT)、通信技术(CT)、控制技术(OT)和数字技术(DT)的“4T融合”。工业知识所需的数据集呈现出多模态、大跨度、知识密集的特点,不仅包含运行数据,还需融合设计图纸、工艺文件、操作规程、维修记录等非结构文本与图像数据。这种融合将数据与行业知识结合,使组织和个人的经验得以传承和放大。
二、工业高质量数据集的建设路径
中国工业互联网研究院联合行业龙头与“专精特新”企业,在实践中探索出一套从需求规划到应用验证全链条的工业高质量数据集建设方法论,通过系统化工程,将分散无序的原始数据重塑为驱动业务增长的“战略资产”。
一是需求规划。需求规划是数据集建设的首要环节,核心任务是从复杂的业务问题中,精准识别并锚定能产生最大回报的核心价值场景,明确所需的数据类型、来源和规模,以制定出具备前瞻性和可执行性的技术方案。如,某钢铁企业在中厚板生产中,面临传统机理模型预测精度不足(仅84%)、非稳态工况下失准率高(20%)的痛点。通过需求规划,将目标设定为研发“融合冶金知识的自主高精度轧制力预测模型”,提出构建覆盖全工序链的高质量数据集。通过对技术方案和预期效益的综合研判,预计该数据集完成后,可将轧制力预测准确率提升至95%以上,非计划停机率降低3%,板材成材率提升0.2%。
二是数据采集。数据采集是确保数据集质量的源头环节。该环节依据需求规划,运用机器视觉、传感器、工业总线、MES系统等多重手段,系统性地获取“高保真、高信噪比”的原始数据。数据采集的广度、精度和同步性,直接影响后续分析与建模的质量。如,某企业在构建矿山全场景要素数据集时,为破解安全预警滞后的难题,深入350多座煤矿的一线场景进行数据采集。采集范围不仅覆盖了人员、车辆、设备、环境四大要素的57个场景,更特别针对烟雾、黑暗、粉尘等11类极端工况进行了专项采集。
三是数据处理。数据处理是提升数据质量、挖掘数据价值的关键一步,通过清洗、对齐、降噪、归一化等手段,解决工业原始数据普遍存在的缺失、异常、冗余和不一致等问题。如,某风电装备龙头企业在风机叶片上安装了上千个传感器数据点,通过数据清洗、对齐和特征降维等技术手段,解决了原始数据25%缺失、10%异常的问题,并将上千个特征简化至300个核心特征,使数据有效性从70%提升至99%以上,缺陷预测准确率达到97%。
四是数据标注。数据标注是为数据注入“监督信息”和“工业知识”的核心环节,也是构建高精度模型训练标签体系的关键。工业场景的标注任务专业壁垒高,必须深度结合专家知识,建立清晰的标注规范和严格的质检流程。如,某企业对图像进行数据标注时,采用了“预标注—人工校验—模型迭代”的智能辅助标注流程,基于自研智能标注平台先进行预标注,再结合人工交叉复核,精准标注了53个子类目标标签,保证标注一致性波动≤5%,分割掩码误差<2%。
五是数据合成。数据合成与增强是破解工业场景中“关键样本稀缺”这一痛点的重要手段。通过几何变换、生成对抗网络、三维仿真等技术,可在不改变语义标签前提下,低成本、高效率地扩充数据集规模、拓展数据集多样性。如,某汽车发动机缸体、轮毂等零部件表面缺陷数据集,其原始样本图片3000张,缺陷样本仅600张,类别严重不均衡。通过几何变换、颜色变换、噪声添加等数据变换增强技术,并利用生成对抗网络(GAN)来合成1500张高质量缺陷样本图片,提升了稀缺样本数量,使判别器准确率提升至85%。
六是应用验证。应用验证是检验数据集最终价值和驱动数据集持续优化的关键环节。通过模型在真实工业场景中的表现,反向评估数据集的覆盖度、平衡性和泛化能力,识别数据短板,形成“应用—评估—优化—再应用”迭代闭环。如,基于某航空发动机运行状态数据集,利用行业大模型迁移学习来训练关键部件剩余寿命小模型,实验调测准确率92%,但实际装机测试准确率下降至85%。在应用验证环节发现,数据集稀疏样本覆盖度与平衡性存在严重不足,通过对数据进行增强处理、重新标注和训练验证,模型准确率稳定提升至98%,误报率降低70%。
三、工业高质量数据集的评估体系
工业高质量数据集的评估不能照搬通用标准,中国工业互联网研究院紧密围绕工业场景的独特性,结合实际场景实践经验,提出七大核心指标。
规范性:指数据集符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度,包括数据集的格式、标注、单位和元数据的规范性等方面。特别是在化工、核电、航空航天等领域,存在高温、高压或易燃易爆等场景,数据规范性直接决定“产线是否正常运行、风险是否及时预警”,任何偏差都可能引发爆炸、泄漏、设备损毁等重大安全事故。
完整性:指数据集按照建设规则要求,应采集的数据元素被有效获取和记录的程度,包括特征完整性、分布完整性、标注完整性、文档完整性与样本数据充足性等方面。例如,在压缩机预测性维护场景中,一个同时覆盖振动、温度、电流、转速等多维参数,并囊括启停、满负荷、部分负荷等所有工况的数据集,才能训练出具备较强泛化能力的模型。
准确性:指数据集包含的信息真实、精确地反映其所描述的物理实体或实际状态的程度,包括数据集的内容、精度、误差、标注信息、文档描述等方面。基于工业设备的运行参数数据集、生产过程中的工艺指标数据集所形成的机理模型,会因数据的微小偏差导致预测失准,进而对产品质量、生产安全产生决定性影响。
一致性:指数据集内部及与其他数据源之间的统一程度,包括数据单位与格式的一致性,数据集样本分布与真实世界数据分布的一致性,不同样本间数据标注基准的一致性等方面。若不同标注人员对相同类型产品缺陷的判定标准不一致,将导致标签歧义,影响模型训练的稳定性与预测精度。
时效性:指数据集能够反映当前或指定时间窗口内的真实状态程度,包括是否涵盖所需的时效区间、是否包含过时信息等方面。在预测风机发电量时,十年前的环境数据与当前相比已出现明显差异,使用过时数据构建模型可能导致预测结果与实际不符。
专业性:指数据集涵盖的信息内容和工业场景的匹配程度,包括知识的专业性、业务流程的适配性、工业机理的关联性等方面。例如,在晶圆缺陷识别场景中,若数据集仅标注缺陷图像的表面特征,而未关联对应的工艺环节、工序类型,模型则难以区分光刻工序的“边缘划伤”与刻蚀工序的“侧壁损伤”,导致缺陷识别准确率低,且无法支撑根因分析与工艺优化。
均衡性:指数据集中各类别样本和数据来源分布的合理性、均匀性,包括数据类别均衡性和数据来源均衡性等方面。例如,在钢铁表面质量检测中,若数据集以大量无缺陷或常见划痕样本为主,“裂纹”“夹杂”等关键缺陷样本数量过少,模型在训练后将难以有效识别高风险缺陷,影响产品质量控制和产线安全。
四、工业高质量数据集的流通应用
工业高质量数据集的最终价值必须通过流通与应用得以实现。中国工业互联网研究院正在推进构建从数据登记、可信流通到应用服务的业务闭环,破解工业数据共享难题,培育多方共赢的数据服务生态。
(一)构建工业可信数据空间。依托国家工业互联网大数据中心,构建工业可信数据空间,促进工业高质量数据集的有序流通、安全共享与高效利用。一是技术赋能可信流通。基于隐私计算、安全沙箱、身份可信认证、数据使用控制及全链路追溯等核心技术,构建“数据集可用不可见、用途可控可追溯”的信任机制,打通数据集供给方、需求方及服务方协同链路,在“数据集物理不出域”前提下,通过“可用不可见”模式满足多主体的数据集使用需求,实现数据集主权不转移、价值可流转。二是构建三级联动架构。通过“国家—产业集群—企业”三级互联部署架构,形成规模化覆盖、层级化运营的可信数据空间管理体系。企业层面,通过链接生产制造、设备运维等数据源头,利用数据采集、清洗及标注等技术手段,构建高质量“数据集原材料”;产业集群层面,聚焦先进制造业产业集群,通过数据可信流通与协作,整合优化企业级数据集,形成具备产业特色或行业共性的数据集;国家层面,构建全国工业高质量数据集目录体系,实现数据集资源的有序整合与优化配置。三是促进数据集供需匹配。支撑设备、产线、生态等全层级工业高质量数据集产品的注册、审核、上架及安全可信共享,通过需求侧画像与供给侧标签的精准匹配,满足不同层级工业模型对数据集的差异化需求,推动数据集价值从单点应用向全局赋能延伸。
(二)开展数据确权登记。厘清企业数据底数、明确权属关系,是推动工业数据流通与应用的首要环节。通过建立“国家—产业集群—企业”三级工业数据登记体系,帮助企业梳理数据并完成登记,积累工业数据目录,提升工业数据供给能力。一是企业级,帮助企业梳理数据资产。企业通过部署轻量化登记工具,能够在数据不出企业数据库的前提下,生成标准化数据目录,并获得登记证书;二是集群级,绘制产业数据资源地图。产业集群、园区或地方政府聚合其辖区内企业数据目录,形成区域性的数据资源地图;三是国家级,汇聚企业和集群数据目录,构建覆盖全国的工业数据资源地图。以纺织行业为例,企业在本地部署可信登记软件,自主选择织机运行参数、原材料消耗、库存等数据进行登记,相关信息上传至确权平台。平台审核通过后,为企业颁发登记证书。不同区域的纺织企业数据登记不断积累,将最终形成全国纺织行业数据目录。截至2025年8月,中国工业互联网研究院工业数据资产登记平台已在苏州、北京、沈阳等地试点,累计注册企业2200余家,发放登记证书超1700张,为高质量数据集建设提供了有效支撑。
(三)推进工业数据应用。基于工业高质量数据集的应用探索正加速演进,逐渐形成三类商业化服务模式:一是工业场景训练语料服务。数据服务商通过平台化订阅或私有化定制,向模型厂商提供精加工的工业场景数据集,提升其模型在细分领域的专业精度。如,某数据服务商为头部模型厂商提供的定制化工业语料服务,单个项目金额可达近千万元,体现了高质量工业语料作为“AI燃料”的巨大商业价值。二是AI一体机定制化服务。数据服务商结合数据集、模型、算力以一体机部署方式为工业应用企业提供安全、高性价比的智能服务。如,某龙头企业打造的工业AI一体机,极大降低了AI技术在工业现场的应用门槛,实现了数千万元的产品服务收入。三是数据处理工具应用服务。数据服务商以云化API或定制化服务等方式为人工智能应用企业提供数据“采、洗、标、测、用”等一站式数据处理服务。如某企业自研的数据标注平台,最高可提升6倍标注效率,平均降低数据处理40%成本。随着高质量数据集与人工智能在各垂直细分行业的深入应用,将催生出更多高效、自适应、智能的工业数据应用新模式,加速产业智能化转型升级。
中国工业互联网研究院将聚焦工业高质量数据集的建设与应用,在技术研发、设施布局、标准研制、应用推广和生态培育等方面持续发力。辽宁是我国工业的摇篮和重要基地,中国工业互联网研究院将在辽宁率先试点,依托辽宁四大先进制造业集群,加速推动工业高质量数据集的规模化供给与高水平应用,加快推进人工智能赋能新型工业化。