中国MRO支撑平台技术社区

知道大数据，却不清楚工业大数据，知识架构“欠”在哪里？（1）

知道大数据，却不清楚工业大数据，

知识架构“欠”在哪里？（一）

（2019年9月16日）

我国的工业互联网发展正在从概念的普及进入实践的生根阶段，在这一进程中，数据成为重要的基础性战略资源。大数据的充分挖掘和利用，极大促进了全社会要素资源的网络化共享、集约化整合、协作化开发、高效化利用，推动了中国工业发生重大而深刻的变革，一个全新的大数据时代正在向我们大踏步地走来。

一、工业数据量激增背景下的数据处理

目前，大数据正处于融合发展和变革创新的重要关口：工业数据量激增，互联网、移动互联网、物联网三大生态顺次发展，使得全球数据总量爆发性增长。到 2020 年，数据总量将达到 44ZB（万亿 GB），其中工业数据增速将是其它大数据领域的两倍；软件、网络、装备等各领域间技术频繁发生跨界耦合交融，依托数据的整合作用，推动产品与服务、硬件与软件、应用与平台趋向交融；全球产业格局面临重塑，传统大数据 IT 企业、自动化企业、制造企业正在成为工业大数据这一新兴领域的领导力量，以融合性技术创新和新兴产业生态体系为标志的产业新格局正在形成中。

工业大数据从来源上主要分为信息管理系统数据、机器设备数据和外部数据。信息管理系统数据是指传统工业自动控制与信息系统中产生的数据，如 CRM、ERP、MES 等。机器设备数据是来源于工业生产线设备、机器、产品等方面的数据，多由传感器、设备仪器仪表进行采集产生。外部数据是指来源于工厂外部的数据，主要包括来自互联网的市场、环境、客户、政府、供应链等外部环境的信息和数据。

工业大数据的实践落地高度依赖行业经验与人工智能等数据科学的融合，通过将行业知识、经验固化到软件中，实现对工业场景中面临的不确定性实现更加有效地管理，形成数据驱动、快速迭代、持续优化的工业智能系统。

二、工业智能技术实现的关键步骤

在 2015 年通用电气（General Electric）推出 GE Digital 时，GE Digital 的 CTO Harel Kodesh 就提出过：工业数据不准确、工业智能对风险控制和响应能力的高要求、终端处理能力的限制、复杂模型必须被解释等导致了在数据、算法和模型训练上工业智能所要开辟的一些「新领域」。

天泽智云首席架构师朱武曾在 InfoQ 刊发过的文章《海阔凭鱼跃：记一场工业场景下的 AI 技术实践》采访中提到，工业数据的多源性、复杂性和动态性强，比如柴油机气缸排气温度，取决于燃油、燃烧、进气温度、封闭性等等原因，导致工业智能背后数据特征提取、建模等层面的技术挑战。因此，特征提取要求在高背景噪声下必须实现准确且快速的降维。另外，在数据建模及训练层面，工业应用的碎片化、个性化以及结果的专业性，需要建模及训练在整体和个体、通用性和个性化之间取得均衡。

（未完待续）

摘编自微信公众号孟靖 InfoQ