王建民:工业大数据技术综述(6)
王建民:工业大数据技术综述(六)
(2018年12月2日)
7、工业大数据软件架构
图8是基于数据库视角的大数据系统软件技术架构,涉及物联网、数据库、数据处理、流处理、数据分析、批处理和机器学习等技术。关系数据库存放的是结构化的关系数据,是企业信息化支撑技术,数据库是先有模式后有数据,即先定义数据库表,然后才能插入数据;与数据库不同,互联网、物联网等产生的大多是非结构化数据,这些数据往往是设备产生的,先有数据,后有模式。
图8 基于数据库视角的大数据系统软件技术架构
在工业的ERP、PLM、SCM、CRM等系统中,20%的“SQL小数据”具有80%的价值密度,而物联网或互联网中,80%的“非结构化大数据”密度只有20%的价值密度,甚至更低。因此,工业数据中20%的工业“小数据”需要“引爆”80%的工业“大数据”的价值。工业大数据应用本质上就是要综合利用结构化数据和非结构化数据,从中提炼出隐含的模式,形成知识,从而使工业制造和服务更加智能化。
工业大数据更关注数据源的“完整性”,而不仅仅是数据的规模,因此对数据管理有较高要求。工业大数据应用需要实现数据在物理信息、产业链、跨界3个层次的融合。由于“信息孤岛”的存在,这些数据源通常是离散和非同步的,这与其他领域大数据集成具有明显差异,因此不仅需要从数据模型,更需要从制造过程、层次化物料表(bill of material,BOM)结构、运行环境等多类型工业语义层面对工业大数据进行一体化整合管理,其中BOM是产品全生命周期数据集成的关键手段。
工业大数据生命周期包括采集、管理、处理、分析和应用5个环节。工业大数据处理是一个数据集到另一个数据集的“物理”过程。工业大数据分析就是要利用机器学习、深度网络等人工智能算法,从训练数据集里学习未知的模型,这个模型就是一个基于数据集(X,Y),求Y=F(X)计算式中F函数的过程。简而言之,工业大数据分析是从训练数据集到模型的“化学”过程。
工业大数据应用在工业互联网中的应用可分为4个层次:监视、控制、优化、自主。监视就是要能远程实时监测装备的运行状态;控制就是要实现操作者对机器的远程遥控,让机器能够执行操作者远程下达的操作指令;优化就是要基于海量工业大数据发现知识,提供在线运行调度、健康检测、故障诊断预警等装备在线运维服务;自主就是要实现装备的自主决策和装备集群的自主协同,通过“机器换人”实现生产运维的少人化和无人化。
(未完待续)
王建民(1968?),男,博士,教授、博士生导师、清华大学信息科学技术学院(一级院系)副院长,清华大学软件学院院长,数据科学研究院副院长、管理委员会副主任,大数据系统软件国家工程实验室执行主任,工业大数据系统与应用北京市重点实验室主任。主要研究方向为大数据系统软件、工业大数据、产品全生命周期管理、业务过程管理等。
(摘编自 公共微信号 BDR 大数据期刊)