2016年国际PHM数据竞赛总结(2)
清华大学软件学院参赛团队
2016年国际PHM数据竞赛总结(二)
(2016年10月14日)
三、 解决方案
我们首先基于物理模型对原始数据进行数据画像与分析,基于观察结果抽取特征,同时尝试例如聚类分析、K近邻、决策树和神经网络等机器学习建模方法,最终选择基于遗传算法的随机森林作为预测模型。
1. 基于物理模型的数据分析和特征提取
在进行数据预处理与建模前,需要深入了解数据背后的物理含义。因此,我们与清华大学机械工程系摩擦学研究所进行合作,通过现场参观调研,阅读CMP模型文献,熟悉CMP系统的工作原理,并结合数据画像的结果,推测比赛CMP系统结构及数据采集方式。抛光头结构推测如图2所示。
图3 抛光头结构推测
同时,通过对原始数据进行聚类分析和数据可视化,发现如下重要规律:
1) 抛光过程按照舱室组合可分为两类:Chamber1-2-3和Chamber 4-5-6,两类在去除率存在明显差异,一类在150左右,一类50-100之间,因此推测存在粗抛和精抛两种类型的抛光过程。
2) 通过观察压力、磨料、舱室等三种状态监测数据,结合物理模型,可以将单个抛光过程划分为四个阶段:准备阶段、主抛光阶段、收尾阶段和后清洗阶段。各阶段对去除率影响不同,其中主抛光阶段对去除率起决定性作用。
3) 通过对多个抛光过程画像分析,发现在2829个抛光过程中存在1267个连续抛光过程,这些连续抛光过程有两个重要特点:(1)同一连续抛光过程中,加工模式设定一致,设备健康状态(如:抛光垫和修整器)近似,去除率相近;(2)同一连续抛光过程中,初始抛光过程的去除率相对较高。推测其物理机理是,连续抛光过程开始前,设备刚经历过离线修整,抛光垫性能状态最佳,因此去除率提高。
基于数据画像和分析的结果,我们针对两类抛光过程进行特征提取。对第一类抛光过程,共提取48种特征,针对第二类抛光过程,由于状态监测数据存在大范围缺失,因此只提取了12种特征。提取方法包括两类,直接提取与二次提取,其中直接提取包括对压力、转速和磨料提取统计值(如平均值、中位数),使用设备消耗量的初始值评估设备健康状态;二次提取包括计算有效抛光时间、划分连续抛光过程等。
2. 模型构建
基于特征提取结果,我们采用机器学习技术构建预测模型,从而实现对抛光过程去除率的预测。
由于测试数据去除率未知,每周提交一次的评估次数有限,因此我们按照测试数据的分布规律从训练数据中随机采样,形成去除率已知的自测集。基于自测集评估模型,最开始我们尝试了决策树、神经网络和相似性聚类三种单一模型,其中神经网络效果最好,因此对其进行结构优化与参数调整。与此同时,又尝试了K近邻和支持向量机等方法,但预测效果未见提升。在对各模型进行测试评估时,采用遗传算法选择出适用于各模型的最优特征子集合,从而得到最优预测模型。
神经网络预测准确率最优,但稳定性不够,因此采用集成学习技术,训练出多个神经网络模型并加权组合,预测准确率和稳定性都进一步提升。与此同时,受启发于集成学习,我们尝试使用随机森林模型,发现其预测效果更为稳定且准确率更佳。
3. 最终结果
本次比赛共计提交12次测试结果,历次提交结果的MSE折线图如图3所示,从图中可以看出,我们(PaHaMer)的预测效果保持着稳定的提升,并且与来自辛辛那提大学的强劲对手Appocalypse不相上下。
图4 历次提交结果MSE折线图
基于每周提交的测试反馈结果与自测结果,我们最终选择随机森林作为预测模型,同时采用遗传算法进行特征选择,不断优化模型,并在9月8日提交了最终预测结果。最终得分如下:
表4. PHM数据竞赛最终成绩表
说明:第一名 Apocalypse 美国辛辛那提大学团队(表中第6位)
第二名 PaHaMer 中国清华大学软件学院团队(表中第2位)
第三名 DataMotor 中国上海交通大学团队(表中第10位)
四、 总结与展望
参赛队伍人员列表(略。详见本网站“论坛与新闻”10月11日新闻稿)
从一年前开始关注PHM数据分析大赛,通过对历届题目解读,了解先进技术,不断积累,在比赛开始后的三个多月时间里,我们曾有过拍马领先的快乐,也经历过模型优化的瓶颈,最终取得了第二名的成绩,这是团队里每一个人共同奋斗的结果。
参加本届比赛,我们获得了难得的锻炼机会,积累了实战经验,进一步加深了对故障监测和健康管理的认识,学会了如何用机器学习方法解决实际问题。
图5. 清华大学软件学院PaHaMer团队部分同学在讨论
从左至右:王成(研二)、张元嘉(研三)、李璇(直博二)、朱慧敏(研三)
(续完)
(供稿 清华大学软件学院PaHaMer团队 / 编辑 严进军)
图6.(资料照片)化学机械抛光机
图7.(资料照片)化学机械抛光机工作舱室内部