有个兄弟前段时间在微信上问我:”老张,你整天在那吹AI预测维护,到底靠不靠谱?我老板看了几篇报道也让我搞,我怕又是花冤枉钱。”
我说你这个问题问得好。说实话,一年前你要问我,我也不敢打包票。但今年我正儿八经给一个水泥厂的20台关键设备装了振动监测系统,跑了快半年,AI还真提前6天告诉我一台离心风机要出事了。拆下来一看,轴承保持架已经裂了一道缝。厂里设备科长当场给我竖了个大拇指。
今天就把这个项目从头到尾聊一遍,包括踩的坑、花的钱、学到的教训。希望对想搞这方向的兄弟有点参考。
为什么突然想搞预测性维护
事情是这样的。去年我给一个水泥厂做DCS系统改造,跟他们的设备科长喝酒。喝到第二瓶的时候他跟我倒苦水:厂里一台关键的窑尾排风机,凌晨3点轴承烧了,整个产线停了14个小时。光停产损失就上百万,加上紧急换轴承、吊装,前前后后花了十几万。
他说:”要是能提前知道它要坏就好了。”
我说这不就是预测性维护吗?说白了就是给设备装传感器,实时监测振动、温度这些参数,用算法判断设备现在是什么状态,还能撑多久。这个思路在航空航天、石油化工这些高端行业已经用了好多年了,但在咱们中小工厂里,还算是新鲜玩意。
喝完那顿酒,我就开始琢磨这件事了。
第一步:哪些设备值得”预测”
不是所有设备都值得上预测维护的。你要是给一个几百块钱的普通电机装几千块的监测系统,账怎么算都算不过来。
我选设备的逻辑很简单:坏了之后损失最大的。
水泥厂里哪些设备坏了要命?
- 窑尾风机——停了就是停窑,损失按小时算
- 煤磨主电机——磨停了熟料烧不了
- 篦冷机风机——冷却跟不上,熟料质量受影响
- 生料磨循环风机——同样的道理
- 空压机——厂里所有气动设备都靠它
最终选了20台设备,都是功率在75kW以上的旋转设备。轴承和电机是最容易出故障的部件,也是预测维护最能出效果的地方。
第二步:传感器怎么装
传感器的选择我纠结了挺久。市面上方案太多了,从几百块的国产振动探头到几万块的进口在线监测系统都有。
我的思路是这样的:
- 每个设备装一个三轴加速度传感器(测振动),一个温度传感器(测轴承温度)
- 振动传感器贴在轴承座上——这个位置最关键,直接测到轴承的振动信号
- 温度传感器贴在轴承外圈或者润滑油回油口
传感器本身不贵,淘宝上工业级的三轴振动传感器大概两三百一个。但布线麻烦,20台设备分布在厂区各个角落,拉线拉了整整两天。
有个坑得提醒一下:传感器安装位置一定要固定牢。我们一开始用磁吸座,结果发现振动信号里混进了很多杂波。后来改成了螺纹安装(在轴承座上打孔攻丝),信号干净多了。
第三步:数据怎么采
传感器信号要进数据采集模块,然后汇总到边缘计算网关。
架构大概是这样的:
传感器 → 数据采集模块(4-20mA或IEPE)→ 边缘网关(树莓派或工控机)→ 云端AI分析 → 手机报警
振动信号的采样频率很关键。简单说一下:普通电机轴承故障的特征频率一般在几十Hz到几百Hz之间,所以采样频率至少要2000Hz以上才能抓到有用的信号。
我用了边缘网关本地采集+云端分析的架构。边缘网关就放了一个工业级的树莓派(淘宝上带壳的工业树莓派大概800块),跑数据采集程序,每10分钟上传一次振动波形数据到云服务器。
为什么不在本地做AI分析?因为一开始预算有限,树莓派的算力跑轻量级的FFT(快速傅里叶变换)还行,跑深度学习模型跑不动。后来发现这个决定其实是错的——这个后面说。
第四步:AI模型怎么训练的
这是整个项目最核心也最折腾的部分。
预测性维护的AI模型说白了就是:学习了设备在”健康状态”和”故障状态”下的振动信号特征,然后识别当前振动信号到底像不像要坏的样子。
常用的方法有两种:
- 阈值法:设定振动速度(mm/s)或加速度(g)的阈值,超了报警。简单但不准,因为不同设备、不同转速的正常振动值差别很大。
- 机器学习法:提取振动信号的频域特征(比如FFT后的各频段能量分布),训练分类模型判断设备状态。
我选了第二种。具体来说:
- 先采集设备正常运行时的振动数据,大概收了2周,作为”健康基线”
- 对每段振动波形做FFT,提取1倍频、2倍频、高频段能量的特征
- 用Python的scikit-learn训练了一个孤立森林(Isolation Forest)模型——这是个异常检测算法,不需要大量故障数据,只要知道”正常是什么样的”就行。
- 每天跑一次模型,输出一个”健康得分”——0到100,分数越低越危险。
这里有个坑:设备的振动水平不是一成不变的。负载变化、转速波动、环境温度变化都会影响振动值。如果不做归一化处理,模型会不停地误报。
我后来加了一步:把振动特征除以当前负载对应的基准值。负载数据从PLC里读——通过Modbus TCP把设备的电流、转速读到边缘网关里。
第五步:真正的高光时刻
系统上线后前两个月,基本没出什么幺蛾子。偶尔误报几次,调整了阈值就安静了。
真正的高光发生在第三个月。
那天下午我在家里吃饭,手机突然弹了个报警:3号窑尾风机健康得分:32分(阈值45分)。
我一开始以为是误报,因为厂里反馈说风机运转一切正常,声音没异常,温度也正常。但AI模型说它的振动频谱里高频分量明显增加了——这是轴承早期磨损的典型特征。
我跟设备科长说:要么现在就停机检查,要么就准备备件,这个轴承撑不了多久。
他半信半疑,但还是安排了检修。拆开风机轴承座一看——轴承保持架已经裂了一道小缝,滚珠间隙明显偏大。再跑下去,最多一周轴承就会完全卡死。
现场的人全服了。厂长后来跟我说,要是等它自己坏了才发现,停机换轴承至少8个小时,还不一定能马上找到配件。
这笔账一算:传感器+网关+开发费用加起来不到3万块,一次提前发现的故障就省了不止10万。
踩过的坑和经验总结
坑1:传感器选型别贪便宜。淘宝上几十块的MEMS振动传感器,低频响应很差,测轴承故障根本不行。至少买工业级的IEPE传感器。
坑2:边缘端算力要留够。我一开始把AI推理放云端,结果网络偶尔断连的时候,数据采了白采。后来在边缘网关上部署了轻量级的ONNX模型,本地就能做推理,云端只做模型训练和可视化。
坑3:不要一上来就追求高大上。什么深度学习、数字孪生、数字映射,听着好听但搞起来成本高、周期长。从最简单的阈值报警+FFT频谱分析做起,跑通了再加机器学习,循序渐进。
坑4:设备铭牌数据要记录。轴承型号、电机功率、额定转速——这些在建立基线模型的时候全部要用到。我一开始忽略了,后来挨个去查铭牌,跑了好几趟现场。
最后说几句大实话
预测性维护这个东西,说实话不是每一个工厂都适合上。你要是小厂,总共就三五台电机,坏了换就是了,没必要折腾。但你要是产线连续运行、停机损失大的厂,这套东西是真的能回本的。
AI在咱们工控行业,我自己的感受是:别把它当万能药,但也别觉得它没用。在数据采集、异常检测、故障预判这些具体场景里,它是真能干活。前提是你得知道怎么让它干活。
你们厂里有没有因为设备突发故障导致停产的惨痛经历?或者已经在搞预测性维护的兄弟,欢迎在评论区聊聊你们的经验教训。