我给20台风机和泵装了振动监测,AI提前6天告诉我哪台要坏了——一个预测性维护项目的完整记录

有个兄弟前段时间在微信上问我:”老张,你整天在那吹AI预测维护,到底靠不靠谱?我老板看了几篇报道也让我搞,我怕又是花冤枉钱。”

我说你这个问题问得好。说实话,一年前你要问我,我也不敢打包票。但今年我正儿八经给一个水泥厂的20台关键设备装了振动监测系统,跑了快半年,AI还真提前6天告诉我一台离心风机要出事了。拆下来一看,轴承保持架已经裂了一道缝。厂里设备科长当场给我竖了个大拇指。

今天就把这个项目从头到尾聊一遍,包括踩的坑、花的钱、学到的教训。希望对想搞这方向的兄弟有点参考。

为什么突然想搞预测性维护

事情是这样的。去年我给一个水泥厂做DCS系统改造,跟他们的设备科长喝酒。喝到第二瓶的时候他跟我倒苦水:厂里一台关键的窑尾排风机,凌晨3点轴承烧了,整个产线停了14个小时。光停产损失就上百万,加上紧急换轴承、吊装,前前后后花了十几万。

他说:”要是能提前知道它要坏就好了。”

我说这不就是预测性维护吗?说白了就是给设备装传感器,实时监测振动、温度这些参数,用算法判断设备现在是什么状态,还能撑多久。这个思路在航空航天、石油化工这些高端行业已经用了好多年了,但在咱们中小工厂里,还算是新鲜玩意。

喝完那顿酒,我就开始琢磨这件事了。

第一步:哪些设备值得”预测”

不是所有设备都值得上预测维护的。你要是给一个几百块钱的普通电机装几千块的监测系统,账怎么算都算不过来。

我选设备的逻辑很简单:坏了之后损失最大的

水泥厂里哪些设备坏了要命?

  • 窑尾风机——停了就是停窑,损失按小时算
  • 煤磨主电机——磨停了熟料烧不了
  • 篦冷机风机——冷却跟不上,熟料质量受影响
  • 生料磨循环风机——同样的道理
  • 空压机——厂里所有气动设备都靠它

最终选了20台设备,都是功率在75kW以上的旋转设备。轴承和电机是最容易出故障的部件,也是预测维护最能出效果的地方。

第二步:传感器怎么装

传感器的选择我纠结了挺久。市面上方案太多了,从几百块的国产振动探头到几万块的进口在线监测系统都有。

我的思路是这样的:

  • 每个设备装一个三轴加速度传感器(测振动),一个温度传感器(测轴承温度)
  • 振动传感器贴在轴承座上——这个位置最关键,直接测到轴承的振动信号
  • 温度传感器贴在轴承外圈或者润滑油回油口

传感器本身不贵,淘宝上工业级的三轴振动传感器大概两三百一个。但布线麻烦,20台设备分布在厂区各个角落,拉线拉了整整两天。

有个坑得提醒一下:传感器安装位置一定要固定牢。我们一开始用磁吸座,结果发现振动信号里混进了很多杂波。后来改成了螺纹安装(在轴承座上打孔攻丝),信号干净多了。

第三步:数据怎么采

传感器信号要进数据采集模块,然后汇总到边缘计算网关。

架构大概是这样的:

传感器 → 数据采集模块(4-20mA或IEPE)→ 边缘网关(树莓派或工控机)→ 云端AI分析 → 手机报警

振动信号的采样频率很关键。简单说一下:普通电机轴承故障的特征频率一般在几十Hz到几百Hz之间,所以采样频率至少要2000Hz以上才能抓到有用的信号。

我用了边缘网关本地采集+云端分析的架构。边缘网关就放了一个工业级的树莓派(淘宝上带壳的工业树莓派大概800块),跑数据采集程序,每10分钟上传一次振动波形数据到云服务器。

为什么不在本地做AI分析?因为一开始预算有限,树莓派的算力跑轻量级的FFT(快速傅里叶变换)还行,跑深度学习模型跑不动。后来发现这个决定其实是错的——这个后面说。

第四步:AI模型怎么训练的

这是整个项目最核心也最折腾的部分。

预测性维护的AI模型说白了就是:学习了设备在”健康状态”和”故障状态”下的振动信号特征,然后识别当前振动信号到底像不像要坏的样子

常用的方法有两种:

  • 阈值法:设定振动速度(mm/s)或加速度(g)的阈值,超了报警。简单但不准,因为不同设备、不同转速的正常振动值差别很大。
  • 机器学习法:提取振动信号的频域特征(比如FFT后的各频段能量分布),训练分类模型判断设备状态。

我选了第二种。具体来说:

  1. 先采集设备正常运行时的振动数据,大概收了2周,作为”健康基线”
  2. 对每段振动波形做FFT,提取1倍频、2倍频、高频段能量的特征
  3. 用Python的scikit-learn训练了一个孤立森林(Isolation Forest)模型——这是个异常检测算法,不需要大量故障数据,只要知道”正常是什么样的”就行。
  4. 每天跑一次模型,输出一个”健康得分”——0到100,分数越低越危险。

这里有个坑:设备的振动水平不是一成不变的。负载变化、转速波动、环境温度变化都会影响振动值。如果不做归一化处理,模型会不停地误报。

我后来加了一步:把振动特征除以当前负载对应的基准值。负载数据从PLC里读——通过Modbus TCP把设备的电流、转速读到边缘网关里。

第五步:真正的高光时刻

系统上线后前两个月,基本没出什么幺蛾子。偶尔误报几次,调整了阈值就安静了。

真正的高光发生在第三个月。

那天下午我在家里吃饭,手机突然弹了个报警:3号窑尾风机健康得分:32分(阈值45分)

我一开始以为是误报,因为厂里反馈说风机运转一切正常,声音没异常,温度也正常。但AI模型说它的振动频谱里高频分量明显增加了——这是轴承早期磨损的典型特征。

我跟设备科长说:要么现在就停机检查,要么就准备备件,这个轴承撑不了多久。

他半信半疑,但还是安排了检修。拆开风机轴承座一看——轴承保持架已经裂了一道小缝,滚珠间隙明显偏大。再跑下去,最多一周轴承就会完全卡死。

现场的人全服了。厂长后来跟我说,要是等它自己坏了才发现,停机换轴承至少8个小时,还不一定能马上找到配件。

这笔账一算:传感器+网关+开发费用加起来不到3万块,一次提前发现的故障就省了不止10万。

踩过的坑和经验总结

坑1:传感器选型别贪便宜。淘宝上几十块的MEMS振动传感器,低频响应很差,测轴承故障根本不行。至少买工业级的IEPE传感器。

坑2:边缘端算力要留够。我一开始把AI推理放云端,结果网络偶尔断连的时候,数据采了白采。后来在边缘网关上部署了轻量级的ONNX模型,本地就能做推理,云端只做模型训练和可视化。

坑3:不要一上来就追求高大上。什么深度学习、数字孪生、数字映射,听着好听但搞起来成本高、周期长。从最简单的阈值报警+FFT频谱分析做起,跑通了再加机器学习,循序渐进。

坑4:设备铭牌数据要记录。轴承型号、电机功率、额定转速——这些在建立基线模型的时候全部要用到。我一开始忽略了,后来挨个去查铭牌,跑了好几趟现场。

最后说几句大实话

预测性维护这个东西,说实话不是每一个工厂都适合上。你要是小厂,总共就三五台电机,坏了换就是了,没必要折腾。但你要是产线连续运行、停机损失大的厂,这套东西是真的能回本的。

AI在咱们工控行业,我自己的感受是:别把它当万能药,但也别觉得它没用。在数据采集、异常检测、故障预判这些具体场景里,它是真能干活。前提是你得知道怎么让它干活。

你们厂里有没有因为设备突发故障导致停产的惨痛经历?或者已经在搞预测性维护的兄弟,欢迎在评论区聊聊你们的经验教训。

上一篇 给机械加工厂做自动喷淋清洗线,从人工刷洗到通过式清洗的全记录
下一篇 饮料灌装线用PLC做实时称重闭环补偿,精度从±5克干到±1克以内——一个S7-1200项目的完整记录