Omgaan met verborgen storingen

Gisteren (24 juni 2019) gebeurde het weer. Een groot deel van het Nederlandse landelijke telefoon-netwerk lag er uit. Zelfs 112 was uren onbereikbaar. De oorzaak had te maken met backup systemen. In Reliability Management-taal noemen we dat MEERVOUDIGE STORINGEN. In dit artikel een tipje van de sluier over verborgen storingen, meervoudige storingen en hoe je dat moet onderhouden.

In de industrie hebben we veel systemen die beveiligd worden met andere systemen. Iedereen begrijpt dat die systemen onderhouden moeten worden, maar hoe maak je een onderhoudsplan voor deze belangrijke systemen? Hoe meet je of een onderhoudsplan effectief is? Hoe voorkom je storingen die een heel netwerk platleggen?

Onderhouden heeft in de afgelopen 100 jaar vooral een technische invulling gekregen. Helaas. Dat doet “onderhoud” echt te kort. Met onderhoud beïnvloeden we storingsgedrag. Maar dekken we met ons huidige onderhoud wel al die oorzaken af die procesverstoringen creëren? Als we onderhoud alleen als een technische aangelegenheid zien, zullen we ongetwijfeld de plank vaak mis slaan. Het onderhouden van technische oorzaken is maar een klein deel van de totale onderhoudsbehoefte. Ik vraag de laatste 20 jaar in de industrie steevast dezelfde vraag bij ieder productiebedrijf waar ik mee in gesprek kom. Probeer eens in je hoofd een overzicht te genereren van alle mogelijke procesverstoringen die lokatie-rendementen beïnvloeden. Hoeveel % van deze verstoringen hebben als oorzaak “mens”? Het gemiddelde antwoord ligt boven de 70%. Dus technische oorzaken zijn in de minderheid en human error in de meerderheid. Hoeveel % van je huidige onderhoudsplan onderhoudt dan jouw mensen? Vaak blijft het dan stil. Huidige onderhoudsplannen zijn gekoppeld aan machines, technische systemen, kostenplaatsen, maar dat operator-kennis, procedures, voortschrijdende inzichten en storingsgedrag ook onderhouden moeten worden is wel bekend, maar hoe doe je dat dan?

Onderhoud is in de laatste 20 jaar een nieuwe dimensie ingegaan. Van het traditionele asset maintenance, verschuift het richting reliability management. Het oorspronkelijke onderhoud was gekoppeld aan machines met kostenplaatsen. Reliability Management richt zich op de optimalisatie van het storingsgedrag van de totale keten. Dus onderhouden we daarmee Mens – Machine – Methode – Materialen – Middelen – Mother Nature. Onderhoud moet gaan over het managen van storingsgedrag dat rendementen kan beïnvloeden. Het traditionele onderhoud was vooral gekoppeld aan machines en kostenplaatsen. Het nieuwe onderhouden is gekoppeld aan het storingsgedrag van de totale keten, inclusief machines en kostenplaatsen.

Een deel van onderhoud, is gericht op het managen van Verborgen Storingen. De industrie onderschat dit volledig. Rond de 40% van alle mogelijke storingsvormen (Failure Modes), blijven verborgen. Dat zijn de zgn. Hidden Failures. Deze verborgen storingen kosten geld, hebben mogelijk ook een negatief effect op veiligheid-milieu-gezondheid, maar bovenal ze blijven verborgen. Het zijn de meest waardeloze storingsvormen die je maar kunt bedenken. Veiligheidssystemen, backupsystemen, etc, kunnen in storing staan en we worden er niet eens over geïnformeerd. Dit is je reinste schijnveiligheid.

Verborgen storingen zijn oorzaken van disfunctioneren, die op zichzelf tijdens normaal bedrijf niet waarneembaar worden voor de gebruiker. Dat is een lastig begrip.

“oorzaken van disfunctioneren”. Functioneren is doen wat de gebruiker wil dat het doet in zijn huidige bedrijfsverband. Disfunctioneren is niet functioneren. Het is het tegenovergestelde van functioneren. Het beschrijven hoe iets moet functioneren is het meest belangrijke gegeven om überhaupt iets over onderhouden te kunnen vertellen.

“op zichzelf”. Een belangrijk gegeven voor verborgen storingen. Een storingsvorm die op zichzelf (zonder de combinatie met andere storingsvormen) verborgen blijft, is een verborgen storing.

“normaal bedrijf”. Normaal bedrijf is storingsvrij en stabiel functioneren. Als we tijdens “normaal bedrijf” geen enkele indicatie krijgen dat een systeem heeft gefaald, heeft het geen direct operationeel effect. Maar het risico op erger neemt met het falen van beveiligingssystemen enorm toe. Want de beveiliging is gestopt. En we weten het niet! Als we die niet nodig hebben, is er niks aan de hand, maar wat als we die beveiliging nodig hebben en hij functioneert niet?

“niet waarneembaar worden”. Iets waarnemen is gebruik maken van een bepaalde trigger. We merken iets op, waardoor we op de hoogte worden gebracht van een verandering.

“voor de gebruiker”. De gebruiker is degene die met het systeem werkt. Zonodig wijzigingen kan aanbrengen om rendementen te garanderen. De gebruiker is in veel gevallen de operator. Die operator kent zijn installatie door en door. Kent ieder piepje en kraakje. Iedere aanwijzing die een voorbode kan zijn voor disfunctioneren, weet de senior operator te verhelpen, te voorkomen. Die operator is van onschatbare waarde. Een deel van onze operators is echter niet instaat een installatie echt te besturen. Die drukken op knoppen en weten niet goed wat die knoppen doen. Dat zijn de zgn. Aperators. Die apen een kunstje na en zijn niet bezig met het echte besturen van een proces. Aperators opleiden naar het juiste niveau, zou meer aandacht nodig moeten hebben, want dergelijke gebruikers kunnen een gevaar zijn voor operations, veiligheid, milieu, gezondheid en kosten.

Verborgen storingen onderhouden.

Geen alternatieve tekst opgegeven voor deze afbeelding

Voorbeeld: Bovenstaande tank is een watertank met een inhoud van 100 liter. Er zijn vier vlotterschakelaars ingebouwd. LLA, L, H, HHA. LLA en HHA zijn NIET FAILSAFE. Als ze zelf falen, geven ze dat niet aan. Zeker 98% van al onze beveiligingsmiddelen in de industrie is niet failsafe. Normaal bedrijf is dat het waterniveau zich tussen 30 en 80 liter begeeft. De L start een pomp om de tank te vullen. De H stopt die pomp. Produktie neemt water uit de tank, waardoor het niveau daalt tot L Zo begint het hele proces opnieuw. De twee beveiligingen LLA en HHA geven een akoestisch alarm met zwaailicht om de gebruiker te informeren dat er iets mis gaat. De gebruiker moet het probleem dan oplossen.

Tijdens normaal bedrijf zijn alleen L en H actief. LLA en HHA zijn beveiligingsmiddelen die alleen mogen ingrijpen als L of H falen. Stel dat er iets gebeurd, dat HHA faalt. Door trillingen, een schoonmaakactie, verkeerd aangesloten na een modificatie, scharnierpunt vastgeroest, etc. etc. De HHA zou dan geen alarm geven als H faalt. Tijdens normaal bedrijf is er geen enkel probleem. Het niveau schommelt tussen L en H. Niks aan de hand. Tot H faalt… Nu is H defect. De pomp wordt niet gestopt. HHA staat al in een faaltoestand en informeert de gebruiker niet. De tank zal overstromen, met alle gevolgen van dien.

Hoe moet je HHA nu onderhouden?

Traditioneel gaan enkele techneuten onderhoudstaken bedenken voor HHA. Deze zetten we in een CMMS en voeren dat uit. Is dat afdoende???

FME(C)A

Ten eerste willen we weten welke storingen reëel mogelijk zijn. We onderhouden immers om storingsgedrag te managen. Hoe kom je er achter welke storingen reëel mogelijk zijn? Hiervoor gebruiken we oplossingen die de luchtvaartindustrie ooit heeft bedacht. De FMEA of FMECA. FMEA staat voor Failure Mode Effect Analysis. FMECA heeft een extra C-tje van Criticality. Dat C-tje geeft echter heel wat verwarring. Zodra de term Criticality wordt genoemd, denken velen dat de FMECA vooral geschikt is voor hoog kritische systemen. Maar waarom hebben de makers van de beste methodiek er wereld (reliability-centred Maintenance) om onderhoudsconcepten te ontwikkelen voor hoog kritische systemen, dan juist gekozen voor een FMEA en niet voor een FMECA? Het antwoord hierop is dat de kritikaliteitsanalyse in de FMECA juist vaak wordt ingezet om stappen in het proces te stroomlijnen. Maar stroomlijnen van methodieken is vaak delen overslaan en bochten afsnijden terwijl we met hoog kritische systemen bezig zijn, is geen goed plan. Die kritikaliteitsanalayse zou gedaan moeten worden voordat men aan de gang gaat met een FMEA. Dan kun je een keuze maken of je een Object of Process FMEA of FMECA wilt gebruiken. Het getuigd van professionaliteit als je grondig en verdedigbaar werkt voor hoog kritische systemen en een “Quick en Dirty” oplossing gebruikt voor laag kritische systemen. Om die reden gebruikt RCM de FMEA. En wel een Process FMEA en geen Object FMEA. De Process FMEA is niet de gemakkelijkste, maar geeft wel de meest waardevolle lijst met reëel mogelijke storingsvormen en storingseffecten. En dat is het enige doel van een Failure Mode Effect Analysis.

De FMEA wordt daarna gebruikt om criteria te evalueren om voor iedere storingsvorm een onderhoudstaak met interval te definiëren. Als voor alle storingsvormen onderhoudstaken met intervallen zijn vastgelegd, is daarmee het onderhoudsconcept af. Maar dan onderhoudsconcept is een concept en nog niet af. het moet nog genest worden tot een onderhoudsplan die het onderhoudsprogramma in de CMMS regelmatig update. Want onderhoudsprogramma’s zijn nooit af, zolang storingsgedrag blijft veranderen. Het evalueren van de criteria om tot een taaktype te komen, doen we in een beslissingsdiagram.

Het beslissingsdiagram

In het beslissingsdiagram worden criteria afgewogen om tot het juiste taaktype te komen. We herkennen de volgende taaktypen:

  • conditie beoordelingstaken (inspecteren)
  • periodieke vervanging
  • periodieke revisie
  • combinatie van taken
  • testen
  • verplicht of wenselijk herontwerp
  • geen planmatig onderhoud (correctief)

Afhankelijk van de gevolgen (Verborgen storingen / VGM / Economische), hanteren we verschillende criteria. Onderhoudsintervallen worden berekend aan de hand van formules. Het gaat te ver om dit nu volledig op te nemen in dit artikel. Er zijn boeken over geschreven en het best is om hiervoor deel te nemen in een van onze gecertificeerde RCM trainingen en je te laten certificeren op RCM Level 1-2-3.

Als de storingsvorm is: “lagering HHA verroest”, dan zou een simpele inspectie al aan kunnen tonen of het roesten is begonnen. Voordat de lagering dan vast komt te zitten, kun je het al aan zien komen en actie nemen en het voorkomen.

Mocht de storingsvorm niet te voorkomen zijn, dan moeten we accepteren dat de storingsvorm zal optreden. De eerstvolgende optie is dan om met een testtaak te onderzoeken of de beveiliging nog functioneert. De test-interval wordt berekend aan de hand van de MTBFM (Mean Time Between failure Modes) en de vereiste beschikbaarheid. Voor enkelvoudige niet stemmende beveiligingsmiddelen met een beschikbaarheid van > 95%, zonder VGM gevolgen is de testinterval daarna snel te berekenen.

Geen alternatieve tekst opgegeven voor deze afbeelding

Verborgen storingen vinden we overal. Welke verborgen storingen worden onderhouden bij de Afsluitdijk, Oosterschelde kering, TENNET, Maeslantkering, …? En bij u?

We leveren Reliability Management consultants en organiseren gecertificeerde trainingen. In onze trainingen behandelen we drie methodieken om onderhoudsconcepten te ontwikkelen voor hoog-midden-laag kritische processen. Deelnemers leren de analyses op papier, in excel en in DORA software toe te passen.

Interesse in meer? Kom naar onze RCM trainingen. https://www.ercbv.eu