Adattudomány, avagy a 21. század mágiája az iparban

Bergmann Júlia, Gyulai Dávid

Az igazgató bosszankodott. Alig egy hete takarítás miatt állították le az egész gépsort, most pedig egy alkatrész cseréje miatt áll a gyár. Nem lehetett volna ezt előre megjósolni? Az adatelemzés egy olyan csodafegyver, mely a számtalan felhasználási területen alkalmazva jelentős hatékonyságnövekedést jelenthet a termelő vállalatok számára.

Varázsigék, és ami mögöttük van

Ipar 4.0, IoT, adattudomány, gépi tanulás, big data, mesterséges intelligencia. Sokat halljuk ezeket a kifejezéseket manapság , talán még sejtjük is, hogy mi rejlik mögöttük, de vajon tudjuk-e, hogy mire használható az a rengeteg tudás, amit az elmúlt évtizedekben felhalmozott a világ a kapcsolódó  tudományterületekről? Milyen információ rejlik az adatokban? Hogyan bányásszam elő a bennük rejlő értéket? Mire fogom használni őket? Cikksorozatunk célja, hogy tapasztalataink alapján bemutassuk és összefoglaljuk azt, hogy ipari környezetben hogyan működnek/működhetnek a korszerű adatelemzési eszközök, és hogyan lehet segítségükkel például gyártási átfutási időt tervezni, ütemezést optimalizálni, vagy épp selejtszámot csökkenteni, ezek által pedig a vállalatok hogyan tudják növelni a hatékonyságukat, csökkenteni a veszteségeiket.


Chapman-féle CRISP-DM diagram

Minden vállalatnál gyűjtenek különböző adatokat, viszont csak kevesen hasznosítják azokat jól; sokan nem, vagy rosszul tárolják a felhalmozott biteket, illetve nem megfelelő adatokat gyűjtenek vagy tárolnak. „Jól” adatot gyűjteni fárasztó és összetett munka, sőt, a strukturálatlan, bonyolult adattáblákat nehéz értelmezni, ami nagy idő- és energiabefektetést igényel. Ha nem látjuk előre, hogy milyen eredményeket szül, akkor úgy tűnhet talán nem is éri meg a fáradozás. Ezen félelmet eloszlató tanulmányok sokaságát találhatjuk a weben, például azt a McKinsey Analytics által ismertetett esetet, melynél pusztán a rendelkezésre álló adatokra építve optimalizálták egy logisztikai cég útvonaltervezőjét. Ez a megrendelő számára 16%-os profitnövekedést hozott értékcsökkenés nélkül. Emellett számos más példa miatt is bizonyossággal állíthatjuk, hogy az adatokkal törődni, azokra alapozott elemzéseket készíteni és döntéseknél felhasználni  megtérülő befektetés.

Egy adatelemzésen alapuló fejlesztés hosszas folyamat. A méltán híres Chapman-féle CRISP-DM diagram (1. ábra) jól szemlélteti a munka összetettségét, az azt jellemző állandó és szükségszerű visszacsatolásokat (Chapman, 1999). A kezdeti lépés mindig lényegében sztenderd folyamat; az adott üzleti terület megismerése, a célok meghatározása és egy minél részletesebb projektterv elkészítése. Ezt követi az adatokkal való ismerkedés: a rendelkezésre álló források összegzése, megértése, feltérképezése és azok minőségének vizsgálata. Gyakorlatilag az esetek 99%-ban szükséges az adatok tisztítása, javítása, strukturálása, ami abból az egyszerű tényből fakad, hogy a gyűjtés kezdetekor, ami akár több évvel ezelőtti időpont is lehetett, a rendszer tervezője előtt nem volt és nem is lehetett ismert a mai kor adatelemzési és hasznosítási követelménye. Fontos tudni, hogy agy adatelemzési projekt jelentősebb részét teszi ki ez három lépés. Ha már kellően “emészthetővé” és “széppé” formáltuk az adatainkat, állhatunk csak neki a munka legizgalmasabb részének, a modellezésnek. Ebben a fázisban történik az a varázslat, amit oldalakon átívelő egyenletekkel és logikai formulákkal írhatunk le a matematika nyelvén. Többek között, itt hangoljuk a különböző tanuló-algoritmusok paramétereit, itt választjuk ki az adott feladathoz a legmegfelelőbb osztályozási módszereket, vagy éppen itt készítjük a prediktív modelljeinket. Később a modell vagy modellek kiértékelése után született eredményeinket vetjük össze az első lépésben meghatározott céljainkkal, és nagyon ritka esetben fordul elő, hogy ezek már az első próbálkozásra megegyeznek. Ennek megfelelően addig ismételjük az első négy munkafázist, amíg az eredmények és a célok össze nem vágnak egymással. A folyamat utolsó lépéseként a megalkotott modelleket használva és az eredményeket összefoglalva jöhet létre egy fejlesztési terv a vállalat számára.

Ipari felhasználás

Ha van olyan szektor, amely komoly eredményeket várhat az adatelemzéstől, akkor az az ipar. Minden egyes személy vagy vállalat így vagy úgy, de kapcsolódik a gyártáshoz, és az iparág hatalmas mennyiségű adat tömegen üldögél. A világszerte növekvő életszínvonal miatt a jó minőségű, megfizethető és egyben rendkívül testreszabott termékek iránti étvágy egyre növekszik. Napjainkban úgy tűnik, az egyik komoly esély arra, hogy az ipar kielégítse ezt a szükségletet, az adatok megfelelő elemzésben rejlik. Ha a gyártó vállalatok képesek lesznek felhasználni a birtokukban lévő adatmennyiséget, akkor már rövid távon képesek lesznek a fogyasztói igények pontosabb előrejelzésére és igényeknek leginkább megfelelő mennyiségű és minőségű termékek előállítására.

Adatelemzési lehetőségek a gyártásban

Miközben gyakran komoly erőfeszítések árán próbáljuk szétválasztani a fogyasztói és az ipari IoT-t, addig az adattudomány szempontjából az igazi hatékonyság-fejlesztési lehetőség a kettő kombinálásában rejlik. Az adatok valós fogyasztási körülmények közötti összegyűjtése, és elemzés céljából a gyártási rendszereknek való visszajuttatása teljesen új bevételi források elérését teszi lehetővé.

De ez csak egyik része a történetnek. Ami érdekes, és sok potenciált magában rejtő lehetőség a közvetlen  hozzáadott értékű gyártás számra az, hogy automatizáljuk a berendezések érzékelőiből származó adatok elemzését, így önműködővé téve az anomáliák észlelését és a berendezések meghibásodásának előrejelzését. A berendezések élettartama és üzemideje is előrejelezhető, prediktálható, a hibák azonosíthatók és az ellenőrzési körök optimális ütemezése elérhető. Ez példátlan lehetőséget kínál a leállások csökkentésére és a géphasználat növelésére. Ahogy gyakran mondják, egy gyártó vállalat csak annyira jó, amennyire a termékeit előállító gépek azok. Bár az előző példák nagyon hangzatosak és sok cég szeretne hasonló alkalmazásokat magáénak tudni, fontos tény, hogy jól működő támogató, előrejelző modulok, alrendszerek megléte már nagyon “haladó” szintet feltételeznek az ipari adatelemzés területén, ettől pedig sok vállalat még messze van.

Vegyünk egy másik rövid, de tanulságos példát, amely az előzőekkel szemben nem a gyártórendszerekről, hanem a gyártott termékek használatáról gyűjtött adatok alapján segíti a hatékonyságnövelést. Egy adott termék élettartamának garantálása érdekében a gyártók hajlamosak a terméket robusztusabbá és bonyolultabbá tenni annál, mint amennyire arra a használatkor  szükséges lenne. Ez sok esetben jelentősen megnöveli a termelési költségeket és ennek hatásaként a termék árát. Amennyiben azonban a termék használatáról kapunk visszajelzést, gyűjtünk adatokat, és elemezzük azokat, akkor beazonosíthatvá válnak azok a tényezők, amelyek nem befolyásolják a termék élettartamát ezáltal pedig megtakarítás érhető el.

A lehetőségekkel kapcsolatban nem érdemes azonban itt megállni: az igazi átütő sikert a fejlett gépi tanulás alkalmazása jelentheti, amely lehetővé teszi a gyártók számára, hogy modellezzék a termékeket, gépeket és eszközöket, szimulálják a különböző forgatókönyveket és megtalálják a lehetőségeket a hatékonyság maximalizálására az adott helyzetben. És ez csak néhány a rengeteg lehetőségből, amelyeket az adatgyűjtés szolgáltat az ipar számára, beleértve a termékek értékesítését is, például a műveleti adatokon alapuló vásárlási megbízás automatizálását és új bevételi források megnyitását az adatok felhasználásával, ezzel exkluzív élményeket nyújtva az ügyfelek számára.

Nem minden arany, ami fénylik

Mint minden technológiának és tudományterületnek, úgy az adatelemzésnek is megvannak a maga árnyoldalai, határai. Általánosan elfogadott tény, hogy az adattudomány műveléséhez három ismeret elengedhetetlen: mind a matematikai statisztikában, mind programozásban, mind a vizsgálat/alkalmazott terület sajátosságaiban otthonosan kell éreznie magát az embernek ahhoz, hogy megbízható, gyors és üzletileg hasznos eredményeket tudjon teremteni. A következő ábra bemutat egy példát arra, amikor valakiből hiányzik a harmadik és talán legfontosabb tulajdonság, a szakismeret. A grafikonon egy laikus számára is jól látható a két változó hasonló mozgása, matematikailag a kettő közötti korrelációs együttható magas, 94,71%. Ám a két változó, amit összemérünk, merőben különböző jellegű: az egy főre jutó sajtfogyasztás és az ágyneműbe tekeredésben bekövetkezett halálos esetek száma nem vizsgálandók egy kalap alatt. De ha ezt mondjuk egy adatelemző robot mégis valami oknál megtenné, azt rendkívül erős összefüggésként ismerné fel.

Valódi korreláció?

Természetesen ez egy egyszerű példa, de képzeljük csak el, milyen nehéz lenne olyan “szakemberrel” együtt dolgozni, aki nem ismeri a különbséget az ütemezés és a kapacitástervezés között, vagy nem tudja megkülönböztetni a ciklusidőt az átfutási időtől. Ezért fontos az, hogy az ipari adatelemzési munkát olyanok végezzék, akik megfelelő adatelemzési kompetenciákkal, jó programozói képességekkel és kielégítő szakmai tudással rendelkeznek.

Utószó

Az adatelemzés hatalmas témakörét természetesen nem fogjuk – és nem is tudjuk – néhány oldalban kimerítően leírni. Jelen bevezetőnk folytatásában részletes betekintést nyújtunk a különböző tudományterületek ipari felhasználásáról. Példákon keresztül szemléltetjük majd, hogyan építünk regressziós modellt átfutási idő előrejelzésére, hogyan klaszterezzük a rendeléseket, gyártásütemezéshez, vagy hogyan jelzünk előre minőségi paramétereket.

Hivatkozások

Algorithmic route optimization improves revenue for a logistics company | McKinsey Analytics. (dátum nélk.). Forrás: https://www.mckinsey.com/business-functions/mckinsey-analytics/how-we-help-clients/algorithmic-route-optimization-improves-revenue-for-a-logistics-company

Chapman, P. (1999.. March). The CRISP-DM User Guide. 4th CRISP-DM SIG Workshop in Brussels.

Manditereza, K. (2017. August 11). What Data Science Actually Means To Manufacturing. Forrás: IIoT World: https://iiot-world.com/connected-industry/what-data-science-actually-means-to-manufacturing/

Spurious Cottelations. (dátum nélk.). Forrás: http://www.tylervigen.com/spurious-correlations