Kinőttük az Excelt, hogyan tovább? Heterogén adatbázisok és nagy mennyiségű adatok kezelése és elemzése

Balázs Bertold, Havas Levente, Nemes György, Pálfi Gergely, Szőke Zoltán, Zombory Gábor
2023. június 19.

Az Excel jelenleg a legelterjedtebb eszköz a vállalati „bármilyen” riportingban. Bár egyszerűen használható, az Excelre jellemző manuális munkafolyamatok számos, bizonyított kockázatot hordoznak magukban.

 

 

Közel sem garantált, hogy az adatok validak, pontosak, minőségiek. Ennek több oka van:

  • Nem látunk meg egy eltérést / hibát, ezért hibás lesz a végeredmény
  • Nem megfelelő helyre (akár csak egy cellával elcsúszva) másolunk egy értéket vagy táblát
  • Fkeres függvényt használunk ott, ahol több értéket kellene visszakapni (az fkeres csak egy értéket ad vissza)
  • A logikában egy szűrési feltétel megváltozott, de elfelejtjük átállítani a szűrőt
  • Verziók között tévesztünk hivatkozásokkor
  • A párhuzamos munkavégzéshez szükséges környezet hiányában szinkronizációs hibák fordulnak elő
  • Jelentősebb adatmennyiség esetében összeomlások, lassulások tapasztalhatók

 

Ezek leginkább az Excel kiemelkedő manuális munkaerőigénye miatt jelentkeznek. Ez a hatékonyságot is rontja, hiszen a riportkészítés és az adatfeldolgozás időigényes és nehézkes. Azok, akik általában ennél érettebb (bevált) eszközökkel, megoldásokkal dolgoznak, hatványozottan tapasztalják a hatékonyságromlást.

Bizonyos vállalatoknál az Excel már integrálva van a belső rendszerekhez (különböző ETL folyamatok automatikusan szereznek adatot Excelből / tesznek adatot Excelbe). Ez az ideális állapot azonban általában megborul, amikor egy új rendszer kerül a vállalathoz (cégfelvásárlás, S4 átállás, beszerzés stb.), és a felhasználók elkezdenek újra Excelben manuálisan dolgozni, ami a fentebb felsorolt kockázatokat hordozza magában.

Ezek mind annak a tünetei, hogy „kinőttük” az Excelt, ami egy táblázatkezelő, s nem más (nem adatbáziskezelő, nem ETL eszköz, nem OLAP adatbázis, nem riporting eszköz, stb.). Ilyenkor célszerű valamilyen adatelőkészítő / transzformációs alkalmazást használni. Amennyiben szeretnénk kipróbálni egy ilyen szoftvert, az IFUA Horváth egyik javaslata a KNIME.

De mi is az a KNIME?

Egy mondatban összefoglalva a KNIME egy - mind képességben, mind konstrukcióban - jól skálázható, nyílt forráskódú adatelemző és adatkezelő eszköz, melynek segítségével az adatok beolvasása, átalakítása, feldolgozása, integrálása és vizualizálása könnyedén és gyorsan végezhető el. Ám közel sem lehetünk ennyire szűkszavúak, ha a képességeit nézzük ennek az eszköznek.

Melyek a KNIME legfőbb előnyei az Excel-hez képest?

A grafikus felhasználói felületnek köszönhetően a használat valóban egyszerű és intuitív, az első lépéseket komolyabb informatikai tudás nélkül is meg lehet tenni. A felület kialakításából fakadóan az adataink útját könnyedén végigkövethetjük,  az adatfolyam bármely pontján megfigyelhetjük, vagy akár be is avatkozhatunk. Ennek köszönhetően a későbbiekben hiba esetén pillanatok alatt megtalálhatjuk annak forrását.

A moduláris felépítésnek köszönhetően gyakorlatilag minden szükséges transzformációs vagy elemzési eszközt kézhez kapunk, nekünk csupán paraméterezni kell ezeket az elemeket. A közösségi támogatásnak (párhuzamos használat, fejlesztés) köszönhetően szinte minden egyedi kihívásra találhatunk már kialakított megoldásokat, amelyeket „drag & drop” módszerrel a saját adatfolyamunkba másolhatunk.

Rugalmasságának köszönhetően az eszköz szinte minden forrásrendszerrel vagy fájl formátummal képes elboldogulni. Ezekből nem csupán adatot tud lehívni, de szükség esetén az adatfolyam végén a transzformált eredményt is képes visszaírni vagy exportálni.

A rendszer felépítésének köszönhetően nem jelent problémát nagyobb mennyiségű adat kezelése és feldolgozása (gyakorlatilag végtelen a kezelhető sorok száma).

Az elkészült megoldások ütemezett futtatásával a korábbi feladatok folyamatos, automatizált megvalósítása is lehetséges, így gyakorlatilag a korábbi manuális munkát teljesen kiválthatjuk.

Nézzük meg a KNIME-ot használat közben!

Aggregált eredménykimutatás összeállítása

 

A következőkben egy egyszerű, ám szemléletes példán keresztül mutatjuk be a KNIME adattranszformációs képességeit. Példaesetünkben három fiktív leányvállalatunk aggregált eredménykimutatását készítjük el három egymást követő évre. A kiindulópont három Excel fájl – Revenue, Cost of Goods Sold, Operating Expenses. A fájlok beolvasása után adatunkat különböző adatmanipulációs elemekkel, úgynevezett node-okkal – a node egy KNIME-munkafolyamat legkisebb grafikusan megjelenített logikai egysége, mellyel egy adott műveletet, utasítást hajtunk végre – addig alakítjuk, míg végül az előzetesen definiált összesítő kimutatás elkészül. A munkafolyamat zárásaként a végeredményt egy előre kialakított Excel-sablonba írjuk ki. A létrehozott definíciók alapján új év (új fájlok) esetén a meghatározott lépéseket (akár automatikusan) újrafuttathatjuk. A használt Excel fájlok elérhetőek a források között.

Nézze meg a megvalósítás egyes lépéseit az alábbi, lapozható bemutatón!

Végül pedig – eddigi példánkat is felhasználva – sorra veszünk néhány műveletet (nem kizárólag Excel függvények formájában), amely KNIME és Excel között szinte teljes mértékben megfeleltethető egymásnak:

 

 

Ezeken kívül még többszáz funkciót felsorolhatnánk, de ez a rövid lista is elegendő ahhoz, hogy megmutassuk: a KNIME ki tudja váltani az Excelt. Emellett még három előnyt kiemelünk:

  1. A KNIME-nak könnyen tanulható és kezelhető grafikus felhasználói felülete van
  2. Az eszközt ingyenes le tudjuk tölteni és használhatjuk (teljes értékű verzióként)
  3. A KNIME-nak kiterjedt és fejlett fórumhálózata van (a példában használt Write To Excel Template node is egy úgynevezett „Community Extension”, a közösség által kialakított node)

A mai napig az egyik legerősebb érv az Excel mellett, hogy rengeteg szervezet évtizedek óta szinte kizárólag ezt az eszközt használja ciklikus tevékenységei elvégzéséhez. Ezért a mély kompetencia is Excelben alakult ki (valamint az ezzel kapcsolatos biztonságérzet is). A KNIME olyan megoldást jelenthet, mely segít tartósan átalakítani, adott esetben eltávolítani ezeket a berögzött rendszereket.

A KNIME pár kiemelt felhasználási területe

Rendszeres vezetői riport automatizálás

Az adatgyűjtés, a transzformálás, az adatelőkészítés vizualizáláshoz mind olyan feladat, amelyet KNIME-ban egyszerűen, gyorsan, automatikusan és emberi hibáktól mentesen meg lehet valósítani. Na de ha a főnök Excelben, PDF-ben vagy valamilyen BI eszközben, minden pénteken e-mailben szeretné-e látni az eredményeket? A KNIME  minderre megoldást kínál.

Adatszolgáltatás-ellenőrző hatóság / anyavállalat számára

Gyakran kell olyan beszámolókat készíteni, amelyekhez a befogadó fél (anyavállalat, ellenőrző hatóság stb.) szigorú formai követelményeket támaszt. A kívánt formára alakítás gyakran nehéz (a saját rendszerben máshogy néznek ki az adatok, sok helyről kell összeszedni stb.). Ilyenkor óriási segítség a KNIME, ami közvetlen és gyors adatkapcsolataival, igény szerinti újrafuttathatóságával és formázási lehetőségeivel kiváltja az exceles képletező – másolgató - formázó munkát.

Adatok összeszedése több különböző forrásból

A legtöbb vállalatra jellemző, hogy az adatait több egymástól elválasztott rendszerben tartja. Viszont ilyenkor is igény van olyan kimutatásokra, amelyekhez sok különböző forrású adatra van szükség. A KNIME képes közvetlenül beolvasni adatot számtalan rendszerből (SAP BW, SQL Server, Google Drive, Sharepoint, Azure Blob, stb.), és a saját táblázatformátumában egységesen kezelhetővé teszi a felhasználók számára.

Automatizált adatgyűjtés az internetről

Ha rendszeresen szeretnénk adatokat gyűjteni az internetről (pl. versenytársak piaci árainak követésére), használhatjuk hozzá a KNIME web scraping lehetőségeit is. Időzítéssel naponta automatikusan gyűjthetünk adatot, a rendszeren belül pedig összefoglaló jelentést / eltérés esetén értesítést is készíthetünk és elküldhetjük például e-mailben.

Figyelmeztetések

Az adatfeldolgozó funkciókat kombinálva az értesítési lehetőségekkel (e-mail, pop-up ablak) létre tudunk hozni olyan automatizmusokat, amelyekkel a felhasználó üzenetet kap, ha valami érdekes jelenik meg a folyamatban. Jó paraméterezéssel minden olyan ellenőrzés elvégezhető, amit egy szakértő képes megfogalmazni. Gyakran megismétlendő, időzített feladatoknál különösen nagy segítség, ha csak tényleges szükség esetén kell bevonni emberi felügyeletet.

Data Science

A KNIME-ban rengeteg fejlett elemzési funkció van (Advanced Analytics), ami a felhasználó számára elérhetővé teszi a legkorszerűbb Data Science modelleket. Ebben a cikkben foglalkoztunk részletesen ezeknek a funkcióknak a bemutatásával. A KNIME felhasználóbarát drag & drop módszerével bárki hamar adattudósnak érezheti magát.

Még egy érv a KNIME mellett: Előmozdítja és egyben stabilizálja a vállalati digitalizációt

A KNIME kiváló lehetőséget tud nyújtani a digitalizációs szint vállalaton belüli növelésére, vagy ennek az útnak a megkezdésére. Egyfajta „kedvcsinálóként” könnyű vele ajtót nyitni ebbe az elsőre távolinak és bonyolultnak tűnő világba.

Gyakorlatilag közel nulla tapasztalattal is ideális kiinduló eszköz lehet a könnyű kezelhetősége, a közösségi támogatottsága miatt. Mivel nyílt forráskódú és a licencelési modellje megengedi, pénzügyi befektetés nélkül is lehet használni (a desktop verzió ingyenesen letölthető és használható).

E cikkünk keretei nem engedik meg, de célunk, hogy a későbbiekben több konkrét példával is bemutassuk, hogy a digitalizáció egyes területein milyen módon lehet segítségünkre a KNIME.

 

 

Szerzők:

Balázs Bertold, az IFUA Horváth nagyvállalati riporting szakértője

Havas Levente, partner, az IFUA Horváth Enterprise Analytics kompetencia központjának vezetője

Nemes György, az IFUA Horváth tanácsadója

Pálfi Gergely, az IFUA Horváth vezető tanácsadója

Szőke Zoltán, az IFUA Horváth tanácsadója

Zombory Gábor, Data Engineer, Datraction

 

 

Olvasson tovább a témáról az IFUA Horváth honlapján!

Szakértőink vállalati projektekben szerzett tapasztalatait és ügyfeleink elismeréseit egyaránt megosztjuk.