Adatelemzés KNIME-mal: Excel utáni új világ

Balázs Bertold, Havas Levente, Nemes György, Pálfi Gergely, Szőke Zoltán, Zombory Gábor
2023. december 12.

A digitalizáció és az adatelemzés forradalma kihívás elé állítja az üzleti világot. Mint ahogy legutóbbi cikkünkben megállapítottuk, az Excel hosszú ideig volt (és talán még lesz is) az adatmanipuláció és az adatelemzés alapvető eszköze. Vannak azonban olyan feladatok, kihívások, melyek esetén célszerű más eszközt választani. Ezen gondolatok mentén mutattuk be a KNIME-ot, mint az "Excel utáni korszak" egy potenciális megoldását.

Röviden bemutattuk az eszköz előnyeit és képességeit. Egy egyszerű példán keresztül pedig egy lehetséges feladat megvalósítását. Azonban az eszköz képességei ezen bőven túlmutatnak, ezért jelen cikkünkben egy más, komplexebb példán keresztül szeretnénk új, még be nem mutatott képességeket megosztani.

A példánkban egy kitalált ruhabolt eladási adataiból készítünk elemzést a közvetlen csapatvezetőnknek a jól teljesítő termékek analitikájáról. A feladathoz használt KNIME workflow-t, valamint a hozzá tartozó adatokat a cikk végén tudják letölteni.

Letöltés után ennek a KNIME-ba történő importálása szükséges (ha követni szeretnék KNIME-ban a feladatot), melynek menetéről részletes, lapozható leírást készítettünk:

Importálás után menjünk végig részletesen a feladat megoldásán. Bátorítjuk, hogy a workflow-ban teszteljen, módosítson, rakjon bele új node-okat, kövesse a feladatban leírt pontokat új node-ok berakásával (az eredeti node-ok mellett, hogy tudjon „puskázni”).

Reméljük, a feladat megoldásának részletes leírásával Ön is jobban látja, hogy a KNIME-ban óriási potenciál van. A teljes képhez hozzájárulva még két témát szeretnénk érinteni a KNIME kapcsán:

  • KNIME Community Hub: Itt láthatjuk, hogy a KNIME teljes felhasználóközössége hozzájárulhat a megoldásunkhoz node-okkal, workflow-kal vagy ötletekkel
  • KNIME szerver: Amennyiben ki szeretnénk terjeszteni a KNIME-ot a vállalatunkban (különböző környezetek, precíz jogosultságkezelés stb.), akkor szükségünk van a KNIME szerverre

KNIME Community Hub - A közösség ereje

A KNIME Community Hub egy közösségi platform, ahol a felhasználók tárolhatják és megoszthatják a KNIME workflow-ikat és komponenseiket. Ötleteket cserélhetnek, megoszthatnak információkat, legjobb gyakorlatokat az adatelemzésről, az adatfeldolgozásról, vagy bármiről, amit KNIME-ban csináltak.

Lehetőség van egyrészt a saját fejlesztések privát tárolására, de nyílt platform lévén, a felhasználók gyakran publikussá teszik egy-egy fejlesztésüket, amennyiben úgy érzik, hogy az mások számára is hasznos lehet.

Gyakran előfordul az is, hogy egy felhasználó elakad egy saját személyes projektjével és a Fórumon kér segítséget. Az évről évre egyre növekvő tábornak köszönhetően néhány órán, de gyakran néhány percen belül már választ is kap a kérdésére, illetve gyakori eset az is, hogy valaki más már foglalkozik ugyanezzel a témakörrel. Ilyenkor ezt a fórumbejegyzést összekapcsolják a Hubon megosztott workflow-val, és többen, közösségi fejlesztésként kezdenek dolgozni az adott problémával. Ezek a közösségi fejlesztések gyakran később publikusan elérhető komponensként jelennek meg a Hubon, illetve, ha egy széles kört érintő megoldás, az is előfordul, hogy egy későbbi KNIME verzióba is bekerül a komponens egy külön node-ként.

Ez a közösségi megközelítés elősegíti a tanulást és a fejlődést az adatokkal való munka során. Ezt a KNIME is felismerte, így a kezdetektől különösen nagy hangsúlyt helyez a cég a közösségépítésre:

  • A hetente megjelenő #JustKNIMEIt kihívás során a pályázóknak változatos, komplex problémákat kell megoldaniuk, így összemérhetik képességeiket
  • A #DataConnect eseményeken a cég az adott régióban élő, különböző iparágakban dolgozó felhasználókat igyekszik egy-egy kötetlen rendezvény során megismertetni egymással, így is építve a közösséget
  • A DataTalks, illetve évente megrendezésre kerülő Summit eseményeken pedig kiemelkedő projekteket mutatnak be, hogy ezzel is segítsék a tudásáramlást

 

A közösségi Hub a KNIME platform sokoldalúságához és használhatóságához járul hozzá az adatelemzés terén. A közösség és a vállalati felhasználók egyaránt profitálhatnak belőle és együttműködésük révén még hatékonyabban dolgozhatnak az adatokkal. A KNIME platform e két fontos része elősegíti az adatelemzés és az adatvezérelt döntéshozatal területén a fejlődést és az innovációt.

Az alábbiakban összegyűjtöttünk néhány érdekesebb, a Community HUBon elérhető, szabadon felhasználható KNIME projektet:

Szentiment analízis REST API-n keresztül

Automated Reporting of Receivables

Sentiment Analysis (Classification) of Documents

Customer Churn Analysis

Search Engine Optimization (SEO)

Financial Metrics Example: Investments' return rate & value

3 napos Időjárás előrejelzés a SARIMA modell segítségével

JustKNIMEit - What matters for Wine quality

KNIME szerver – Ha vállalati működés szükséges

Az eddig bemutatott funkcionalitás a KNIME asztali verziójában elérhető, mely ingyenesen használható. Azonban ennél a KNIME ökoszisztéma jóval többet tud nyújtani, sok esetben megkönnyítve az adminisztrátorok, a fejlesztők és a végfelhasználók munkáját is. Ez a KNIME szerver.

 

A szerver nyújtotta lehetőségeknek köszönhetően egyrészt a fejlesztők munkája válik könnyebbé:

  • A kollaborációs és munkamegosztási lehetőségnek köszönhetően az egyes workflow-k létrehozása, tesztelése és telepítése könnyebbé válik
  • A megfelelő jogosultsági beállításokkal és verzió kezeléssel jobb a kontroll a workflow-k felett
  • Létre lehet hozni központilag szabályozott komponenseket, melyek előre meghatározott funkciókat tartalmazhatnak (pl. sablonba írás)
    • Használata kötelező lehet audit okokból, de magukat az elemeket csak az adminisztrátorok tudják módosítani, még a fejlesztő kollégák sem
  • Lehetőség nyílik automatikus futtatások ütemezésére, vagy akár bizonyos eseményekhez kötésére, értesítési megoldások aktiválására
  • A skálázhatóságnak köszönhetően, az igényeknek megfelelően könnyen változtatható a rendelkezésre álló erőforrások mérete (platformfüggően scale up and out lehetősége)
  • A biztonsági megoldásoknak köszönhetően lehetőség nyílik az adatok titkosítására, egyedi hitelesítési mechanizmusok használatára (az érzékeny adatok megvédhetőek, a végfelhasználók nem látnak bele a folyamati lépésekbe, csak a végeredményt kapják kézhez)

 

Másrészt viszont az üzleti oldali végfelhasználók is könnyebben tudnak a szükséges adatokhoz, folyamatokhoz hozzáférni:

  • A szerver WebPortaljának köszönhetően egy letisztult webes felület segítségével tudják a szükséges folyamatokat, akár csupán egy gombnyomás segítségével, esetleg a szükséges paraméterek megadása mellett, elindítani
  • Adatintegrációval más eszközökkel való kapcsolat kialakítása is lehetséges (API, weboldal, alkalmazás stb.). A felhasználó anélkül is élvezheti az eszköz előnyeit és lehetőségeit, hogy akár annak használatáról vagy kialakításáról tudomása lenne
  • A fejlettebb riportolási és vizualizációs megoldásoknak köszönhetően az eredmények és elemzések automatikus megosztása és exportálása is lehetséges, így a végfelhasználó az eszköz használata nélkül, akár ütemezetten is kézhez kaphatja a számára szükséges dokumentumokat

 

A mai világban, ahol egyre több megoldás érhető el felhőplatformok segítségével, jogos a kérdés, hogy hol legyen a KNIME szerverünk? Az egyszerű válasz az, ahol szeretnénk. Semmi akadálya, hogy on-premise módon, a földön futtassuk a szerverünket. Azonban lehetőségünk van Cloud megoldás választására, mind a KNIME által biztosított környezetben, mind a legnagyobb Cloud szolgáltatók felületén, akár hivatalos megoldásként is (ebben az esetben, akár a licencelés is lehetséges idő/használat alapon, egy fix éves díj helyett).

 

A szerverhez egy megjegyzés. Nemrég hirdettek egy új terméket, a KNIME Business Hubot, ami hosszú távon ki fogja váltani a KNIME szervert. Ez vállalati környezetekben használható mind saját szervereken, vagy KNIME felhőszolgáltatás részeként is (akárcsak a szerver). A Community Hubhoz nagyon hasonló elven működik, azonban egy teljesen zárt rendszerként. A Business Hub szolgáltatásai közé tartozik a jogosultságkezelés, a verziókövetés, a workflow-k összehangolt futtatása, a jobok monitorozása (hasonlóan a szerverhez, azonban felhasználóbarátabb felülettel).

Ezek az eszközök (Community Hub, Szerver, Business Hub) mind segítik a vállalatokat az adatok biztonságos és hatékony kezelésében, a folyamatok optimalizálásában és a projektmenedzsmentben.

 

Amennyiben felkeltette az érdeklődését a Knime, olvasson tovább a témáról az IFUA Horváth honlapján!

 

Szerzők:

Balázs Bertold, az IFUA Horváth nagyvállalati riporting szakértője

Havas Levente, partner, az IFUA Horváth Enterprise Analytics kompetencia központjának vezetője

Nemes György, az IFUA Horváth tanácsadója

Pálfi Gergely, az IFUA Horváth vezető tanácsadója

Szőke Zoltán, az IFUA Horváth tanácsadója

Zombory Gábor, Data Engineer, Datraction

Letöltés