Az adattudomány és annak veszélyei – avagy tényleg vigyünk mindig bombát a repülőgépre?!

Korcsmáros István
2014. szeptember 10.

Az adatelemzés (ezen belül az üzleti intelligencia) területén új kifejezések kezdenek meghonosodni. Ilyen többek között az adattudomány (data science) és az adattudós (data scientist). Mit takarnak ezek a fogalmak?

Az adatelemzés (ezen belül az üzleti intelligencia) területén új kifejezések kezdenek meghonosodni. Ilyen többek között az adattudomány (data science) és az adattudós (data scientist). Mit takarnak ezek a fogalmak? Divatszavak ezek, vagy be fognak például épülni az egyetemi képzésbe, lesz ilyen nevesített tudományág és lesznek diplomás adattudósok?

Mi az adattudomány?

Mivel adat van bőven, menjünk ki a Netre. A Wikipedia szerint az adattudomány az adatokból származó általánosítható tudás kinyerésének vizsgálata ». Számos tudományterület ismereteit foglalja magába, ilyen például a jelfeldolgozás, matematika, statisztika, valószínűségszámítási modellek, (számító)gépi tanulás, számítógépes programozás, mintafelismerés, adatvizualizáció, adattárház kiaknázás, nagy teljesítményű számítások.

Az adattudomány számos kutatási területre van hatással, elég ha csak a biológiai tudományokra, orvosi informatikára, egészségügyre, humán tudományokra (pl. szociológia, jog) gondolunk. Jelentősen képes befolyásolni a gazdaságtan, üzleti élet és a pénzügyi tevékenység területein hozott
döntéseket. Üzleti szempontból lényeges, hogy az adattudomány szerves része az ún. kompetitív intelligenciának (versenyelőnyre való törekvés), melynek egyik ismert irányzata pl. az adatbányászat.

Be lehet fogadni ennyi mindent egy fejjel?

Kik azok az adattudósok?

„Ó, jaj a filozófiát, orvos- meg törvénytudományt, és – sajnos – a teológiát megtanulám jól egyaránt. S most mégis így állok tudatlan, mint amikor munkába fogtam.”

(Goethe: Faust; Jékely Zoltán fordítása, Európa Könyvkiadó, Budapest, 1980.)

A LinkedIn egyik bejegyzése » a következő szerzőre hivatkozik: „Az adattudós olyan valaki, aki jobb statisztikus, mint számítógéptudós, és jobb számítógéptudós, mint statisztikus.” (Josh Blumenstock),

A Wikipedia fentebb idézett sorai szerint az adattudomány gyakorlóját adattudósnak hívják. Az adattudósok komplex problémákat oldanak meg bizonyos területen. Általánosan elvárt, hogy az adattudósok képesek legyenek alkalmazni a matematika, statisztika és számítógéptudomány számos elemét munkájuk során. Konkrét elvárás, hogy egy adattudós egy-két szakterület valódi szakértője legyen, két-három szakterülen pedig hasznosítható jártassággal bírjon. Mindebből következik, hogy az adattudomány sikeres gyakorlása csapatmunkát igényel, amelyben a csapattagok tudásuk mélysége és szélessége alapján kiegészítik egymást.

Az adattudomány Venn diagramja

A Venn diagram halmazok (bizonyos dolgok összessége) közötti kapcsolatokat ábrázol, pl. olyanokat, mint egymás kiegészítése, ill. közös része.

 

 

Forrás: Drew Conway A három halmaz:

Hacking SkillsSzámítógép programozási képességek.
(Arról, hogy mi a különbség a programozás és a hacking között,  itt » olvashat bővebben.)

Math & Statistics Knowledge – A hagyományos matematikai és statisztikai felkészültség.

Substantive Expertise – A konkrét szakterület ismerete. Azaz „Ha csirkét közelebbről csupán húslevesben láttál, ne is próbáld meg elmagyarázni nekünk, hogyan kell két vagon mirelit csirkecombot eladni az eszkimóknak.”

A három kettős metszet:

Machine Learning – Gépi tanulás. A gépi tanulás a mesterséges intelligencia egyik ága. Ha számítógépes szempontból vizsgáljuk, lényegében ugyanazokat az algoritmusokat használja, mint az adatbányászat vagy a statisztika. A különbség: a döntést a gép hozza, nem pedig az ember.

Traditional Research – Hagyományos kutatás. Mindig is úgy volt, hogy a kutatók megismerkedtek egy bizonyos szakterülettel, abba belemélyedtek és matematikai, valamint statisztikai módszereket alkalmaztak következtetéseik levonására.

Danger Zone – Veszélyzóna. A programozási ismeretek és a szakterületi ismeretek ötvözete. Mindez alapvető matematikai felkészültség nélkül veszélyeket rejt magában. Erre még visszatérünk.

A hármas metszet, azaz a valódi közös rész:

Data Science  – Adattudomány. Ki az, aki mindezt „egy fejben” tudja? Ez team munkának tűnikTermészetesen zsenik is létezhetnek.

Példa a veszélyzónára

Az üzleti szituáció

Egy munkatársat megbíztak azzal, hogy az USA összes államában terjesszen egy terméket. Ennek érdekében sokat kellene repülőgéppel utaznia az államok összes nagy városába.

A probléma

Az illető végiggondolta, hogy manapság túl sok terrorista cselekmény történhet egy repülőgépen. Bármikor felkerülhet pl. a fedélzetre egy bomba.

Elment egy adattudóshoz. Elmesélte problémáját és javaslatot kért arra vonatkozóan, hogyan csökkenthetné a reá leselkedő fenyegetés valószínűségét.

A szükséges adatok begyűjtése és feldolgozása

Az adattudós biztosította, hogy a legjobb helyen jár, mivel az utóbbi 50 év minden légi járatáról rendelkeznek adatokkal, beleértve a terrorizmussal kapcsolatos eseményeket is.

A modell felállítása

Az adattudós az általa ismert legalkalmasabb matematikai modelleket lefuttatta a rendelkezésére álló adatokon.

A modell kiértékelése

Az adattudós a modellek kiértékelése alapján azt találta, hogy annak az esélye, hogy van egy bomba egy repülőgépen, pontosan egy az ezerhez. Ezt közölte is a megrendelővel.

A modell kritika alá helyezése

Az ügyfél megköszönte a választ, majd azt kérdezte, hogyan lehetne ezt a valószínűséget csökkenteni. Az adattudós kért egy kevés időt, hogy még fejlettebb elemzéseket futtasson le, majd a következővel állt elő.

Az eredmények prezentálása

– Javaslom, hogy amikor repülőre ül, mindig legyen magánál egy bomba.
– Úristen, miért?!
– A matematikai modellek azt mutatják, hogy annak a valószínűsége, hogy egyszerre két bomba legyen egy repülőgépen, már csak egy a millióhoz.