Skip to content
Home » Hétköznapi adatelemzés – kinek és mit higgyünk el?

Hétköznapi adatelemzés – kinek és mit higgyünk el?

adatelemzes

Gyakran megtaláljuk a módját, hogy elvessük azokat a bizonyítékokat, amelyek nem kedvünkre valók. Illetve ha úgy látjuk, hogy a bizonyítékok alátámasztják az előzetes véleményünket, akkor kisebb valószínűséggel kezdünk el hibát keresni bennük. A pszichológusok ezt motivált érvelésnek nevezik, ami azt jelenti, hogy azzal a tudattalan céllal gondolunk végig egy helyzetet, hogy egy bizonyos következtetésre jussunk. Sokszor tehát mi magunk nem akarjuk meglátni a dolgok valódi lényegét.

1. Nem gondolkodunk racionálisan

A nagyobb szakértelemmel rendelkezők jobban le tudják leplezni a csalást, ám ha a motivált érvelés csapdájába esnek, több érvet is fel tudnak sorolni, hogy azt hihessék, amit valójában hinni akarnak.

A motivált érvelés hatékony eszköz lehet, hogy meggyőzzünk másokat vagy erősítsük saját álláspontunkat olyan ügyekben, amelyek fontosak vagy érzékenyek számunkra.

Az érzelmi és erkölcsi indokok sokszor erőteljesebb hatást gyakorolnak az emberekre, mint a száraz logikai érvek, mivel az érzelmek erőteljesen befolyásolják gondolkodásunkat és döntéseinket.

Fontos azonban megérteni, hogy a motivált érvelésnek is vannak korlátai és kockázatai. Ha túlzottan támaszkodunk az érzelmekre és az erkölcsi megfontolásokra, akkor lehet, hogy figyelmen kívül hagyjuk a tényeket vagy elfogultságot vezetünk be az érvelésünkbe.

Ez pedig csökkentheti az érvelésünk hitelességét és meggyőzőerejét mások szemében.

Ha olyan bizonyítékokkal találjuk szemben magunkat, amelyek nincsenek ínyünkre, feltesszük magunknak a kérdést: „Muszáj ezt elhinnem?” A több adat gyakran több lehetőséget kínál arra, hogy hézagokat találjunk az érvelésben.

Ha pedig olyan bizonyítékokat látunk, amelyekkel egyetértünk, másféle kérdést teszünk fel: „El tudom hinni ezt?” A több adat itt több fogódzót nyújt, amelyekben hitünk szerint megkapaszkodhatunk. Az eredmény tehát ellentmond a hagyományos logikának.

Ha már előzetesen határozott véleménnyel rendelkezünk, akkor ráharapunk a kívánatos bizonyítékokra, az azzal ellentétes adatokat vagy érveket viszont zavarónak találjuk. Az új bizonyítékoknak ez az elfogult feldolgozása azt jelenti, hogy minél többet tudunk, annál pártosabban gondolkodhatunk egy vitatott kérdésről.

2. Az érzéseink irányítják döntéseinket

adatelemzes

Az emberi fejlődés több százezer éve arra nevel, hogy nagyon fontos beilleszkednünk a körülöttünk lévők közé. Ez segít megmagyarázni azt, hogy a tájékozottabbakat jobban fenyegeti a motivált érvelés a politikailag megosztó témákban.

Az érzéseink nagyban alakítják a gondolkodásunkat. Ha azonban nem tanulunk meg uralkodni az érzéseinken, akár arra bíztatnak, hogy kételkedjünk, akár arra, hogy higgyünk, akkor fennáll a veszélye, hogy bolondot csinálunk saját magunkból.

A naív realizmus alaposan félrevezethet bennünket, ha a világról alkotott személyes perspektívánkat összekeverjük valamiféle univerzális igazsággal.

Meglepődünk, ha egy választás nem a mi szájunk íze szerint alakul. A mi társasági körünkben mindenki egyetértett velünk, hogyan szavazhatott hát másképp az ország?

3. Legtöbbször téves a világról alkotott felfogásunk

A felmérések nem mindig adnak helyes képet. A naív realizmus nagyon erős illúzió. Nézzük meg például az Ipsos MORI közvéleménykutató cég egyik felmérését.

Az Ipsos MORI egy londoni székhelyű piackutató cég neve volt, amely ma Ipsos néven ismert, és a mai napig a globális Ipsos csoport egyesült királyságbeli ágaként működik. Forrás: Wikipédia

A MORI 38 országban közel 30 ezer embert kérdezett meg egy sor társadalmi ügyről, és megállapította, hogy a többség véleménye kevéssé áll összhangban azzal, amit a hiteles statisztikák mutatnak.

  • Tévedünk a gyilkossági mutatókkal kapcsolatban. Azt gondoljuk, hogy 2000 óta emelkednek, pedig a legtöbb vizsgált országban csökkennek.
  • Azt gondoljuk, hogy a terrorcselekmények több áldozatot szedtek az elmúlt 15 évben, mint az azt megelőző 15-ben, pedig kevesebbet.
  • Azt gondoljuk, hogy a fogva tartottak 28%-a bevándorló, pedig az Ipsos MORI a valódi arányt a vizsgált országokban 15% körülire tette.

Miért ennyire téves a világról alkotott felfogásunk? Nehéz biztosan megmondani, de egy elképzelhető ok lehet, hogy a médiából szerezzük a benyomásainkat. Nem arról van szó, hogy egy jó nevű újság vagy televíziós csatorna rossz adatokat szolgáltatna, bár erre is láttunk példát.

4. Amikor az adatok manipulálják az embereket

Például, ha több orvos közösen gyűjt és elemez klinikai eredményekkel kapcsolatos adatokat, akkor együtt valószínűleg rájönnek valami olyasmire, ami segíti őket, hogy jobban végezzék a munkájukat.

Ha azonban az orvosok főnökei ezután úgy döntenek, hogy a bónuszjuttatásokat vagy a szakmai előmenetet ezeknek az adatoknak a javulásához kötik, az előreláthatóan nem kívánatos következményekkel jár.

Több kutatásból derült már ki például, hogy szívsebészek nem hajlandók megműteni a legrosszabb állapotban lévő betegeket attól való félelmükben, hogy esetleg csökkenhet a sikerességi mutatójuk.

adatelemzes

A brit kormány egy időben adatokat gyűjtött arról, hány napot kell várakozniuk a betegeknek, mire időpontot kapnak az orvosoknál, amit valóban nem árt tudni. A kormány azonban ezután célul tűzte ki az átlagos várakozási idő csökkentését.

Az orvosok erre – logikus módon – úgy reagáltak, hogy a továbbiakban nem fogadtak bejelentkezéseket több napra előre. A betegek minden reggel betelefonáltak és reménykedtek, hogy az elsők között lesznek. A várakozási idő így nyilvánvalóan mindig egy napnál rövidebb volt.

Mi történt, amikor az amerikai felsőoktatási intézményeket rangsoroló, sokak által olvasott U.S. News & World Report jobb minősítést adott azoknak az intézményeknek, amelyek jobban válogattak a felvételizők között?

A túltelített egyetemek igyekeztek még több jelentkezőt vonzani, akiket aztán elutasíthattak, mert ezzel válogatósabbnak tűntek.

5. Akarjuk megismerni a valóságot!

Bárhol éljünk is, ha szegények vagyunk, valószínűleg a Földön alszunk, a család más tagjaival egy helyiségben. Ha van pénzünk, akkor kényelmes ágy és magánszféra is jár.

A kulturális sajátosságnak tartott dolgok nagy részéről kiderül, hogy valójában anyagi különbségekből fakadnak.

adatelemzes
A Dollar Street egy olyan projekt, amelyet a Gapminder Foundation hozott létre, és célja, hogy megmutassa a világ lakóinak életét és életszínvonalát azáltal, hogy összehasonlítja és megjeleníti a különböző országok lakosságának életkörülményeit és fogyasztási szokásait. A Dollar Street-en keresztül lehetőség van betekintést nyerni a világ különböző részein élő emberek mindennapjaiba, otthonaikba, munkájukba és az általuk használt tárgyakba. A weboldal képekkel és rövid leírásokkal mutatja be az emberek életét különböző jövedelmi szinteken, és lehetővé teszi a felhasználók számára, hogy összehasonlítsák az életszínvonalat és a fogyasztási szokásokat különböző országokban és kultúrákban.

A számokból sohasem tudhatjuk meg teljesen, milyen is az élet a Földön. Ha nem értjük a statisztikát, valószínűleg súlyosan tévedünk a világ állapotával kapcsolatban.

Nagyon könnyen meggyőzzük magunkat, hogy amit a saját szemünkkel látunk, az a teljes igazság, holott nem az.

Az ok-okozati összefüggések megértése még pontos statisztikai adatok birtokában is kemény feladat, nélkülük azonban egyenesen reménytelen. Mégis, ha csak a statisztikákat értjük, messze vagyunk még a teljes megértéstől.

Ugyanolyan kíváncsinak kell lennünk a látható, hallható, tapintható és szagolható világra is, mint arra, amit egy táblázaton keresztül ismerhetünk meg.

6. Konformitás – amikor igazodni akarunk a csoportnormához

Majdnem hét évtizeddel ezelőtt a neves pszichológus Solomon Asch adott egy egyszerű feladatot 123 kísérleti személynek. Két illusztrációt mutatott nekik. Az egyiken három egymástól igen eltérő vonal, a másikon pedig egy referencia vonal volt látható.

Asch arra kérte őket válasszák ki azt az egyenest az első képről, amelyik ugyanolyan hosszú, mint a referencia ábráé. A feladatban azonban volt egy trükk.

Asch minden kísérleti személy köré beépített embereket ültetett, akik egybehangzóan az egyik nem megfelelő vonalat választották.

A zavarba jött kísérleti alanyok gyakran, bár nem minden esetben, meghajoltak a többiek hibás véleménye előtt. A konformitás erőteljes és széles körben tapasztalható hatás.

Adódik azonban a következő kérdés, változik-e a konformitás kényszerének ereje attól függően, kire hat a nyomás és kinek kell alávetnie magát?

A szociálpszichológiában a konformitás annak a mértéke, hogy a csoport tagjai mennyire hajlandóak megváltoztatni viselkedésüket, érzéseiket, nézeteiket és attitűdjüket, hogy azok jobban illeszkedjenek a csoportnormához. A csoportnormák a csoport magatartásának szabályait jelentik. Forrás: Wikipédia

A résztvevők nagyobb mértékben idomultak a barátaik csoportjához, mint idegenekéhez. Ha a többiek között nem volt összhang, a kísérleti allanyok minden további nélkül a helyes választ adták, még akkor is, ha egyedül voltak ezzel a véleményükkel.

Mindez arra utal, hogy a konformitás egyik gyógymódja, ha egy sokszínű csoporttal közösen hozunk döntéseket.

7. A Big Data felhasználása

A népszámlálás, a statisztikai adatgyűjtés egyik legrégebbi módja. Ennél sokkal újabb, de ugyanúgy minden egyes ember elérésére törekszik a Big Data.

Egyik forrása az adminisztratív adatok: ha például könyvtári olvasójegyet váltunk, befizetjük a jövedelemadónkat, szerződést kötünk egy mobiltelefon szolgáltatóval, vagy útlevelet igénylünk.

Big Data jelentése: az egyre nagyobb mennyiségben és változatosságban keletkező adatokra utal, és egyben ezen adatok begyűjtését, feldolgozását és elemzését is jelenti. Ez az adatelemzés új fázisa, az új típusú adatalapú gazdaság sarokköve. Léteznek strukturált, illetve nem strukturált adatok. A strukturált adatok többnyire számszerű adatokat tartalmaznak rendezett adatbázisokban, vagy különféle táblázatokban. Ilyennek tekinthetőek a különféle statisztikai hivatalok által elérhetővé tett adatok, esetleg a termelő vállalatoknál gyűjtött termelési adatok. A nem strukturált adatok ezzel szemben rendszerezetlenek és szemben a strukturált adatokkal, itt a formátum nem meghatározott, általában különféle típusú adatok összességeként írhatók le. A nem strukturált adatok közé tartoznak például a különféle közösségi média platformok által gyűjtött adatok, mint a hozzászólások, megosztások, kedvelések vagy a keresőplatformok által gyűjtött keresési adatok és kattintások. – Forrás: HOLD Alapkezelő

A Big Data azonban még az adminisztratív adatoknál is nagyobb mértékben táplálkozik a talált adatokból. Ezeket a nyomokat úgy hagyjuk magunk után, hogy észre sem vesszük.

Csupán azzal, hogy magunkkal visszük az okostelefonunkat, keresünk a Google-ben, online fizetünk, posztoljuk a gondolatainkat vagy fényképeket a közösségi médiában, vagy melegebbre állítjuk az okostermosztátunkat.

Nemcsak a nevünket és a hitelkártyánk adatait áruljuk el a Netflixnek, információt szolgáltatunk azzal is, hogy mit nézünk, mikor nézünk, vagy éppen mikor nem nézünk, és még sok egyéb módon.

Ha az ilyen adatokat céltudatosan kikaparjuk a kibertérből, az így kapott kép sok szempontból torz lehet.

8. Az adatelemző algoritmusok korlátai

A nagy adathalmazok elemzésére használt algoritmusokat talált adatokkal tanítják, amelyekben finom torzítások lehetnek.

A főként világosabb arcokkal és férfi hangokkal tanított algoritmusok például összezavarodhatnak, ha később női beszédet vagy sötétebb arcbőr látványát kell értelmezniük.

Részben állítólag ez a magyarázata, hogy a Google fotószoftvere miért keverte össze sötétbőrű emberek fényképeit gorillákéval, és hogy a Hewlett-Packard webkamerái miért nem aktiválódtak, ha sötét bőrtónusú emberekkel irányították őket.

Vagy hogy a Nikon fényképezőgépei, amelyeket úgy programoztak, hogy ismételjék meg a felvételt, ha úgy érzékelik, valaki belepislogott, kínaiak, japánok vagy koraiak esetében újra és újra exponáltak, mert a jellegzetesen kelet-ázsiai szemformát összetévesztették a pislogással.

Az ilyen típusú hibák gyökere részben abban rejlik, hogy az algoritmusokat olyan adatokkal tanítják meg, amelyekből nem feltétlenül reprezentatív kép alakul ki.

9. Az algoritmus (nem) menti meg a világot

2020 tavaszán olyan új alkalmazások jelentek meg, amelyek a fejlesztők ígérete szerint a köhögésünkből megállapítják, van-e COVID-19-ünk vagy valamilyen más betegségünk.

A Google kutatóinak egy csoportja 2019-ben figyelemreméltó eredményt tett közzé a világ egyik vezető tudományos folyóiratában, a Nature-ben. Sikerült anélkül követni az influenza terjedését az Egyesült Államokban, hogy egyetlen orvosi vizsgálatot is elvégeztek volna.

Sőt, ezt gyorsabban oldották meg, mint a Járványügyi és Betegségmegelőzési Központ (CDC), amely az orvosi beavatkozásokról érkező jelentésekre támaszkodott.

A Google algoritmusa mintákat keresett a CDC 2003 és 2008 közötti adataiban, és sikerült összefüggés feltárnia az influenzás esetek előfordulása és aközött, amire az emberek az adott körzetben és adott időszakban rákerestek az interneten.

Az algoritmus, a minta felismerése után az aznapi keresések alapján meg tudta becsülni az aktuális influenzás esetek számát, méghozzá egy héttel vagy még többel azelőtt, hogy a CDC publikálta volna a saját hivatalos jelentését.

Egyszerűen betáplálták az 50 millió leggyakoribb kifejezést, és hagyták, hogy az algoritmusok végezzék a dolgukat.

Az eredeti Nature tanulmány megjelenése után négy évvel, miután több télen keresztül gyors és megbízható jelentéseket készített a betegség terjedéséről, az elméletmentes adatintenzív modell elvesztette a jó szaglását.

A Google modellje súlyos járványt jósolt, amikor azonban megérkeztek a CDC lassú, de megbízható adatai, azokból az derült ki, hogy a Google túlbecsülte az influenzaszerű megbetegedések terjedésének ütemét, egy alkalommal a valódi számok több mint kétszeresét jelezte előre.

A Google Flu Trends projektet nem sokkal ezután le is állították. Mi mehetett félre? A Google nem tudta, hogy mi kapcsolja össze a keresési kifejezéseket az influenza terjedésével.

A Google fejlesztői nem próbálták meg kitalálni, mi okozhat mit. Ők csak statisztikai mintázatokat kerestek az adatokban, ezek az algoritmusok erre valók.

10. Mire alkalmas az algoritmus?

Ahogy a kommunikáció, a pihenés és a kereskedelem is egyre inkább az internetre költözik, az internet pedig megjelenik a telefonunkon, az autónkban, sőt még a szemüvegünkön is, az élet olyan mértékben rögzíthetővé és számszerűsíthetővé válik, amit akár csak egy évtizeddel ezelőtt is igen nehéz lett volna elképzelni.

adatelemzes

Algoritmusokat és nagy adathalmazokat használnak mindenre. Ezek keresnek nekünk szerelmet, és ezek segítségével döntik el, hogyha bűncselekmény elkövetésével vádolnak, börtönbe vonuljunk-e a tárgyalás előtt, vagy lehetőségünk legyen óvadékot letenni.

Mindenkinek tisztában kell lennie azzal, mi is ez az adathalmaz, és mi mindenre lehet felhasználni. Nagyon izgalmasnak tartsuk-e a Big Data-t, vagy féljünk tőle?

A sztori szerint egy férfi berontott a Target egyik áruházába Minneapolis közelében, és dühősen elpanaszolta az üzletvezetőnek, hogy egy cég gyerek és kismamaruhákra beváltható kuponokat küldözget a lányának.

Az üzletvezető nem győzött bocsánatot kérni, majd később még fel is hívta az illetőt, hogy ismét bocsánatot kérjen, amikor is közölték vele, hogy a tinédzser lány valóban gyermeket vár.

Az apja nem tudott róla. A Target ellenben – mivel a lány nem illatosított törlőkendőket és étrendkiegészítőket vásárolt – igen.

Azért gondolkodjunk el egy pillanatra azon, vajon mennyire elképesztő teljesítmény kikövetkeztetni valakinek a vásárlási szokásaiból, vagy az illető várandós. Nem különösebben.

Néhány potenciális aggály a Big Data kapcsán:

  1. Adatvédelem és magánélet védelme: A nagy adatmennyiségek gyűjtése és elemzése során felmerülhet az egyének magánéletének megsértésének kockázata. Az emberek gyakran aggódnak azért, hogy az adataikat nem megfelelően védi vagy felhasználja a big data elemzés során.
  2. Diszkrimináció és elfogultság: A big data elemzések során előfordulhat, hogy az algoritmusok diszkriminatív vagy elfogult eredményeket produkálnak.
  3. Adatbiztonság: A nagy adatmennyiségek tárolása és feldolgozása során felmerülhet az adatbiztonság kockázata, például az adatlopás vagy a hackertámadások veszélye.

11. Mennyire bízzunk az algoritmusokban?

Nem igazán számít, hogy milyen pontosággal érnek célba a target rugdalózó kuponjai.

Az azonban már számít, ha a hatalmon lévőket hasonlóképpen lenyűgözik olyan algoritmusok, amelyeket nem értenek, és ezekre támaszkodva hoznak az életünket alapvetően befolyásoló döntéseket.

Bár nehezen tudjuk kivédeni a hibázást. Az emberek egy részének előítéletei vannak, sokan közülük gyakran fáradtak, hajszoltak és túlterheltek, és minden ember, nos, emberi.

A gond tehát nem az algoritmusokkal, és nem is a nagy adathalmazokkal van. A problémát a vizsgálat, az átláthatóság és a vita hiánya jelenti.

Hozzáférhetők a döntés alapjául szolgáló adatok? Alaposan felmérték az algoritmus működését? Például végeztek véletlenszerű tesztet, hogy kiderítsék?

Az emberek az algoritmus tanácsaival, vagy azok nélkül hoznak-e jobb döntéseket? Kaptak lehetőséget az algoritmus értékelésére független szakértők? Mire jutottak?

Nem szabad egyszerűen abból kiindulnunk, hogy az algoritmusok jobb munkát végeznek, mint az emberek. Ahogy azt sem szabad feltételeznünk, hogyha az algoritmus hibás, akkor az emberek hibátlanok lesznek.

12. A mindenkori hatalom és a statisztika

Semmi baj azzal, hogy a kormány statisztikai adatokat gyűjt a tájékozódáshoz.

Fennáll azonban a kockázat, hogy a politikusok egy idő után nemcsak azt gondolják, hogy statisztikai adatokra van szükségünk az ország irányításához, hanem azt is, hogy ezek az adatok senki másra nem tartoznak. A külső ellenőrzés csak bosszúságot jelent.

A tények már nem csupán tények többé, hanem a hatalom eszközeivé válnak. A jó statisztika nem csak a kormányzati tervek készítőit szolgálja, hanem az emberek sokkal szélesebb csoportja számára jelent értéket.

Az üzleti szektor a kormány által összegyűjtött adatok alapján tervezi meg a termelési célokat és egyéb tevékenységeiket.

13. Agyunk folyamatosan szűkös információk alapján próbálja felfogni a világot

Ehhez előrejelzéseket készít arról, amire számít, és maga tölti ki a hézagokat, gyakran meglepően hiányos adatok felhasználásával.

Ezért tudunk követni egy rutinszerű telefonbeszélgetést a rossz vonalon keresztül is, egészen addig, amíg a recsegésen át el nem hangzik valami valóban új információ, például egy telefonszám vagy lakcím.

Csak akkor vesszük észre, milyen rossz a vonal, ha nem tudjuk kitölteni a hézagokat. Sokfelé tetten érhető az a jelenség, hogy azt érzékeljük, amit előzetesen elvárunk.

Annak, hogy a tények ismerete sem mindig késztet a véleményünk módosítására részben az az oka, hogy igyekszünk elkerülni a kényelmetlen igazságokat. A közösségi médiában eldönthetjük, kit követünk és kit tiltunk le.

A tévécsatornák, podcastek és online videók hatalmas kínálatából választhatjuk ki, mit nézünk meg és mivel nem foglalkozunk. Ha mégis le kell nyelnünk néhány kellemetlen tényt, akkor sem kell aggódnunk, bármikor megtehetjük, hogy szelektív módon emlékezünk rájuk.

Legyünk kíváncsiak és ne féljünk kérdezni!


Forrás:

  • Kenneth Cukier, Viktor Mayer-Schönberger: Big Data
  • Hannah Fry: Emberek és gépek
  • Tim Harford: Adatdetektív

Vélemény, hozzászólás?

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük