Mi is az a Big Data?

Napjaink egyre többet emlegetett technológiája a Big Data. 2 éve még alig lehetett itthon hallani róla, csak 1-2 cég emlegette, hogy ez is létezik, most pedig úgy néz ki, hogy már a legtöbb óriásvállalat bele akar vágni (ha még nem tette). Egyre több előadás és szeminárium kerül megrendezésre e téma köré építve. De mi is ez? Mire jó és mire használható? Miért kell?
A Big Data (magyarra fordítva a Nagy Adat) nem más, mint egy adattárolási és -feldolgozási technológia, amivel akár több terabyte információt lehet nagyon gyorsan elmenteni és visszakeresni vagy analizálni.
Gondoljunk bele, hogy a Facebook-ra naponta 600 TB szöveget, fotót és videót töltünk fel.
A youtube másodpercenként 72 órányi videót tárol el.
A Twitteren 280.000 üzenet jelenik meg ugyanennyi idő alatt.
De hozhatnánk példának akár az eBay-t, az Amazont, az Apple-t vagy a Google-t.
Ezek kezelésére a szokásos szerveralkalmazások képtelenek, ezért kell a Big Data. A technológia alapjait 2003-ban a Google publikálta GFS (Google distributed File System) néven, mely az adathalászat közben létrejött nagy fájlok és indexelési folyamatok során felbukkanó adattárolási problémákat hivatott kezelni. Ennek lényege, hogy Java-alapú fájlrendszert hoznak létre több gépen (ezeket DataNode-nak hívjuk), az 1-1 gépben lévő merevlemezeket egyként kezelve. A feltöltött fájlokat beállítható méretű blokkokra vágja a rendszer (alapból 128 MB) és a DataNode-ok között szétosztva, párhuzamosan tárolja. Míg az első blokk íródik egy DataNode-ra, a második blokk beérkezik és egy másikon kerül mentésre. A különálló blokkok aztán replikálódnak a többi gép között (alapból 3x, de a replikációs faktor konfigurálható), így biztosítva az állandó elérhetőséget (ha egy DataNode valami miatt elérhetetlen még mindig van 2 másik ahonnét ugyan az a blokk visszaolvasható). Egyik nagy előnye, hogy ugyanezeket nagyon gyorsan vissza is lehet keresni és olvasni, hiszen ez a folyamat több gépről párhuzamosan történik. Mindez nem igényel hatalmas anyagi befektetést, mert általános szervergépeken is zavar nélkül működik.
Felmerül a kérdés, hogy mikor is jön ez jól? Például ha egy több terabyte-os adattáblát kell végigkutatni egy kis méretű információ után, mert keresés egyszerre akár 50 vagy 100 rendszeren is futhat, természetesen párhuzamosan.
S miért kell ilyet használni? Mert manapság nem azt a kort éljük, hogy “ami nem kell töröld le a merevlemezről!”. Pont ellenkezőleg. A fotóink és videóink mellett ezeket is a bárhonnét elérhető felhőbe mentjük, hogy ha később kell majd elérhető legyen. A nagyvállalatok pedig semmit nem törölnek le mert az információ és az adat drága kincs. Hallottam egy példát, ahol egy beosztottat kirúgtak egy vállalattól, ez a személy bosszúból ellopott 2 TB emberi információt (például ki mit szokott vásárolni, napi zenehallgatási szokások, aktivitásórák által mért értékeket mint például alvási ciklusok, napi megtett lépésszám, testsúlyingadozás, stb) és eladta egy másik vállalatnak. Az úriember milliomos lett.
Ha sok ember szokásait elemezzük, kimutathatóak különböző trendek. Egy cég például analizálta a webboltján böngésző nők vásárlási szokásait és megfigyelték, hogy milyen redszerességgel vásárolnak egy adott terméket. Kimutatható volt egy ciklikusság és erre alapozva egy héttel a várható vásárlás előtt megjelent nekik ennek a terméknek reklámja az oldalon; ez 220%-os eladásnövekedést okozott.

Erik Fitzpatrick licensed CC BY 2.0

A technológia természetesen jóval több mint csupán a GFS, egy komplex és több elemből álló rendszer, erőforráselosztással, adatkövetéssel, metaadattárolással, adattáblakezeléssel. Egy érdekes, egymásra épülő ökoszisztéma.

S én ezzel dolgozom.

Advertisements

Vélemény, hozzászólás?

Adatok megadása vagy bejelentkezés valamelyik ikonnal:

WordPress.com Logo

Hozzászólhat a WordPress.com felhasználói fiók használatával. Kilépés / Módosítás )

Twitter kép

Hozzászólhat a Twitter felhasználói fiók használatával. Kilépés / Módosítás )

Facebook kép

Hozzászólhat a Facebook felhasználói fiók használatával. Kilépés / Módosítás )

Google+ kép

Hozzászólhat a Google+ felhasználói fiók használatával. Kilépés / Módosítás )

Kapcsolódás: %s