Mi is az a Big Data?

Napjaink egyre többet emlegetett technológiája a Big Data. 2 éve még alig lehetett itthon hallani róla, csak 1-2 cég emlegette, hogy ez is létezik, most pedig úgy néz ki, hogy már a legtöbb óriásvállalat bele akar vágni (ha még nem tette). Egyre több előadás és szeminárium kerül megrendezésre e téma köré építve. De mi is ez? Mire jó és mire használható? Miért kell?
A Big Data (magyarra fordítva a Nagy Adat) nem más, mint egy adattárolási és -feldolgozási technológia, amivel akár több terabyte információt lehet nagyon gyorsan elmenteni és visszakeresni vagy analizálni.
Gondoljunk bele, hogy a Facebook-ra naponta 600 TB szöveget, fotót és videót töltünk fel.
A youtube másodpercenként 72 órányi videót tárol el.
A Twitteren 280.000 üzenet jelenik meg ugyanennyi idő alatt.
De hozhatnánk példának akár az eBay-t, az Amazont, az Apple-t vagy a Google-t.
Ezek kezelésére a szokásos szerveralkalmazások képtelenek, ezért kell a Big Data. A technológia alapjait 2003-ban a Google publikálta GFS (Google distributed File System) néven, mely az adathalászat közben létrejött nagy fájlok és indexelési folyamatok során felbukkanó adattárolási problémákat hivatott kezelni. Ennek lényege, hogy Java-alapú fájlrendszert hoznak létre több gépen (ezeket DataNode-nak hívjuk), az 1-1 gépben lévő merevlemezeket egyként kezelve. A feltöltött fájlokat beállítható méretű blokkokra vágja a rendszer (alapból 128 MB) és a DataNode-ok között szétosztva, párhuzamosan tárolja. Míg az első blokk íródik egy DataNode-ra, a második blokk beérkezik és egy másikon kerül mentésre. A különálló blokkok aztán replikálódnak a többi gép között (alapból 3x, de a replikációs faktor konfigurálható), így biztosítva az állandó elérhetőséget (ha egy DataNode valami miatt elérhetetlen még mindig van 2 másik ahonnét ugyan az a blokk visszaolvasható). Egyik nagy előnye, hogy ugyanezeket nagyon gyorsan vissza is lehet keresni és olvasni, hiszen ez a folyamat több gépről párhuzamosan történik. Mindez nem igényel hatalmas anyagi befektetést, mert általános szervergépeken is zavar nélkül működik.
Felmerül a kérdés, hogy mikor is jön ez jól? Például ha egy több terabyte-os adattáblát kell végigkutatni egy kis méretű információ után, mert keresés egyszerre akár 50 vagy 100 rendszeren is futhat, természetesen párhuzamosan.
S miért kell ilyet használni? Mert manapság nem azt a kort éljük, hogy “ami nem kell töröld le a merevlemezről!”. Pont ellenkezőleg. A fotóink és videóink mellett ezeket is a bárhonnét elérhető felhőbe mentjük, hogy ha később kell majd elérhető legyen. A nagyvállalatok pedig semmit nem törölnek le mert az információ és az adat drága kincs. Hallottam egy példát, ahol egy beosztottat kirúgtak egy vállalattól, ez a személy bosszúból ellopott 2 TB emberi információt (például ki mit szokott vásárolni, napi zenehallgatási szokások, aktivitásórák által mért értékeket mint például alvási ciklusok, napi megtett lépésszám, testsúlyingadozás, stb) és eladta egy másik vállalatnak. Az úriember milliomos lett.
Ha sok ember szokásait elemezzük, kimutathatóak különböző trendek. Egy cég például analizálta a webboltján böngésző nők vásárlási szokásait és megfigyelték, hogy milyen redszerességgel vásárolnak egy adott terméket. Kimutatható volt egy ciklikusság és erre alapozva egy héttel a várható vásárlás előtt megjelent nekik ennek a terméknek reklámja az oldalon; ez 220%-os eladásnövekedést okozott.

Erik Fitzpatrick licensed CC BY 2.0

A technológia természetesen jóval több mint csupán a GFS, egy komplex és több elemből álló rendszer, erőforráselosztással, adatkövetéssel, metaadattárolással, adattáblakezeléssel. Egy érdekes, egymásra épülő ökoszisztéma.

S én ezzel dolgozom.

Facebook Idővonal

E hét szerdáig szabadságon voltam és csütörtökön amikor bekapcsoltam a gépemet és fellátogattam a címben szereplő szociális oldalra a következő felirat fogadott:

Mi is ez az idővonal-dolog? Úgy emlékszem, hogy március vagy április óta riogatott vele a Facebook és most jött el az idő, hogy komolyabban foglalkozzam is vele. Amit eddig tudok: aki magyarra fordította az angol szöveget nem tud magyarul (“augusztus 30.-ig”. Tessék?? Ülj le fiam, egyes!). Továbbá: van egy borítókép (aminek a méretét 851×315 pixelre érdemes szabni különben elég darabos lesz a kép) ami a személyiségemet hivatott megmutatni. Ezzel nincs semmi baj. Arra kérnek még, hogy frissítsem a személyes adataimat, például azt, hogy mikor hol dolgoztam, kikkel. Ez már kicsit zavaró, nem elég, hogy tudják, hogy milyen a zenei ízlésem, mik a kedvenc filmjeim, könyveim, még akkor vezessem fel azt is, hogy mettől meddig kikkel dolgoztam? Ez olyan mint valami bírósági alibizés amikor az esküttszéknek megmondod, hogy a vádlott bizony éjfélig veled ivott a kocsmában. Tegyük túl rajta magunkat; folytassuk mit szeretnének még.
Legyek aktívabb és mutassam meg mindenkinek, hogy videót töltöttem fel tecsőre (youtube-ra), hogy a saját videóm nekem tetszik és amúgy is írogassam be félóránként ami a fejemben van, mert az jól fog kinézni az Activitylog-ban (aktivitásnaplóban), ahol szépen, dátumokkal jelölve vissza lehet követni, hogy mikor mire is gondoltam. Aha, köszönöm de nem! Jöjjön az utolsó dolog, a lehető legostobább ötlet: jelölgessem be magam a saját térképemen!
Nem! Ez az amit biztos, hogy nem fogok megtenni. A hivatalos szöveg magyarul az, hogy “A térképeden látszik az összes olyan hely amit meglátogattál, legyen az egy bejelentkezésed (“becsekkolás”, ahogy manapság hívjuk) egy közeli helyen a telefonodról vagy az életed egy eseménye amit az idővonalon feltüntetsz”. Tehát nem elég, hogy a mobilszolgáltató nyomonköveti minden léptedet (mint azt a HVG megírta), még te is tudtára adhatod a világnak, hogy a lakásodtól nagyjából 50 kilóméterre vagy hulla fáradtan! Majd én szolgáltatom magamról az adatokat mindenkinek, nem kell megfigyelni! Nem vagyok paranoiás de ez akkor is túlzás egy kicsit tőlük.
Az egyedüli jó amit találtam az a részletesebb biztonsági beállítás. Azt tényleg hasznosnak találom, hogy minden bejegyzéshez, fotóhoz vagy megszólaláshoz megadhatom, hogy ki láthatja és ki nem, kikkel mit osztok meg.
Azt hiszem ennyi talán elég is nekem az idővonalból, bőven megelégedtem volna ha kapok egy borítóképet.
Aki utána akar olvasni a dolgoknak az ITT megteheti

A QR kódokról

Németországban bélyeg helyett ilyet kap az ember mikor online vásárol, a tömegközlekedés jegyein is ez díszeleg, a futárszolgálatok már régóta használják és hazánkban is egyre több helyen találkozunk vele. Miről van szó? A QR -, vagyis a Quick Response (gyors válasz) kódról mely egy 2 dimenziós vonalkódrendszer. Elődjétől annyiban különbözik, hogy itt nem csak egy sor van ami az adatot tárolja, így jóval több információt képes továbbadni, ráadásul a hibatűrése is jobb (tehát hiába koszos vagy kopott a kód, az esetek többségében még be lehet olvastatni).
A rendszert a japán Denso Wave fejlesztette ki még 1994-ben; 2000-ben nemzetközi szabvány lett amit többször is kiegészítettek, ez 2006 óta mondhatni változatlan.
Nagyon sok helyen felhasználható, így például a logisztikában/iparban (előszeretettel használják raktárakban a jó hibatűrése miatt), reklámokban (pl óriásplakátok), tömegközlekedésben, nyereményjátékokban, weblapon (például a wmpoweruser oldal a külső hivatkozásait QR kódokkal oldja meg).
A legtöbb okostelefon képes beolvasni (Android és Windows Phone 7 minden kiegészítő nélkül képes rá, a rendszer alapból lehetőséget ad erre) de ehhez internetelérés kell (wifi vagy mobilinternet).

A Mindenkinet.wordress.com oldal kódja így néz ki (a facebook-os rajongói oldal képe is erre lett lecserélve):
Mindenkinet QR code

Akit érdekelnek a részletek olvassa el a wikipédia cikket a témáról.