Prije nego što prijeđemo na uvod u Big Data, prvo morate znati
Što su podaci?
Količine, znakovi ili simboli na kojima računalo obavlja operacije koje se mogu pohraniti i prenijeti u obliku električnih signala i zabilježiti na magnetskim, optičkim ili mehaničkim medijima za snimanje.
Sada, naučimo uvod u velike podatke
Što su veliki podaci?
Veliki podaci zbirka su podataka velikog volumena, koji s vremenom eksponencijalno rastu. To su podaci tako velike veličine i složenosti da ih niti jedan od tradicionalnih alata za upravljanje podacima ne može pohraniti ili učinkovito obraditi. Veliki podaci su također podaci, ali ogromne veličine.
U ovom ćete tutorijalu naučiti,
- Što su podaci?
- Što su veliki podaci?
- Primjeri velikih podataka
- Vrste velikih podataka
- Karakteristike velikih podataka
- Prednosti obrade velikih podataka
Primjeri velikih podataka
Slijede neki od primjera velikih podataka -
New York Stock Exchange generira oko jedan terabajt novih trgovinskih podataka dnevno.
Društveni mediji
Statistički podaci pokazuju da se 500 + terabajta novih podataka svakodnevno unosi u baze podataka web stranice Facebook na društvenim mrežama . Ovi se podaci uglavnom generiraju u smislu prijenosa fotografija i videozapisa, razmjene poruka, stavljanja komentara itd.
Pojedinačni Jetov motor može generirati 10 + terabajta podataka u 30 minuta leta. S mnogo tisuća letova dnevno, generiranje podataka doseže do mnogih Petabajta.
Vrste velikih podataka
Slijede vrste velikih podataka:
- Strukturirano
- Nestrukturiran
- Polustrukturirano
Strukturirano
Svi podaci koji se mogu pohraniti, pristupiti im i obraditi u obliku fiksnog formata nazivaju se „strukturiranim“ podacima. Tijekom vremenskog razdoblja, talent u računalnim znanostima postigao je veći uspjeh u razvoju tehnika za rad s takvom vrstom podataka (gdje je format unaprijed dobro poznat), a također i iz toga proizlazi. Međutim, u današnje vrijeme predviđamo probleme kada veličina takvih podataka uvelike raste, tipične veličine su u bijesu od više zettabajta.
Znaš li? 10 21 bajta jednako 1 zettabyte-u ili jednoj milijardi terabajta tvori zettabyte-u .
Gledajući ove brojke lako se može razumjeti zašto je dato ime Big Data i zamisliti izazovi koji su povezani s njegovom pohranom i obradom.
Znaš li? Podaci pohranjeni u relacijskom sustavu upravljanja bazama podataka jedan su od primjera 'strukturiranih' podataka.
Primjeri strukturiranih podataka
Tablica 'Zaposlenik' u bazi podataka primjer je strukturiranih podataka
ID zaposlenika | Ime zaposlenika | Spol | Odjel | Plaća_U_lacima |
---|---|---|---|---|
2365 | Rajesh Kulkarni | Muški | Financije | 650000 |
3398 | Pratibha Joshi | Žena | Admin | 650000 |
7465 | Shushil Roy | Muški | Admin | 500000 |
7500 | Šubhojit Das | Muški | Financije | 500000 |
7699 | Priya Sane | Žena | Financije | 550000 |
Nestrukturiran
Svi podaci s nepoznatim oblikom ili strukturom klasificirani su kao nestrukturirani podaci. Osim što je veličina ogromna, nestrukturirani podaci predstavljaju višestruke izazove u pogledu njihove obrade radi izvlačenja vrijednosti iz njih. Tipičan primjer nestrukturiranih podataka je heterogeni izvor podataka koji sadrži kombinaciju jednostavnih tekstualnih datoteka, slika, videozapisa itd. Današnje organizacije imaju na raspolaganju mnoštvo podataka, ali nažalost, ne znaju kako iz toga izvući vrijednost ovi su podaci u sirovom obliku ili nestrukturiranom obliku.
Primjeri nestrukturiranih podataka
Izlaz koji je vratilo "Google pretraživanje"
Polustrukturirano
Polustrukturirani podaci mogu sadržavati oba oblika podataka. Polustrukturirane podatke možemo vidjeti kao strukturirane u obliku, ali zapravo nisu definirani npr. Definicijom tablice u relacijskom DBMS-u. Primjer polustrukturiranih podataka su podaci predstavljeni u XML datoteci.
Primjeri polustrukturiranih podataka
Osobni podaci pohranjeni u XML datoteci-
Prashant Rao Male 35 Seema R. Female 41 Satish Mane Male 29 Subrato Roy Male 26 Jeremiah J. Male 35
Rast podataka tijekom godina
Napominjemo da se podaci web aplikacije, koji su nestrukturirani, sastoje od datoteka dnevnika, datoteka povijesti transakcija itd. OLTP sustavi izgrađeni su za rad sa strukturiranim podacima u kojima su podaci pohranjeni u relacijama (tablicama).
Karakteristike velikih podataka
Veliki podaci mogu se opisati sljedećim karakteristikama:
- Volumen
- Raznolikost
- Brzina
- Varijabilnost
(i) Volumen - Sam naziv Veliki podaci povezan je s veličinom koja je ogromna. Veličina podataka igra vrlo presudnu ulogu u određivanju vrijednosti podataka. Također, može li se određeni podatak zaista smatrati velikim podacima ili ne, ovisi o količini podataka. Stoga je 'volumen' jedna karakteristika koju treba uzeti u obzir prilikom rada s velikim podacima.
(ii) Raznolikost - Sljedeći aspekt velikih podataka je njihova raznolikost .
Raznolikost se odnosi na heterogene izvore i prirodu podataka, kako strukturiranih tako i nestrukturiranih. Tijekom ranijih dana proračunske tablice i baze podataka bili su jedini izvori podataka koje je razmatrala većina aplikacija. Danas se u aplikacijama za analizu uzimaju u obzir i podaci u obliku e-pošte, fotografija, videozapisa, uređaja za nadzor, PDF-ova, zvuka itd. Ova vrsta nestrukturiranih podataka postavlja određena pitanja za pohranu, rudarenje i analizu podataka.
(iii) Brzina - Izraz "brzina" odnosi se na brzinu generiranja podataka. Koliko brzo se podaci generiraju i obrađuju kako bi udovoljili zahtjevima, određuje stvarni potencijal podataka.
Velika brzina podataka bavi se brzinom kojom podaci pristižu iz izvora kao što su poslovni procesi, zapisnici aplikacija, mreže i web stranice društvenih mreža, senzori, mobilni uređaji itd. Protok podataka je masivan i kontinuiran.
(iv) Varijabilnost - To se odnosi na nedosljednost koju podaci ponekad mogu pokazati, čime se ometa proces učinkovitog rukovanja i upravljanja podacima.
Prednosti obrade velikih podataka
Sposobnost obrade velikih podataka donosi višestruke koristi, kao što su
- Tvrtke mogu koristiti vanjsku inteligenciju dok donose odluke
Pristup društvenim podacima s tražilica i web-mjesta poput facebooka, twitter-a omogućuje organizacijama da precizno prilagode svoje poslovne strategije.
- Poboljšana korisnička usluga
Tradicionalni sustavi povratnih informacija kupaca zamjenjuju se novim sustavima dizajniranim s tehnologijama velikih podataka. U tim se novim sustavima koriste veliki podaci i tehnologije obrade prirodnog jezika za čitanje i procjenu odgovora potrošača.
- Rano utvrđivanje rizika za proizvod / uslugu, ako postoji
- Bolja operativna učinkovitost
Tehnologije velikih podataka mogu se koristiti za stvaranje pripremnog područja ili zone slijetanja za nove podatke prije utvrđivanja podataka koje treba premjestiti u skladište podataka. Uz to, takva integracija tehnologija velikih podataka i skladišta podataka pomaže organizaciji da istovari podatke kojima se rijetko pristupa.
Sažetak
- Definicija velikih podataka: Veliki podaci definiraju se kao podaci velike veličine. Bigdata je izraz koji se koristi za opisivanje zbirke podataka velike veličine, a koja vremenom eksponencijalno raste.
- Primjeri analitike velikih podataka uključuju burze, web stranice društvenih medija, mlazne motore itd.
- Veliki podaci mogu biti 1) strukturirani, 2) nestrukturirani, 3) polustrukturirani
- Volumen, raznolikost, brzina i varijabilnost su neke od značajki velikih podataka
- Poboljšana korisnička usluga, bolja operativna učinkovitost, bolje donošenje odluka nekoliko su prednosti Bigdata