Из техничких разлога садржај читалишта можете пратити искључиво на латиници.

Šta je to Big Data? Sve što treba znati

Analiziranje velike količine podataka je samo deo onog što razlikuje analizu Big Data od ranijih analiza podataka. Saznajte šta su ostali aspekti. Postoje podaci, a onda postoji Big Data. Pa, koja je razlika? 

Definicija Big Data

Big Data se uopšteno odnosi na skupove podataka koji su tako veliki po obimu i tako složeni da tradicionalni softverski proizvodi za obradu podataka nisu u mogućnosti da preuzmu, upravljaju i obrađuju podatke u razumnom vremenskom roku. Ovi veliki skupovi podataka mogu uključivati strukturisane, nestrukturisane i delimično strukturisane podatke, od kojih svaki mogu da se prekopavaju za uvide. Koliko podataka zapravo predstavlja "Big Data", otvoreno je za raspravu, ali obično može biti više petabajta - i za najveće projekte u opsegu eksabajta.

Često, Big Data karakterišu tri V:

  • ekstremni obim (Volume) podataka
  • širok spektar (Variety) tipova podataka
  • brzina (Velocity) kojom se podaci moraju obraditi i analizirati

Podaci koji čine spremišta Big Data mogu da potiču iz izvora koji uključuju veb lokacije, društvene medije, stone i mobilne aplikacije, naučne eksperimente i - sve češće - senzore i druge uređaje na internetu stvari (IoT).

Koncept Big Data sadrži skup povezanih komponenti koje omogućavaju organizacijama da koriste podatke za praktične potrebe i rešavaju niz poslovnih problema. Ovo uključuje IT infrastrukturu potrebnu za podršku Big Data; analitiku koja se primenjuje na podatke; tehnologiju potrebnu za projekte Big Data; povezane skupove veština; i stvarne slučajeve za koje je potrebno da se koristi Big Data.

Big Data i analitika

Ono što predstavlja stvarnu vrednost svih Big Data koje organizacije prikupljaju je analitika primenjena na podatke. Bez analitike, to bi bila samo gomila podataka sa ograničenom poslovnom upotrebom.

Analitika može da se odnosi na osnovne aplikacije poslovne inteligencije ili naprednije, prediktivne analitike poput onih koje koriste naučne organizacije. Među najnaprednijim tipovima analitike podataka je prekopavanje podataka (engl. data mining), gde analitičari procenjuju velike skupove podataka kako bi identifikovali odnose, obrasce i trendove.

Analitika podataka može uključivati istraživačku analizu podataka (da identifikuje obrasce i odnose u podacima) i potvrđujuću (engl. confirmatory) analizu podataka (koja primjenjuje statističke tehnike kako bi se utvrdilo da li je pretpostavka o određenom skupu podataka tačna).

Druga razlika je kvantitativna analiza podataka (ili analiza numeričkih podataka koji imaju kvantifikovane promenljive koje se mogu statistički uporediti) za razliku od kvalitativne analize podataka (koja se fokusira na nenumeričke podatke kao što su video, slike i tekst).

IT infrastruktura za podršku Big Data

Da bi koncepcija Big Data funkcionisala, organizacije moraju imati na raspolaganju infrastrukturu za prikupljanje i čuvanje podataka, obezbeđivanje pristupa i osiguranje informacija dok su u skladištu i u tranzitu.  Na visokom nivou, to uključuje sisteme za skladištenje i servere namenjene za Big Data, softver za upravljanje podacima i njihovom integracijom, softver za poslovnu inteligenciju i analizu podataka i aplikacije za Big Data.

Većina ove infrastrukture će verovatno biti u prostorijama organizacije, jer kompanije žele u dalje da koriste svoje investicije u centre podataka. Ali sve više organizacija se oslanja na usluge računarstva u oblaku da bi se nosile sa velikim delom njihovih zahteva za Big Data. Prikupljanje podataka zahteva izvore za prikupljanje podataka. Mnoge od njih - kao što su veb aplikacije, društveni mediji, mobilne aplikacije i arhive e-pošte - već postoje. Ali pošto se IoT sve više utvrđuje, kompanije možda moraju za prikupljanje podataka da koriste senzore na svim uređajima, vozilima i proizvodima, kao i nove aplikacije koje generišu korisničke podatke.

Da bi se čuvali svi dolazni podaci, organizacije moraju imati odgovarajuća skladišta podataka. Među opcijama za skladištenje su tradicionalna skladišta podataka, jezera podataka i skladištenje u oblaku. Alati bezbednosne infrastrukture mogu uključivati šifrovanje podataka, autentifikaciju korisnika i druge kontrole pristupa, sisteme za praćenje, mrežne barijere, upravljanje mobilnošću u preduzeću i druge proizvode za zaštitu sistema i podataka.

Tehnologije specifične za Big Data

Pored gorenavedene IT infrastrukture koja se koristi za podatke uopšte, postoji nekoliko tehnologija specifičnih za Big Data koje bi vaša IT infrastruktura trebalo da podržava.

Ekosistem Hadoop

Hadoop je jedna od tehnologija koja je blisko povezana sa Big Data. Projekat Apache Hadoop razvija softver otvorenog koda za skalabilno, distribuirano računarstvo.
Softverska biblioteka Hadoop predstavlja okvir koji omogućava distribuiranu obradu velikih skupova podataka preko klastera računara pomoću jednostavnih programskih modela. Dizajniran je da se skalira od jednog servera pa sve do hiljade servera, od kojih svaki nudi lokalno računanje i skladištenje.

Apache Spark

Deo ekosistema Hadoop, Apache Spark je radni okvir otvorenog koda za klastersko računarstvo koji služi kao motor za obradu Big Data u okviru Hadoop-a. Spark je postao jedno od ključnih okruženja za distribuiranu obradu podataka i može da se rasporedi na različite načine. On pruža izvorno povezivanje za jezike Java, Scala, Python (pogotovo za distro Anaconda Python) i R programske jezike (R je posebno pogodan za Big Data), a podržava SQL, podatke u strimovanju, mašinsko obučavanje i obradu grafova.

Jezera podataka

Jezera podataka su spremišta koja drže izuzetno velike količine sirovih podataka u izvornom formatu dok podaci ne budu potrebni kod poslovnih korisnika. Pomoć u podsticanju rasta jezera podataka predstavljaju inicijative digitalne transformacije i rast IoT-a. Jezera podataka su dizajnirana da korisnicima olakšaju pristup velikim količinama podataka kada se pojavi potreba.

NoSQL baze podataka

Konvencionalne SQL baze podataka su dizajnirane za pouzdane transakcije i ad hok upite, ali imaju ograničenja kao što su rigidna shema koja ih čini manje pogodnim za neke vrste aplikacija. NoSQL baze podataka rešavaju ta ograničenja tako što čuvaju podatke i upravljaju njima na način koji omogućava veliku brzinu rada i veliku fleksibilnost. Mnoge su razvijene u kompanijama koje su tražile bolje načine za čuvanje sadržaja ili obradu podataka za velike veb stranice. Za razliku od SQL baza podataka, mnoge NoSQL baze podataka mogu da se skaliraju horizontalno preko stotina ili hiljada servera.

Baze podataka u memoriji

Baza podataka u memoriji (IMDB - in-memory data base) je sistem za upravljanje bazama podataka koji se za skladištenje podataka prvenstveno oslanja na glavnu memoriju, a ne na disk. Baze podataka u memoriji su brže od baza podataka optimizovanih za diskove, što je važno za analize Big Data i stvaranje skladišta podataka (engl. warehouse) i centara podataka (engl. data mart).

Veštine za Big Data

Big Data i analitika za Big Data zahtevaju specifične veštine, bilo da su unutar organizacije ili preko spoljnih stručnjaka. Mnoge od ovih veština su povezane sa ključnim komponentama tehnologije Big Data, kao što su Hadoop, Spark, NoSQL baze podataka, baze podataka u memoriji i softver za analitiku. Druge su specifične za discipline kao što su nauka o podacima, prekopavanje podataka, statistička i kvantitativna analiza, vizuelizacija podataka, opšte programiranje i struktura podataka i algoritmi. Takođe postoji potreba za ljudima koji imaju sveobuhvatne menadžerske sposobnosti da vode velike projekte podataka od početka do kraja.

S obzirom na to kako su projekti analize Big Data postali uobičajeni i na nedostatak ljudi sa ovakvim vrstama veština, pronalazak iskusnih profesionalaca može biti jedan od najvećih izazova za organizacije.

Slučajevi korišćenja Big Data

Big Data i analitika mogu se primeniti na mnoge poslovne probleme i slučajeve korišćenja. Evo nekoliko primera:

  • Analitika klijenata. Kompanije mogu ispitati podatke o klijentima kako bi poboljšale iskustvo korisnika, poboljšale stope konverzije i povećale zadržavanje.
  • Operativna analitika. Poboljšanje operativnih performansi i bolje korišćenje korporativnih sredstava su ciljevi mnogih kompanija. Analiza Big Data može pomoći preduzećima da pronađu načine za efikasnije poslovanje i poboljšavanje performansi.
  • Prevencija prevara. Analiza podataka može pomoći organizacijama da otkriju sumnjive aktivnosti i obrasce koji bi mogli ukazivati na varljivo ponašanje i pomoći u ublažavanju rizika.
  • Optimizacija cena. Kompanije mogu da koriste analizu Big Data kako bi optimizovale cene koje naplaćuju za proizvode i usluge, što pomaže povećanju prihoda.

Izvor: InfoWorld

Рачунарски факултет Рачунарски факултет 011-33-48-079