Из техничких разлога садржај читалишта можете пратити искључиво на латиници.

Jezera podataka idu ka vizuelnom radnom listu?

Ako volite da koristite radne listove i imate tonu podataka koji sede u jezeru podataka, nova Datameerova alatka za vizuelna istraživanja može biti prava stvar za vas. Samouslužna analitika postoji u različitim oblicima i veličinama, pa tako i jezera podataka. Oboje su popularni koncepti koji oblikuju svet Big Data, tako da nije čudno što postoji masa pristupa i alata. Takođe postoji i dosta preklapanja između njih. Jezera podataka zasnovana na Hadoop-u su prilično česta ovih dana, ali to ne olakšava rad sa tipovima van nauke o podacima. Znači, samouslužne alatke za analitiku pokušavaju da ih podrže kao izvore podataka sa kojima korisnici mogu da se povežu.

 

Ovo se dešava kroz sloj medijacije, obično zasnovan na SQL-u. Postoje različiti SQL-on-Hadoop motori, u rasponu od vlasničkih do otvorenog koda, a svaka distribucija ima svoj. Dakle, u zavisnosti od toga kolika je brzina vašeg SQL-on-Hadoop motora i koliko je veliko vaše jezero podataka, vaši troškovi na strani samouslužnog alata će se razlikovati. Tipično, takvi alati takođe pokušavaju da olakšaju stvari sa svoje strane, podržavaju što više raznih motora, primenjuju pametne tehnike povezivanja i tako dalje.

U svakom slučaju, čitava suština samouslužne analitike, za razliku od tradicionalnih skladišta podataka, je preskakanje procesa posredovanja podataka. To zahteva stvari kao što su definicije dimenzija i priprema kocke podataka, a samim tim i tima ljudi čiji je posao da rade na tome.

Devijantni Datameer

Zamisao samouslužne analitike je da korisnici sami istražuju izvore podataka, usput koristeći vizuelne paradigme. Postoji širok spektar alata u toj kategoriji, svaki sa sopstvenim pristupom i prednostima, a zatim postoje i neki devijantni. Datameer je jedan od tih devijantnih. Njegova paradigma za istraživanje je radni list. Može se tvrditi da je svrha upotrebe vizuelnih alata da se izbegne prolaženje kroz beskonačne redove i kolone, što bi bilo još strašnije kada je reč o tolikoj količini podataka.

Međutim, očigledno je da postoji segment tržišta za koji je ova paradigma korisna. Radni listovi postoje već jako dugo, pa mnogi ljudi umeju da rade sa njima. U suštini, platforma Datameer-a daje im mogućnost da se ne udalje previše od svoje zone komfora, a nudi im alternativu za SQL-on-Hadoop. Datameer omogućava korisnicima da se povezuju sa različitim distribucijama Hadoop-a u vlastitim prostorijama ili u oblaku, i obezbeđuje mehanizam za unos deklarativnih formula za radne listove koje se prevode u potpuno optimizovane Hadoop poslove. Datameer takođe podržava ETL i funkcije za vizuelizaciju, a svoje radne listove za Datameer možete da izvezete da biste radili sa formatima CSV, Apache AVRO, Parquet i Tableau. Sada Datameer u svoj arsenal dodaje još jednu funkciju po imenu vizuelno istraživanje.

Vizuelna istraživanja - sve je u brzom indeksiranju

Ovo je zanimljiv potez u skladu sa vremenom. Ne odustaje od paradigme radnog lista, ali korisnicima daje mogućnost da vizuelno pregledaju grafikone koji sumiraju njihove beskrajne redove i kolone. Korisnici mogu da biraju polja iz njihovih skupova podataka za koje su zainteresovani, a Visual Explorer će ih sažeti u grafikone, pružajući i mogućnost udubljivanja. Tada korisnici mogu da odluče da li je to zanimljiv deo njihovih podataka za dalju analizu. Način na koji to funkcioniše je izgradnja indeksa usput, a oni se zatim koriste za izračunavanje distribucije podataka i za njihovo prikazivanje. Ovo je tehnologija za koju Datameer očekuje patent, ali mada specifičnosti nisu opisane, mogu se napraviti neke opservacije.

Datameer naglašava težak rad koji je uložen u to indeksiranje usput i sa dobrim razlogom. Zaista, indeksiranje je ključna tehnika za toliko efikasno pristupanje podacima. Indeksiranje takođe troši mnogo računanja i memorije, a računati unapred indekse za sva moguća istraživanja a priori nije moguće.

Datameer je objavio neke rezultate poređenja njihovog pristupa sa pristupima putem Hive, Spark SQL, Presto i Amazon Spectrum, koji pokazuju da Datameer ima bolje performanse i da se bolje skalira. Rezultate dobavljača treba obično uzeti sa malo rezerve, pa ovo nije izuzetak. Osim toga, ova najava je za beta verziju koja podržava samo nekoliko tipova grafikona.

Prihvatate vizuelni radni list?

Datameer kaže da će dodati još više pre nego što postane dostupan negde početkom 2018. godine. Kada je razgovarao sa Datameer podpredsednikom proizvodnje Raghu Thiagarajanom, on je istakao da Datameer ne zadržava potreba za preciznim indeksiranjem ili razvijanjem novih indeksnih tipova za nove grafikone , već vizuelni deo predstavljanja.
Zaista, razvijanje grafikona koji se sami podešavaju za milione ili milijarde podataka mora da je teško. Ali, pod pretpostavkom da će na kraju biti više grafikona, a dobitak performansi će zaista biti značajan, ovo predstavlja zanimljivo pitanje.

Ako ste klijent Datameera, jasno ćete imati koristi od nove funkcije. Ko ne bi voleo nov, jasno intuitivniji i izgleda brži način pristupa svojim podacima u okruženju i paradigmi koje već koristite? Pitanje je: Ako niste klijent Datameer-a, da li je ovo dovoljno važno da biste prešli kod njega? Verovatno, ako imate Hadoop jezero podataka, takođe imate neki način da analitičarima ponudite poznati interfejs za rad sa tim podacima.

Da li je to bilo kakva vrsta SQL-on-Hadoop-a, ili možda ponovo izmenjene vaše stare kocke podataka, da li biste od toga odustali kako biste prešli na vizuelne radne listove? Povećanje performansi i jednostavnost korišćenja prelaskom na vizuelnu paradigmu zvuči privlačno. Ali da li je dovoljno privlačno da bi ljudi odustali od SQL-a? Da li bi oni radije zadržali oba zajedno, ili bi možda samo sačekali i nadali se da njihov SQL-on-Hadoop uhvati korak?

Odgovor će biti različit u zavisnosti od toga da li počinju od nule ili su postojeći korisnici, koliko je žestoka njihova potreba za brzinom, koliko su postojeće veštine, infrastruktura, ugovori, budžet, strategija itd. Potpuno izbacivanje SQL-a u korist vizuelne paradigme može izgledati zanimljivo, ali da li će to biti dovoljno dobro da bi se uticalo na čitavu zajednicu?

Da li će sve postojeće znanje o SQL indeksiranju i tona kombinovanih resursa na kraju omogućiti da vizuelne paradigme preko SQL-a uhvate korak? Biće zanimljivo videti koliko dobro ovo ide za Datameer i da li devijantni i dalje izaziva uhodane.

Izvor: ZD Net

Рачунарски факултет Рачунарски факултет 011-33-48-079