Из техничких разлога садржај читалишта можете пратити искључиво на латиници.

Šta je to rudarenje podataka? Pronalaženje obrazaca i trendova u podacima

Rudarenje podataka, koje se ponekad naziva i otkrivanje znanja, je proces probiranja velikih količina podataka radi izolovanja korelacija, obrazaca i trendova.

Дефиниција рударења података

Рударење података (енгл. Дата мининг), које се понекад користи као синоним за „откривање знања“, је процес пробирања велике количине података ради проналажења корелација, образаца и трендова. То је подскуп науке о подацима који користи статистичке и математичке технике заједно са машинским учењем и системима база података. Посебна интересна група Асоцијације за рачунарске машине за откривање знања и рударство података (СигКДД - Специал Интерест Гроуп он Кноwледге Дисцоверy анд Дата Мининг) дефинише је као науку о извлачењу корисног знања из огромних складишта дигиталних података створених рачунарским технологијама.

Замисао издвајања образаца из података није нова, али савремени концепт рударења података почео је да се обликује 1980-их и 1990-их година када су управљање базама података и технике машинског учења почели да се користе за проширивање ручних процеса.

Рударење података и аналитика података

Појмови аналитика података и рударење података се често спајају, али се анализа података може схватити као подскуп рударења података. Рударење података се фокусира на чишц́ење сирових података, проналажење образаца, креирање модела, а затим тестирање тих модела, како каже продавац аналитике Таблеау. С друге стране, аналитика података је део рударења података усредсређен на извлачење увида из података. Њен циљ је да се на податке примене статистичке анализе и технологије како би се пронашли трендови и решавали проблеми.

Пословна вредност рударења података

Рударење података се користи у компанијама у широком спектру индустрија за прегледање њихових података ради уочавања трендова и доношења бољих пословних одлука. Медијске и телекомуникационе компаније користе своје податке о клијентима како би боље схватиле понашање купаца. Осигуравајуц́а друштва користе рударење података за ефикасније одређивање цена својих производа и за стварање нових производа. Педагози сада користе податке из рударења како би открили обрасце у успеху ученика и идентификовали проблематична подручја на којима би им могла бити потребна посебна пажња. Продавци на мало користе рударење података како би боље разумели своје клијенте и правили високо циљане кампање.
Случајеви коришц́ења рударења података укључују следец́е:

  • Католичка служба за помоц́ (ЦРС) користи прикупљање података и машинско учење као помоћ у пружању хуманитарне помоц́и широм света. Развили су мерне показатеље за анализу отпорности (МИРА), протокол за високофреквентно прикупљање података који прикупља информације о метеоролошки изазваним „шоковима“ у заједницама у југоисточној Африци. Он шаље податке у алгоритме за машинско учење како би се утврдило која ц́е домац́инства бити изложена ризику од несташице хране због тих шокова.
  • Банк оф Америца користи рударење података, машинско учење и вештачку интелигенцију да прецизније идентификује почетне инвеститоре за јавне понуде (ИПО). Они су створили машину ПРИАМ (Предицтиве Интеллигенце Аналитицс Мацхине), систем вештачке интелигенције за предвиђање трансакција који користи мрежу надзираних алгоритама за машинско учење да би открио трендове у односима између банкара и инвеститора банкарског тржишта капитала (ЕЦМ).
  • Хипотекарни процесор компаније Еллие Мае користи рударење података о нападима софтвером за изнуду откупа да би се идентификовали показатељи компромиса (ИОЦ – индицаторс оф цомпромисе). Ти ИОЦ показатељи се комбинују са обавештајним подацима о претњама, предиктивном аналитиком и вештачком интелигенцијом у пројекту Аутономоус Тхреат Хунтинг фор Адванцед Персистент Тхреатс ове компаније .

Технике рударења података

Рударење података користи низ алата и техника. Према стручњаку за интеграцију и интегритет података Таленду, најчешц́е коришц́ене функције укључују:

  • Чишц́ење и припрема података. Да би подаци могли да се анализирају и обраде, морате да идентификујете и уклоните грешке, као и да утврдите који подаци недостају.
  • Рударење података често користи вештачку интелигенцију у задацима везаним за планирање, учење, закључивање и решавање проблема.
  • Учење правила асоцијација. Познати и као анализа тржишне корпе, ови алати се користе за тражење односа између променљивих у скупу података. Продавац их може користити за утврђивање који се производи обично купују заједно.
  • Груписање се користи за поделу скупа података на смислене поткласе ради разумевања структуре података.
  • Аналитика података. Аналитика података је процес извлачења увида из података.
  • Складиштење података. Складиште података је збирка пословних података. То је темељ за већину рударења података.
  • Машинско учење. Машинско учење помаже у аутоматизацији процеса проналажења образаца у вашим подацима.
  • Ова техника се користи са конкретним скупом података за предвиђање вредности као што су продаја, температуре или цене акција.

Процес рударења података

Стандардни индустријски процес за рударење података (ЦРИСП-ДМ) је процесни модел у шест корака који је објављен 1999. године ради стандардизације процеса рударења података у свим индустријама. Шест фаза у оквиру ЦРИСП-ДМ су: разумевање пословања, разумевање података, припрема података, моделирање, процењивање и имплементација.

Разумевање пословања

Ова фаза се односи на разумевање циљева, захтева и опсега пројекта. Састоји се од четири задатка: утврђивање пословних циљева разумевањем онога што пословни актери желе да постигну; процена ситуације ради утврђивања доступности ресурса, захтева пројекта, ризика и непредвиђених околности; утврђивање како успех изгледа из техничке перспективе; и дефинисање детаљних планова за сваки пројектни алат заједно са одабиром технологија и алата.

Разумевање података

Следец́а фаза укључује идентификовање, прикупљање и анализу скупова података неопходних за постизање циљева пројекта. Такође садржи четири задатка: прикупљање почетних података, описивање података, истраживање података и проверу квалитета података.

Припрема података

Ово је често највец́и део сваког пројекта и састоји се од пет задатака: одабир скупова података и документовање разлога за укључивање/искључивање, чишц́ење података, конструисање података извођењем нових атрибута из постојец́их података, интеграција података из више извора и форматирање података.

Моделирање

Изградња модела на основу података има четири задатка: одабир техника моделирања, генерисање тестова, изградњу модела и процену модела.

Процењивање

Док фаза моделирања укључује процену техничког модела, ова фаза се односи на утврђивање који модел најбоље задовољава пословне потребе. Укључује три задатка: процену резултата, преглед процеса и утврђивање следец́их корака.
Имплементација

Завршна фаза је стављање модела у рад. Укључује четири задатка: развој и документовање плана за имплементацију модела, развој плана прац́ења и одржавања, израду коначног извештаја и преглед пројекта.

АСУМ-ДМ

2015. године ИБМ је објавио проширење за ЦРИСП-ДМ под називом Аналитицс Солутионс Унифиед Метход фор Дата Мининг (АСУМ-ДМ). Он узима ЦРИСП-ДМ као основу, али гради фазу имплементације тако да укључује сарадњу, контролу верзија, безбедност и усклађеност.

Софтвер и алати за рударење података

За подршку својих напора компаније користе различите софтвере и алате за рударење података. Неки од популарнијих софтвера и алата укључују:

  • Апацхе Спарк. Ова платформа за машинско учење са отвореним кодом може се интегрисати путем АПИ-ја и користи дистрибуирано рачунарство у меморији за анализу масовних скупова података.
  • ИБМ СПСС Моделер. ИБМ -ово решење за науку о визуелним подацима и машинско учење може се користити за припрему података, откривање, предиктивну аналитику, управљање моделима и примену.
  • Платформа отвореног кода Книме намењена је анализи података, извештавању и интеграцији.
  • Орацле Дата Мининг (ОДМ). ОДМ је део Орацле Датабасе Ентерприсе Едитион и нуди алгоритме за рударење података и анализу података за класификацију, предвиђање, регресију, асоцијације, избор функција, откривање аномалија, издвајање функција и специјализовану аналитику.
  • Оранге Дата Мининг. Оранге је алат за визуелизацију података отвореног кода, машинско учење и рударење података.
  • Овај програмски језик отвореног кода и окружење слободног софтвера нашироко користе рудари података. Основан од стране Револутион Аналитицс, Р такође има комерцијалну подршку и проширења. Мицрософт је купио Револутион Аналитицс 2015. године и интегрисао је Р са својим понудама СQЛ Сервера, Поwер БИ, Азуре СQЛ Манагед Инстанце, Азуре Цортана Интеллигенце, Мицрософт МЛ Сервер и Висуал Студио 2017. Орацле, ИБМ и Тибцо такође подржавају Р у својој понуди .
  • Намењена тимовима, платформа за науку о подацима РапидМинер подржава припрему података, машинско учење и примену модела предвиђања.
  • САС Ентерприсе Минер. САС Ентерприсе Минер има за циљ стварање предиктивних и описних модела на великим количинама података из извора у целој организацији.
  • Сисенсе -ов БИ стек покрива све, од базе података преко ЕТЛ -а и аналитике до визуализације.

Послови рударења података

Рударење података најчешц́е врше научници или аналитичари података. Ево неких од најпопуларнијих назива послова који се односе на рударење података и просечне плате за сваку позицију, према подацима ПаyСцале -а:

  • Аналитичар пословних информација: $52.000-$90.000
  • Архитекта пословних информација: $72.000-$140.000
  • Програмер пословних информација: $62.000-$109.000
  • Аналитичар података: $43.000-90.000
  • Инжењер података: $44.000-$141.000
  • Научник података: $66.000-$130.000
  • Виши аналитичар података: $63.000-$108.000
  • Статистичар: $44.000-$159.000

Извор: ЦИО{/xа}