Обрада природног језика

Циљ и исход предмета

Упознавање студената са напредним техинкама обраде природног језика и екстракције корисног знања из неструктуираног текста. Студент је оспособљен да изабере и примени одговарајућу технику обраде природног језика у специфичном домену и да имплементира апликације које могу да интерпретирају језик човека, као и да генеришу текст на природном језику.

Теоријска настава

Основи лингвистике. Области обраде природног језика: преопознавање говора, разумевање природног језика и генерисање природног језика. Сегментација текста. Препознавање речи и препознавање реченица. Двосмисленост језика. Структура и морфологија језика. Структура израза. Речи. Колокације. Статистичка обрада језика. Статистички естиматори. Комбиновање естиматора. Одређивање смисла речи. Надзирано одређивање смисла. Одређивање смисла помоћу речника. Одређивање смисла без надзора. Лексичка аквизиција. Поткатегоризација речи. Селекцијске преференце. Семантичка сличност. Марковљеви модели граматике. Означавање делова говора. Пробабилистичка бесконтекстна граматика. Вероватноћа стринга. Пробабилистичко парсирање. Статистичко уређивање и машинско превођење. Модел векторског простора. Модел расподеле терма. Латентно семантичко индексирање. Сегментација дискурса. Категоризација текста. Стабла одлучивања.

Практична настава

Преглед језика и алата за обраду природног језика. Практичне вежбе са парсирањем, токенизацијом, стемингом, семантичким резоновањем у изабраном алату (пример Python NLTK) и над одређеним корпусом текста. Имлепементација таговања елемената језика, екстракције ентитета и класификације текста. Експеримантална вежба генерисања текста на природном језику.