Analiza i pretraživanje teksta

Prikazani su podaci za akademsku godinu: 2023./2024.

Laboratorijske vježbe

Opis predmeta

Većina ljudskog znanja pohranjena je u nestrukturiranom, tekstnom obliku. Zbog ogromne i rastuće količine digitalnih tekstnih podataka, sustavi za analizu i pretraživanje teksta postali su neizostavan dio suvremene informacijsko-komunikacijske infrastrukture. Takvi sustavi odgovaraju na raznolike informacijske potrebe korisnika te omogućavaju crpljenje informacija iz velikih količina nestrukturiranih podataka. Zbog složenosti i višeznačnosti prirodnog jezika, analiza teksta netrivijalan je zadatak, koji se oslanja na postupke obrade prirodnog jezika, računalne lingvistike i strojnog učenja. Ovaj predmet daje cjelovit pregled tradicionalnih i naprednih postupaka za analizu i pretraživanje teksta. U prvome dijelu obrađuju se osnovni postupci pretraživanja informacija i obrade prirodnog jezika koji su relevantni za analizu teksta. U drugome dijelu obrađuju se primjene tih postupaka na analizu teksta i pretraživanje informacija, s naglaskom na postupcima temeljenima na strojnom učenju i dubokom učenju.

Studijski programi

Sveučilišni diplomski
Izborni predmeti (2. semestar)
Izborni predmeti (2. semestar)
Izborni predmeti (2. semestar)
Izborni predmeti (2. semestar)
Izborni predmeti (2. semestar)
Izborni predmeti (2. semestar)
Izborni predmeti (2. semestar)
Izborni predmeti profila (2. semestar)
Izborni predmeti (2. semestar)
Jezgreni predmeti profila (2. semestar)
Izborni predmeti (2. semestar)
Izborni predmeti (2. semestar)
Izborni predmeti (2. semestar)
Izborni predmeti profila (2. semestar)
Izborni predmeti (2. semestar)
Izborni predmeti (2. semestar)
Izborni predmeti profila (2. semestar)
[FER2-HR] Obradba informacija - profil
Predmeti specijalizacije profila (2. semestar)
[FER2-HR] Programsko inženjerstvo i informacijski sustavi - profil
Predmeti specijalizacije profila (2. semestar)
[FER2-HR] Računarska znanost - profil
Predmeti specijalizacije profila (2. semestar)

Ishodi učenja

  1. Sažeti područja primjene, trendove i izazove analize teksta i pretraživanja informacija
  2. Opisati osnovne tehnike za analizu teksta i pretraživanja informacija
  3. Primijeniti alate za jezičnu predobradu teksta
  4. Oblikovati i implementirati sustav za analizu teksta/pretraživanje informacija
  5. Primijeniti algoritme strojnog učenja na probleme analize teksta
  6. Vrednovati sustav za analizu teksta/pretraživanje informacija
  7. Formulirati i napisati rad koji opisuje sustav za analizu teksta/pretraživanje informacija
  8. Opisati, rezimirati i kritički analizirati osnovne postupke analize teksta predstavljene u znanstvenim radovima

Oblici nastave

Predavanja

Tjedna dvosatna predavanja

Samostalni zadaci

Timski projekt razvoja i ispitivanja modela za obradu prirodnoga jezika

Laboratorij

Tri laboratorijska zadatka implementacije i testiranja algoritama obrade prirodnog jezika

Ostalo

Prezentacija timskog projekta

Tjedni plan nastave

  1. Klasifikacija i označavanje dokumenata, Grupiranje dokumenata, Primjene u pretraživanje informacija i dubinskoj analizi teksta
  2. Računalna morfologija, Označavanje vrsta riječi, Determinističke i stohastičke gramatike. konstituentne i ovisnosne gramatike (CFG. PCFG), Algoritmi parsanja (CYK. Chart). leksikalizirano parsanje. ovisnosno parsanje, Jezični modeli. zaglađivanje. vrednovanje
  3. (en) Information retrieval models (vector space, probabilistic, Boolean), (en) Web search (PageRank and HITS)
  4. Markovljevi i skriveni Markovljevi modeli, Uvjetna slučajna polja, (en) Confusion matrix-based performance measures (accuracy, precision, recall, sensitivity, F-score)
  5. Modeli latentne semantike dokumenata (LSI. LDA), Računalna semantika (formalna semantika. označavanje semantičkih uloga), Distribucijski semantički modeli
  6. Duboke povratne neuronske mreže: povratne mreže. dvosmjerne povratne mreže. duboke povratne mreže. kratka dugoročna memorija. modeliranje slijedova. primjene
  7. Primjene u pretraživanje informacija i dubinskoj analizi teksta
  8. Ne drži se
  9. Ekstrakcija tekstnih informacija (imenovani entiteti. ključne fraze. relacije. itd.), Otkrivanje i praćenje događaja
  10. Sustavi odgovaranja na pitanja
  11. Sažimanje dokumenata. sažimanje više dokumenata, Tekstna sličnost. parafraze. i logička posljedica
  12. Tekstna sličnost, parafraze i logička posljedica
  13. Analiza sentimenta i dubinska analiza mišljenja
  14. Authorship analysis and author profiling
  15. Prezentacije projekata

Literatura

(.), Introduction to Information Retrieval,
(.), Foundations of Statistical Natural Language Processing,
(.), Speech and Language Processing,
(.), Neural Network Methods in Natural Language Processing,

Za studente

Izvedba

ID 222452
  Ljetni semestar
5 ECTS
R3 Engleski jezik
R1 E-učenje
30 Predavanja
0 Seminar
0 Auditorne vježbe
15 Laboratorijske vježbe
0 Konstrukcijske vježbe
0 Vježbe tjelesnog odgoja

Ocjenjivanje

89 izvrstan
76 vrlo dobar
63 dobar
50 dovoljan