Oferta dydaktyczna Instytutu Informatyki

Poniższa lista przedstawia przedmioty, które są uczone w Instytucie Informatyki, niektóre z nich co roku, niektóre z mniejszą częstotliwością Każdy student Instytutu Informatyki studiuje wg indywidualnego toku studiów, wybierając (zgodnie z pewnymi zasadami) z tej listy swoje przedmioty.

Jeżeli zastanawiasz się nad studiami u nas, jeżeli chcesz wiedzieć, czy na Uniwersytecie można zostać inżynierem, jeżeli interesuje Cię 1000 zł stypendium miesięcznie - zapraszamy na naszą stronę główną

Wyszukiwanie informacji

Nazwa angielska (title in English): Information retrieval
Prowadzący (lecturer): Tomasz Jurdziński
Liczba punktów (ECTS): 9
Liczba punktów 2007 (ECTS since 2007): 6
Rodzaj (type): zaawansowany
Rodzaj od 2007 (type since 2007): informatyczny.I2
Liczba godzin (hours in semester):
wykład:30
ćwiczenia+pracownia:30
Egzamin (exam): tak
Możliwe zajęcia w języku angielskim (can be taught in English): tak
Przedmiot zostal uaktualniony na biezacy rok (updated): tak
Semestr (semester): letni

Wymagania (prerequisites)

Opis (description)

Information retrieval (IR) to dziedzina, która zajmuje się wyszukiwaniem informacji w dużych zbiorach danych, które nie mają ściśle określonej struktury. Naturalnym obszarem zastosowań dla IR są wyszukiwarki internetowe.

Celem wykładu będzie zapoznanie studentów z IR w kontekście wyszukiwarek. Oprócz tradycyjnych metod IR, omawiane też będą algorytmy bazujące na specyfice sieci WWW (np. wykorzystujące strukturę grafu linków między stronami).

Zajęcia pomocnicze będą w około 50% procentach miały charakter ćwiczeń, a pozostałe (około) 50% poświęcone będzie realizacji małych projektów programistycznych.

Program (program)

Wykład oparty będzie na książce Manninga, Raghavana, i Schuetze, której wstępna wersja dostępna jest w sieci pod adresem http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html. Wprowadza się tam tylko tyle teorii z zakresu IR, ile jest niezbędne do omówienia konkretnych metod implementowanych w praktyce. W ramach wykładu wykorzystane też będą zagadnienia z wykładu Ananda Rajaramana i Jeffreya D. Ullmana: http://www.stanford.edu/class/cs345a/.

Zagadnienia:

  1. tworzenie słownika (tematyzacja, normalizacja, lemmatization)
  2. tworzenie indeksu odwróconego, efektywna i dynamiczna konstrukcja indeksu
  3. zapytania: boolowskie, frazowe, optymalizacja zapytań
  4. kompresja indeksu
  5. wyszukiwanie przybliżone (użycie symboli wieloznacznych, uwzględniania błędów w pisowni)
  6. ocenianie (rangowanie) dokumentów, systemy rekomendacyjne
  7. reprezentacja dokumentów i zapytań w przestrzeni wektorowej, miary podobieństwa (dokładne i heurystyki), ograniczanie liczby wymiarów
  8. ocena działania wyszukiwarki
  9. probabilistyczne metody wyszukiwania
  10. grupowanie dokumentów (clustering), klasyfikacja
  11. crawling (roboty, pająki)
  12. analiza grafu sieci (graf linków między stronami)

Literatura (references)

Jeżeli jesteś zainteresowany studiowaniem w naszym instytucie, zapraszamy na stronę poświęconą tegorocznej rekrutacji.

Nazwa użytkownika (user name):
Hasło (password):