direkt zum Inhalt springen

direkt zum Hauptnavigationsmenü

Logo der TU Berlin

Information Filtering Services

Modul: BINF-SWT-SE.S08
Semester: Wintersemester
Art: PJ (6 SWS / 6 LP)
LV-Nr.: 0435 L 734
Veranstalter: Albayrak, Scheel
Zeit: Dienstag, 12-14 Uhr
Erster Termin: 20.10.2009
Raum: TEL 1118/19

 

Zu dieser Lehrveranstaltung anmelden!

Beschreibung

PIA

In diesem Projekt wird ein PIA mit den Daten von IMDb aufgesetzt. Anstelle eines Indexes, der bestimmt welche Ergebnisse präsentiert werden, werden wir die IMDb-Daten in einem semantischen Repository verwalten damit man Anfragen semantisch stellen kann.

Im semantischen Repository werden Fakten hinterlegt. Ihr werdet solche Fakten aus den offiziellen IMDb-Dumps extrahieren. Fakten sind zum Beispiel "Johnny Depp spielt im Film Public Enemies mit", genauso wie "Christian Bale spielt im Film Public Enemies mit". Zusätzlich ist der offizielle Datensatz mit semi-semantischen Tags wie 'car_explosion' oder 'female_protagonist' versehen, aus denen man viele Fakten gewinnen kann.

Im Projekt werdet ihr Regeln ontologisch beschreiben, sodass man zum Beispiel "Johnny Depp spielt zusammen (Co-Actor) mit Christian Bale im Film Public Enemies mit" ableiten kann.

Die Arbeit im Projekt wird in Gruppenarbeit stattfinden, wobei auch Kommunikation über Gruppen hinweg notwendig sein wird.

Eine Gruppe kümmert sich um die Extraktion der Fakten aus dem bestehenden Datensatz. Hierfür muss ein semantisches Repository aufgesetzt werden, welches die Fakten verwaltet. Parser für den IMDb-Dump stehen zur Verfügung, müssen aber für die Fakten-Gewinnung angepasst werden. Diese Gruppe erlangt tieferes Wissen in semantische Strukturen und wie man mit ihnen umgeht.

Eine Gruppe überarbeitet PIA, sodass es Filme (statt wie bei PIA üblich wissenschaftliche Dokumente) anzeigen kann. Hierfür müssen auch die Services von PIA (wie Tag-Cloud oder eigene Ordner) angepasst werden. Diese Gruppe erlangt einen tiefen Einblick in die Architektur einer Suchmaschine.

Eine Gruppe findet eine intelligente Lösung, wie man semantische Fragen an IMDb-PIA richtet. Anfragen an ein semantisches Repository sind SQL-Anfragen ähnlich und deshalb einem 'normalen' Benutzer nicht zumutbar. Vorstellbar ist, dass es Benutzer gibt, die sich mit der Syntax auskennen, damit komplizierte Anfragen beschreiben und sie nochmal als umgangssprachliche Frage formulieren. Aus diesen abgespeicherten Fragen können andere Benutzer eigene Anfragen ihrer Informationsbedürfnisse ableiten und ebenfalls für alle abspeichern. Eventuell kann man umgangssprachliche Frage auch intelligent parsen oder grafisch eine intuitive Lösung für die Anfrage-Formulierung finden. Diese Gruppe erlangt Wissen im Bereich der User-Interface-Programmierung für das Web, sowie tiefergehendes Wissen im State-of-the-Art von Query-Syntax.

Damit am Anfang keine Gruppe von der anderen abhängig ist existiert eine Basis-Lösung jeder Gruppe.

Ablauf

1. Block:

1.Termin: Einführung und Überblick

2.Termin: Studentenvortrag: IMDb-Datensatz / Christian: IMDb-Parser in PIA

3.Termin: Studentenvortrag: Semantic Stores / Christian: Semantic Store in PIA / Gruppenbildung

2. Block:

4.-7. Termin: Rückfragen, Hilfen

8. Termin: 1. Meilenstein: Erste Egebnisse

9.-14. Termin: Rückfragen, Hilfen

15. Termin: 2. Meilenstein: Abschlusspräsentation

Rücksprache

Prüfungsmodalitäten, Anforderungen

Für Diplomstudierende kann diese Lehrveranstaltung in eine Prüfung in den Bereichen KI, BKS und WVA eingebracht werden.

Die Inhalte der Veranstaltung werden im Rahmen einer mündlichen Rücksprache überprüft.

Anstelle eines Skripts werden kommentierte Folien unterichtsbegleitend bereitgestellt.

Technische Informatik BSc ( 5. - 6. Semester ) -  Wahlpflichtfach     
Informatik BSc ( 5. - 6. Semester ) -  Wahlpflichtfach     
Informatik D ( 5. - 12. Semester ) -  Wahlpflichtfach     

Zum Ende des Semesters wird in einem Abschlussgespräch insbesondere der individuelle Arbeitsbeitrag überprüft. Das Ergebnis des Gesprächs geht direkt in alle Teilnoten ein.

Die Gesamtnote setzt sich folgendermaßen zusammen:

  • Projektergebnisse (50%)
  • Dokumentation  (30%)
  • Rücksprache (20%)

Ansprechperson