direkt zum Inhalt springen

direkt zum Hauptnavigationsmenü

Logo der TU Berlin

PJ Information Retrieval und Suchmaschinen 1

Semester:Wintersemester 2006/2007
Art:Projekt, 6 SWS
LV-Nr.:IR 1: 0435 L 734; IR 2: 0435 L 737
Zeit:MO. 14-16 Uhr ab 23.10
Raum:IR 1: FR 0028 (ab 30.10. im GOR010); IR 2: FR 0027
Dozenten:Sahin Albayrak, Christian Scheel
Bemerkung:  Vertiefungsveranstaltung im Hauptstudium (KI, BKS, WI)

Kurzbeschreibung

Information Retrieval (IR) beschäftigt sich mit der Informationssuche in wenig strukturierten Datenbeständen. Im Rahmen dieses Projekts werden Verfahren zur Repräsentation von textuellen Inhalten und multimedialen Objekten eingeführt. Diese grundlegenden IR-Konzepte werden als Teil eines Filter-Agenten in einer JIAC-Agenten-Community umgesetzt.

Beschreibung

Information Retrieval ist eines der bedeutendsten Forschungsgebiete der Informatik geworden. Das Herausfiltern von relevanten Informationen aus verschiedenen Daten-Quellen ist im Hinblick auf die Fülle irrelevanter Information im Internet zu einer nicht trivialen Aufgabe geworden. 

 

Der Veranstalter bietet eine bestehende Agenten-Community, die zur Informations-Filterung genutzt werden kann. Diese ist voll funktionsfähig, bis auf eine Tatsache: Die Filter-Agenten implementieren alle das gleiche Interface, sind aber im Grunde leer. Aufgabe ist es, einen solchen Filter-Agenten mit einer Filter-Strategie zu füllen. Welche Strategien es gibt, wird in einem Seminarteil am Anfang des Projekts ‚Information Retrieval und Suchmaschinen 1' vermittelt.

 

Aus dem Wissen des Seminarteils heraus entwickeln die Studenten ihre eigenen Ideen, wie man bestehende Filterungs-Probleme effektiver lösen kann.

 

Teams mit unterschiedlichen Arbeitszielen werden gebildet und wöchentliche Diskussionen in Form von Meetings veranstaltet. Die Teams organisieren sich intern selbst, legen Meilensteine und Ziele fest und erfassen Abhängigkeiten (auch zwischen den Teams). Durch die Leitung und Organisation des Veranstalters bilden die Arbeiten der einzelnen Teams zusammen am Ende eines Projekt-Zeitraums ein fertiges "Produkt".

 

Hierzu stehen den Studenten moderne Kommunikationsmittel zur Verfügung. Zum einen gibt es die gewohnte Lehrveranstaltungs-Webseite, aber auch Mailinglisten für Ankündigungen und Probleme, sowie eine Wikipedia-Umgebung für Planung, Koordination und Dokumentation. Die Studenten arbeiten zusammen auf demselben Quell-Code, der durch Subversion verwaltet wird. Fehler in der Implementierung werden durch ein Cruise-Control-System erkannt und kommuniziert.

 

Während einer Projektphase durchlaufen die Studenten die typischen Phasen einer Software-Entwicklung wie Entwerfen und Spezifizieren, Implementieren, Testen und Dokumentieren, sowie typische Phasen beim Forschen wie Literatur-Recherche und Erstellen eines Prove-of-Concept.

 

Lernziele

Projektziele

        - Strategien für effiziente Informationsfilterung.

        - Extraktion von Inhalten aus Textquellen und anderem Content.

        - Konzipierung, Implementierung und Test innovativer Filterstrategien.            

        - Integration in eine Filter-Agenten-Community.

 

 Theoretische Grundlagen

        - Die Studierenden sollen mit den theoretischen Grundlagen der Agententechnologie, welche aus vielen verschiedenen Forschungsgebieten stammen, vertraut werden.

        - Vor- und Nachteile von agentorientierten Strukturen sollen verstanden werden.

        - Phasenorientiert Software entwickeln.

        - Dokumentation und Präsentation von Ergebnissen stellen weitere Schwerpunkte dar.

        - Teamarbeit: Eine zielgerichtete Koordination der Teammitglieder ist unabdingbar, um das Projekt erfolgreich abschließen zu können. Hierzu werden Ihnen grundlegende Techniken des Projektmanagements und -controllings vermittelt.

 

Anwendungsmöglichkeit

        - Verfahren zur Verarbeitung großer Datenmengen entwerfen, realisieren und praktisch erproben.

        - Vertiefung der theoretischen Grundlagen: Sie erlernen die Nutzung der Agententechnologie in verteilten kooperativen Systemen. Dabei wenden Sie Methoden der verteilten künstlichen Intelligenz an und lernen deren Stärken und Schwächen kennen.

 

Werkzeuge

        - Erlernen des Umgangs mit aktueller Software für Versionskontrolle, Code-Managements und Implementierung, wie sie in größeren Unternehmen verwendet werden.

        - Beim Arbeiten mit der Architektur erlernt und verbessert der Teilnehmer den Umgang mit: Eclipse , Java 1.5 und Maven 2

        - Die Versions-Kontrolle erfolgt über Subversion (SVN) und wird per Cruisecontrol überwacht.

Inhalte

 

 

 

 

 

Veranstaltungskalendar

 

 

TermineThemaInhalte
23.10.2006

Organisatorisches -   Einführung

 

Einführung und Überblick in den Bereich IR, Forschungs-Schwerpunkte, usw.

Vergabe der Vorträge

Einführung in PIA
30.10.2006VorträgeEinführung in die Architektur
01.11.2006Vorträge

Marek Iwaszkiewicz
Einführung in die Benutzung der DAI-Labor-Webseiten-Extraktoren
06.11.2006Vorträge

Vortrag 1: Preprocessing
Vortrag 2: Indexing

08.11.2006Vorträge

Vortrag 1: Contentbased Filtering

Vortrag 2: Collaborative Filtering

13.11.2006Projekt-Treffen

Vortrag 1: OCR

Vortrag 2: Clustering

20.11.2006Projekt-Treffen

Vorstellen der Hausaufgabenergebnisse.

Diskussion und Planung der Verwirklichung der Filterstrategien.
27.11.2006Projekt-Treffen

Aktuelle Fragestellungen aus dem Projekt.

04.12.2006Projekt-Treffen

Aktuelle Fragestellungen aus dem Projekt.

11.12.2006Projekt-Treffen

Aktuelle Fragestellungen aus dem Projekt.

18.12.2006Projekt-Treffen

Meilensteinpräsentation

Weihnachten    
08.01.2007Projekt-TreffenAktuelle Fragestellungen aus dem Projekt.
15.01.2007Projekt-TreffenAktuelle Fragestellungen aus dem Projekt.
22.01.2007Projekt-TreffenAktuelle Fragestellungen aus dem Projekt.
29.01.2007Verschoben auf 02.11.2006
05.02.2007Verschoben auf 09.11.2006
12.02.2007Projekt-TreffenBilanz des bisherigen Projekt-Ablaufs, bisherige Resultate, Ausarbeitung, etc.

  

Literatur und Folien sind im geschützen Bereich verfügbar.

Voraussetzungen

Abgeschlossenes Vordiplom in Informatik oder einer verwandten Studienrichtung.

 

      - obligatorisch: AOT 1, Kenntnisse der Programmiersprache Java

 

Aus der folgenden Liste sollte mindestens eine Qualifikation erfüllt sein:

      - Sehr gute Mathematik-Kenntnisse / Statistik

      - Erfahrungen mit Textanalyse / Linguistik

      - Kenntnisse aus der künstlichen Intelligenz (z.B. Besuch der ‚Grundlagen der KI’ und ‚Maschinelles Lernen’)

      - Für IR 2 ist IR 1 die Vorraussetzung, es können aber beide Veranstaltungen parallel besucht werden.