PJ Information Retrieval und Suchmaschinen 1
Semester: | Wintersemester 2006/2007 |
Art: | Projekt, 6 SWS |
LV-Nr.: | IR 1: 0435 L 734; IR 2: 0435 L 737 |
Zeit: | MO. 14-16 Uhr ab 23.10 |
Raum: | IR 1: FR 0028 (ab 30.10. im GOR010); IR 2: FR 0027 |
Dozenten: | Sahin Albayrak, Christian Scheel |
Bemerkung: | Vertiefungsveranstaltung im Hauptstudium (KI, BKS, WI) |
Kurzbeschreibung
Information Retrieval (IR) beschäftigt sich mit der Informationssuche in wenig strukturierten Datenbeständen. Im Rahmen dieses Projekts werden Verfahren zur Repräsentation von textuellen Inhalten und multimedialen Objekten eingeführt. Diese grundlegenden IR-Konzepte werden als Teil eines Filter-Agenten in einer JIAC-Agenten-Community umgesetzt.
Beschreibung
Information Retrieval ist eines der bedeutendsten Forschungsgebiete der Informatik geworden. Das Herausfiltern von relevanten Informationen aus verschiedenen Daten-Quellen ist im Hinblick auf die Fülle irrelevanter Information im Internet zu einer nicht trivialen Aufgabe geworden.
Der Veranstalter bietet eine bestehende Agenten-Community, die zur Informations-Filterung genutzt werden kann. Diese ist voll funktionsfähig, bis auf eine Tatsache: Die Filter-Agenten implementieren alle das gleiche Interface, sind aber im Grunde leer. Aufgabe ist es, einen solchen Filter-Agenten mit einer Filter-Strategie zu füllen. Welche Strategien es gibt, wird in einem Seminarteil am Anfang des Projekts ‚Information Retrieval und Suchmaschinen 1' vermittelt.
Aus dem Wissen des Seminarteils heraus entwickeln die Studenten ihre eigenen Ideen, wie man bestehende Filterungs-Probleme effektiver lösen kann.
Teams mit unterschiedlichen Arbeitszielen werden gebildet und wöchentliche Diskussionen in Form von Meetings veranstaltet. Die Teams organisieren sich intern selbst, legen Meilensteine und Ziele fest und erfassen Abhängigkeiten (auch zwischen den Teams). Durch die Leitung und Organisation des Veranstalters bilden die Arbeiten der einzelnen Teams zusammen am Ende eines Projekt-Zeitraums ein fertiges "Produkt".
Hierzu stehen den Studenten moderne Kommunikationsmittel zur Verfügung. Zum einen gibt es die gewohnte Lehrveranstaltungs-Webseite, aber auch Mailinglisten für Ankündigungen und Probleme, sowie eine Wikipedia-Umgebung für Planung, Koordination und Dokumentation. Die Studenten arbeiten zusammen auf demselben Quell-Code, der durch Subversion verwaltet wird. Fehler in der Implementierung werden durch ein Cruise-Control-System erkannt und kommuniziert.
Während einer Projektphase durchlaufen die Studenten die typischen Phasen einer Software-Entwicklung wie Entwerfen und Spezifizieren, Implementieren, Testen und Dokumentieren, sowie typische Phasen beim Forschen wie Literatur-Recherche und Erstellen eines Prove-of-Concept.
Lernziele
Projektziele
- Strategien für effiziente Informationsfilterung.
- Extraktion von Inhalten aus Textquellen und anderem Content.
- Konzipierung, Implementierung und Test innovativer Filterstrategien.
- Integration in eine Filter-Agenten-Community.
Theoretische Grundlagen
- Die Studierenden sollen mit den theoretischen Grundlagen der Agententechnologie, welche aus vielen verschiedenen Forschungsgebieten stammen, vertraut werden.
- Vor- und Nachteile von agentorientierten Strukturen sollen verstanden werden.
- Phasenorientiert Software entwickeln.
- Dokumentation und Präsentation von Ergebnissen stellen weitere Schwerpunkte dar.
- Teamarbeit: Eine zielgerichtete Koordination der Teammitglieder ist unabdingbar, um das Projekt erfolgreich abschließen zu können. Hierzu werden Ihnen grundlegende Techniken des Projektmanagements und -controllings vermittelt.
Anwendungsmöglichkeit
- Verfahren zur Verarbeitung großer Datenmengen entwerfen, realisieren und praktisch erproben.
- Vertiefung der theoretischen Grundlagen: Sie erlernen die Nutzung der Agententechnologie in verteilten kooperativen Systemen. Dabei wenden Sie Methoden der verteilten künstlichen Intelligenz an und lernen deren Stärken und Schwächen kennen.
Werkzeuge
- Erlernen des Umgangs mit aktueller Software für Versionskontrolle, Code-Managements und Implementierung, wie sie in größeren Unternehmen verwendet werden.
- Beim Arbeiten mit der Architektur erlernt und verbessert der Teilnehmer den Umgang mit: Eclipse , Java 1.5 und Maven 2
- Die Versions-Kontrolle erfolgt über Subversion (SVN) und wird per Cruisecontrol überwacht.
Inhalte
Veranstaltungskalendar
Termine | Thema | Inhalte |
---|---|---|
23.10.2006 | Organisatorisches - Einführung | Einführung und Überblick in den Bereich IR, Forschungs-Schwerpunkte, usw. Vergabe der Vorträge Einführung in PIA |
30.10.2006 | Vorträge | Einführung in die Architektur |
01.11.2006 | Vorträge | Marek Iwaszkiewicz Einführung in die Benutzung der DAI-Labor-Webseiten-Extraktoren |
06.11.2006 | Vorträge | Vortrag 1: Preprocessing |
08.11.2006 | Vorträge | Vortrag 1: Contentbased Filtering Vortrag 2: Collaborative Filtering |
13.11.2006 | Projekt-Treffen | Vortrag 1: OCR Vortrag 2: Clustering |
20.11.2006 | Projekt-Treffen | Vorstellen der Hausaufgabenergebnisse. Diskussion und Planung der Verwirklichung der Filterstrategien. |
27.11.2006 | Projekt-Treffen | Aktuelle Fragestellungen aus dem Projekt. |
04.12.2006 | Projekt-Treffen | Aktuelle Fragestellungen aus dem Projekt. |
11.12.2006 | Projekt-Treffen | Aktuelle Fragestellungen aus dem Projekt. |
18.12.2006 | Projekt-Treffen | Meilensteinpräsentation |
Weihnachten | ||
08.01.2007 | Projekt-Treffen | Aktuelle Fragestellungen aus dem Projekt. |
15.01.2007 | Projekt-Treffen | Aktuelle Fragestellungen aus dem Projekt. |
22.01.2007 | Projekt-Treffen | Aktuelle Fragestellungen aus dem Projekt. |
29.01.2007 | Verschoben auf 02.11.2006 | |
05.02.2007 | Verschoben auf 09.11.2006 | |
12.02.2007 | Projekt-Treffen | Bilanz des bisherigen Projekt-Ablaufs, bisherige Resultate, Ausarbeitung, etc. |
Literatur und Folien sind im geschützen Bereich verfügbar.
Voraussetzungen
Abgeschlossenes Vordiplom in Informatik oder einer verwandten Studienrichtung.
- obligatorisch: AOT 1, Kenntnisse der Programmiersprache Java
Aus der folgenden Liste sollte mindestens eine Qualifikation erfüllt sein:
- Sehr gute Mathematik-Kenntnisse / Statistik
- Erfahrungen mit Textanalyse / Linguistik
- Kenntnisse aus der künstlichen Intelligenz (z.B. Besuch der ‚Grundlagen der KI’ und ‚Maschinelles Lernen’)
- Für IR 2 ist IR 1 die Vorraussetzung, es können aber beide Veranstaltungen parallel besucht werden.
Copyright TU Berlin 2007