direkt zum Inhalt springen

direkt zum Hauptnavigationsmenü

Logo der TU Berlin

Details zu Abschlussarbeiten

Zur Übersicht

Thema



Klassifikation und Erstellung von benutzerspezifischen Domänen mit Methoden und Algorithmen des maschinellen Lernens

Aufgabenstellung



Um in Informationssystemen dem Nutzer hilfreiche und den persönlichen Interessen des Nutzers entsprechende Dokumente zu ermitteln, besteht ein viel versprechender Ansatz in der Verwendung von Methoden der Klassifikation.<br />
<br />
Man analysiert dazu anhand einer Merkmalsmenge (z.B. Schlüsselwörter bzw. Phrasen), in welche Domäne die Dokumente eingeordnet werden können. Für eine erfolgreiche Klassifikation ist es wichtig, die optimalen Merkmale für die Beschreibung einer Domäne zu ermitteln, sowie die bestehende Menge von Merkmalen (zur Beschreibung jeder Domäne) an die sich ändernde Umgebung anzupassen. Ziele sind dabei die Verbesserung der Klassifikationsgenauigkeit, eine Beschleunigung der Klassifikation (z.B. durch Minimierung der Berücksichtigten Merkmale) sowie die optimale Einordnung neuer Informationen.<br />
<br />
Bei der Zuordnung von Dokumenten in vordefinierte Domänen werden die persönlichen Ansprüche einzelner Benutzer nur unzureichend berücksichtigt. Daher muss es möglich sein, dass einzelne Benutzer die vordefinierten Domänen entsprechend ihrer persönlichen Interessen anpassen. Bei der personalidierten Klassifikation muss insbesondere das Profil des Benutzers sowie vorhandenes User-Feedback berücksichtigt werden. Weiterhin sollte aufgrund der möglicherweise sehr großen Anzahl von Benutzer der für die Klassifikation notwendige Aufwand (Speicher/CPU) berücksichtigt werden, um einen geeigneten Kompromiss zwischen Personalisierbarkeit und Aufwand zu finden. Es ist dabei zu analysieren, inwiefern es sinnvoll ist, Domänen verschiedene Benutzer zusammenzufassen bzw. benutzerspezifische Domänen aus einer "Globaldomäne" abzuleiten.<br />
Zum Erreichen dieser Ziele sollen verschiede Methoden und Algorithmen das maschinellen Lernens, insbesondere der Klassifikation analysiert und getestet werden. Als Testdatenmenge kann die Datensammlung des Projektes PIA dienen, die neben Dokumenten aus verschiedenen Quellen auch Meta-Daten enthält. Die zur Lösung der Problemstellung am besten geeigneten Methoden sollen durch Agenten in einem Multi-Agenten-System anderen Agenten zur Verfügung gestellt werden.<br />
<br />
<br />
Im Einzelnen sind die folgenden Aufgaben zu bearbeiten:<br />
<br />
• Zusammenstellung von aktuellen Techniken zur Automatischen Bewertung von Dokumenten. Das Hauptaugenmerk soll dabei auf den Bereich der Klassifikation gelegt werden. Gegenüberstellung und Bewertung verschiedener Methoden der Text-Bewertung Implementierung eines Agenten zur Realisierung geeigneter Methoden für die „benutzerunabhängige“ Klassifikation von Dokumenten<br />
• Erweiterung der Agenten um benutzerspezifische Klassifikation<br />
• Testen und Bewerten der realisierten Implementierung<br />
<br />
<br />
Literatur und relevanter Themenbereich<br />
• Klassifikationsalgorithmen: C5.0, J4.8, CAL3, CAL5, ID3 http://www.cs.waikato.ac.nz/ml/weka<br />
• Knowledge discovery and machine learning: http://www.informatik.hu-berlin.de/~scheffer/<br />
• JIAC: http://www.jiac.de:81<br />
• Content-Management-Systeme, Wörterbuch-Systeme http://www.hhl.de/fileadmin/LS/micro/Download/Winkler_2002_DocumentWarehousing.pdf<br />

Betreuer



Betreuer:  Andreas Lommatzsch
Email:   andreas.lommatzschdai-labor.de
Telefon:  314-25318

Bearbeiter



Student:  Olga Streibel