Aufgaben VI
• Topic Detection and Tracking
• Gegeben sei abstrakte Aufgabenstellung ein TDT System
aufzusetzen. Wie würden Sie vorgehen?
• Schätzen Sie die Effektivität Ihres Systems ein, diskutieren Sie
Vor- und Nachteile gegenüber anderen Systemen.
• Diskutieren Sie existierende Systeme, die TDT Funktionalität
aufweise, wie z.B. google-news.
• Question Answering
• (altes Experiment aus Praktikum mit Freimaurern)
Seminar Textmining WS 06/07
Topic Detection and Tracking
• Gegeben sei ein Datenstrom, welcher aus Texten besteht.
• Je einmal pro Stunde werden neue Texte heruntergeladen und in Dateien
abgelegt
• Ein Text besteht aus Quelle (es gibt mehrere), Titel, optionaler
Zusammenfassung, optionalen key words und dem eigentlichen Text (plain
text)
Das aufzusetzende System:
• Soll Vorschläge für neue Topics generieren
• Soll von einer Liste von Topics bei jedem Text erkennen, welche Topics
angesprochen werden
• Soll Topics als solche behandeln können (also alle Texte anzeigen,
relationen zu anderen Topics, Textbasiert, usw. )
• Soll folgende Probleme lösen:
– Segmentieren der Meldungen
– Identifizierung von Themen
– Bestimmen nachfolgender Meldungen zu einem Thema
– Bestimmen der ersten Meldung zum Thema
Seminar Textmining WS 06/07
Team 1
• K-means clustering
• Substantive Verben?
• Hierarchie? Woher?
Seminar Textmining WS 06/07
Algorithmen
• Inhaltlich
– Wie ist ein Topic definiert?
– Wie werden Topics visualisiert? Formatierte Zusammenfassung? Wie?
Reformulierung?
– Zusätzliches IR für weitere Informationen zum Topic?
– Was sind Kriterien, dass ein Text ein neues Topic definiert, wann ein
existierendes fortführt (siehe k-means clustering)?
– Kann ein Text mehrere Topics repräsentieren?
• Technisch
– Welche Berechnungen müssen durchgeführt werden?
– Können Berechnungen kontinuierlich erweitert werden, oder muss
jedes Mal neu gerechnet werden?
– Indexe? Worauf?
– Muster? Woher? Wofür?
– Format für Speicherung? Was soll wie gespeichert werden und warum?
Seminar Textmining WS 06/07
Weitere Algorithmen
• Wie funktioniert Identifizierung und Vereinheitlichung der
Entitäten (sei es Datums, Personennamen, Firmennamen, …)
– Gibt es sichere Regeln, können die durch Heuristiken ergänzt
werden, wenn ja dann welche?
• Was sind Kriterien für Zeitliche Einordnung der Texte?
– Was ist zeitliche Auflösung?
• Welche fortführenden Analysen sind denkbar?
Seminar Textmining WS 06/07
Seminar Textmining WS 06/07
Typen von Eigennamen
Beispiele für relevante Entitäten in dem TIMEX Format:
< TIMEX TYPE=’DATE’ > all of 1987 < /TIMEX >
< TIMEX TYPE=’TIME’ > 8:24 a.m. Chicago time < /TIMEX >
< NUMEX TYPE=’MONEY’ > several million New Pesos < /NUMEX >
more than < NUMEX TYPE=’PERCENT’ > 95%< /NUMEX >
in < ENAMEX TYPE=’LOCATION’ > North and South America < /ENAMEX >
the < ENAMEX TYPE=’ORGANIZATION’ > U.S. Fish and Wildlife Service <
/ENAMEX >
the < ENAMEX TYPE=’PERSON’ > Clinton < /ENAMEX > government
< ENAMEX TYPE=’ORGANISATION’ > Microsoft < /ENAMEX > chairman < ENAMEX
TYPE=’PERSON’ > Bill Gates < /ENAMEX > said yesterday
Seminar Textmining WS 06/07
Question Answering
• Beantworten Sie die folgende Frage schriftlich
– Abstand von Erde und Mond?
– Was ist die schönste Stadt?
• Vergleichen Sie Ihre Antworten
• Gegeben sei ein Textstück mit der Antwort auf diese Frage
•
•
Heute kann man die Entfernung des Mondes entweder mit Radaroder Laserlichtlaufzeit extrem präzise bestimmen. Dazu sendet
man ein Radarsignal oder einen Laserstrahl auf den Mond und
wartet, wie lange es dauert, bis die Reflektion zurückkommt. Es
sind etwas mehr als 2 Sekunden. Der Wert der mittleren
Entfernung Erde-Mond ist 384401 km.
Deutlich abgeschlagen sind dagegen Metropolen wie Paris (Rang
33), London (39) und New York (47). Auf den ersten drei Plätzen
liegen wie im Vorjahr Zürich, Genf und Vancouver. Auch sonst
gab es nur marginale Verschiebungen gegenüber der letzten
Studie.
• Formulieren Sie einen allgemeinen Algorithmus, der die Antwort aus
diesem und anderen Texten möglichst eindeutig extrahiert
Seminar Textmining WS 06/07
Was man im Web findet
• www.ask.com: 8. Treffer:
• Der Abstand Erde - Sonne beträgt 1.5 10^11 m, der Abstand
Erde - Mond 3.8 10^8 m.
• www.ask.com: 2. Treffer:
• Sydney- die schönste Stadt der Welt - by move! multimedia
und move! images Viele fantastische Bilder und ...
Hilfreich?
• Offenbar gibt es verschiedene Sorten von Fragen und nur
einige sind sinnvoll (automatisch) beantwortbar
Seminar Textmining WS 06/07
Typen von Fragen und Antworten (CLEF)
• Faktoid:
– Fragen nach Person, Zeit, Ort, Organisation, Mass, Anzahl,
Objekt (Woraus besteht Magma?) oder anderes.
• Definition:
– Fragen der Sorte „Was/Wer ist X?“ als auch nach Personen,
Organisationen,Objekten und anderem.
• „Liste von Elementen“ Frage:
– Fragen, die eine Antwort mit einer Liste mit begrenzter Anzahl
von Elementen erwarten
– (Nenne alle Flughäfen in London)
• Alle Fragen können temporal eingegrenzt sein.
Seminar Textmining WS 06/07
Automatisches FAQ Sammelsystem
• Formulieren Sie einen Algorithmus, der FAQs getrennt nach
Fragen und Antworten aus dem Web sammelt, unter der
Annahme, dass ein guter crawler gegeben ist.
• Welche Probleme könnten auftreten?
Seminar Textmining WS 06/07
Seminar Textmining WS 06/07

Folie 1 - Wortschatz