In vielen Bereichen menschlicher Textproduktion und -rezeption spielen Themen eine große Rolle: In hermeneutisch orientierten Geisteswissenschaften etwa ist die Frage, welche Themen in einem Text verhandelt werden, wesentlicher Bestandteil einer Interpretation. Beim Konsum von Nachrichtentexten dienen Themen zur Strukturierung von Inhalten, aber auch zur Herstellung von Gemeinsamkeiten. Was ein Thema ist, ist dabei stark kontextabhängig und Veränderungen unterworfen: Ein Thema wie die Klimakatastrophe kann dabei in viele Unterthemen aufgespalten werden, gleichzeitig ist die Frage, ob etwa Verkehrspolitik dazu gehört oder nicht, politisch umkämpft. 'Thema' ist also ein komplexer Begriff, der aber vielfach Verwendung findet und in vielen Bereichen relevant ist.

Im Seminar schauen wir uns 'Thema' aus einer sprachtechnologischen Perspektive an. Eine frühe Anwendung in diesem Bereich ist "topic detection & tracking" (TDT), also das Erkennen und Nachverfolgen von Themen in einem Nachrichtenstrom. Seit 2003 hat die "latent dirichlet allocation" (LDA), landläufig als "topic modelling" bezeichnet, eine Flut an Veröffentlichungen ausgelöst, die dieses Verfahren für diverse Zwecke nutzbar machen. Weiterentwicklungen davon betreffen etwa die Interpretierbarkeit von topics oder die Kombination von neuronalen Methoden mit LDA.

Veranstaltungsmaterialien

Materialien und Details werden über ilias zur Verfügung gestellt: www.ilias.uni-koeln.de/ilias/goto_uk_crs_3525119.html.