Inhalt

Sprachtechnologie ist eine dual-use-Technologie. Technik die zur großflächigen Analyse von Narrativen in Texten verwendet wird, kann ebenso verwendet werden, um staatliche und nicht-staatliche Massenüberwachung effizienter zu gestalten. Mit maschinellen Übersetzungssystemen und -assistenten können wir Länder bereisen, deren Sprache wir nicht oder nur unzureichend beherrschen, gleichzeitig machen es solche Systeme leichter, auf Wahlen oder die öffentliche Meinung Einfluss zu nehmen, um Partikularinteressen durchzusetzen.

Im Seminar möchten wir uns mit der "Sonnenseite" der Computerlinguistik beschäftigen, also mit Verfahren, die die Welt zu einer besseren machen. Dazu zählen z.B. Verfahren des de-biasings, also des Entfernens von Vorurteilen aus Textsammlungen; die Erkennung von Hassrede in sozialen Netzwerken; oder die Entwicklung fairer Evaluationsschemata.

Ablauf

Das Seminar gliedert sich in drei Phasen. In der ersten Phase (in der Tabelle unten mit „Methode“ gekennzeichnet) stelle ich methodische Grundlagen vor, in der mittleren (Tabelle unten: „Anwendungen“) werden konkrete Probleme und Lösungsansätze durch Studierende vorgestellt (s.u. zu den Details zu Studienleistungen). In den letzten Sitzungen fassen wir zusammen und reflektieren, ggf. können auch noch spezifische Methoden behandelt werden.

Studienleistung

Die Studienleistung besteht im (betreuten) Gestalten einer Seminarsitzung zu einem Thema in einer Zweiergruppe. Das Thema ist unten definiert, und es gibt einige Papiere als Startpunkte. Innerhalb dieses Rahmens können und sollen Schwerpunkte gesetzt werden. Es ist nicht erforderlich, eine vollumfängliche Darstellung der Papiere zu liefern. Stattdessen soll das jeweilige Thema (ggf. anhand der Papiere) vorgestellt werden.

  • Mehr als zwei Wochen vorher: Papier(e) durcharbeiten, inklusive Forschungsstand. Zu lesen sind die jeweiligen Texte, sowie eine Auswahl der darin zitierten Texte. Es ist dringend erforderlich, sich dafür Zeit zu nehmen, also direkt nach der Gruppenteinteilung damit zu beginnen. Die Literatur ist anspruchsvoll und ggf. muss weitere Recherche betrieben werden.
  • Spätestens zwei Wochen vorher: Sprechstunde mit Dozent zu inhaltlichen Fragen zur Literatur (oder Kontext)
  • Spätestens eine Woche vorher: Konzept zu den Sitzungen per E-Mail abgeben. Das Konzept beinhaltet a) die Gliederung/Struktur, b) Aufgaben/Fragestellungen für Kleingruppen sowie erwartete Ergebnisse und c) selbst erstellte Beispiele, die das gesagte verdeutlichen und konkretisieren
  • Sitzung halten. Jede Sitzung muss mindestens eine Gruppenaktivität beinhalten, also z. B. eine Aufgabe/Frage die in einer Kleingruppe gelöst/beantwortet wird.
  • Direkt im Anschluss: Feedbackgespräch

Seminarthemen

Siehe rechts. Die Vergabe der Seminarthemen erfolgt via Ilias nach der ersten Sitzung.

Zeitplan

Bereich Datum Verantwortung Thema
Methodik 11.10. Reiter Einführung, Organisatorisches, Kennenlernen (Slides)
18.10. Reiter Wissenschaftliche Literatur lesen und verstehen
Wissenschaftliche Themen aufbereiten und präsentieren (Slides)
25.10. Reiter Natural Language Processing I: Big picture (Slides)
8.11. Reiter Natural Language Processing II: Deep learning (Slides, Code-Beispiel)
15.11. Reiter Natural Language Processing III: Transformer models (Slides)
Inhalte 22.11. Günther Authorship obfuscation / attribution
29.11. entfällt
6.12. Gutiérrez Hate Speech Detection
13.12. Hrkac / Plakidis Mental Health
20.12. Bouveyron Fake News Detection
Methodik 10.01. Reiter Seminarsitzungen leiten: Feedback & Lessons Learned; Modulprüfungen, Schreiben über NLP-Experimente (Slides)
17.01. Reiter Experimente und ihre Auswertung in der SprachverarbeitungMaschinelle Übersetzung (Slides)
24.01. Reiter Tools, Ressourcen, Infrastruktur (Slides)
31.01. entfällt

Veranstaltungsmaterialien

Ilias (nicht-öffentliche Kursmaterialien) | Klips (Formalia)