Inhalt

Sprachtechnologie ist eine dual-use-Technologie. Technik die zur großflächigen Analyse von Narrativen in Texten verwendet wird, kann ebenso verwendet werden, um staatliche und nicht-staatliche Massenüberwachung effizienter zu gestalten. Mit maschinellen Übersetzungssystemen und -assistenten können wir Länder bereisen, deren Sprache wir nicht oder nur unzureichend beherrschen, gleichzeitig machen es solche Systeme leichter, auf Wahlen oder die öffentliche Meinung Einfluss zu nehmen, um Partikularinteressen durchzusetzen.

Im Seminar möchten wir uns mit der "Sonnenseite" der Computerlinguistik beschäftigen, also mit Verfahren, die die Welt zu einer besseren machen. Dazu zählen z.B. Verfahren des de-biasings, also des Entfernens von Vorurteilen aus Textsammlungen; die Erkennung von Hassrede in sozialen Netzwerken; oder die Entwicklung fairer Evaluationsschemata.

Ablauf

Das Seminar gliedert sich in drei Phasen. In der ersten Phase (in der Tabelle unten mit „Methode“ gekennzeichnet) stelle ich methodische Grundlagen vor, in der mittleren (Tabelle unten: „Anwendungen“) werden konkrete Probleme und Lösungsansätze durch Studierende vorgestellt (s.u. zu den Details zu Studienleistungen). In den letzten Sitzungen fassen wir zusammen und reflektieren, ggf. können auch noch spezifische Methoden behandelt werden.

Hintergrundlektüre

Je nach Vorkenntnissen kann ein Blick in die folgenden Veröffentlichungen hilfreich sein:

  • Allgemeine Einführung in die maschinelle Sprachverarbeitung:
    Jurafsky, Dan/James H. Martin (2021): Speech and Language Processing. 3rd ed. Draft of September 21, 2021. Prentice Hall. url: https://web.stanford.edu/~jurafsky/slp3/.

  • Eine interaktive Einführung in die Lineare Algebra

  • Statistik und Wahrscheinlichkeitsrechnung:
    Manning, Christopher D./Hinrich Schütze (1999): Foundations of Statistical Natural Language Processing. Cambridge, Massachusetts and London, England: MIT Press.
    Kapitel 2 verfügbar in Ilias.

Studienleistung

Die Studienleistung besteht im (betreuten) Gestalten einer Seminarsitzung zu einem Thema in einer Zweiergruppe. Das Thema ist definiert durch mehrere Papiere und ein Stichwort (s.u.). Innerhalb dieses Rahmens können und sollen Schwerpunkte gesetzt werden. Es ist nicht erforderlich, eine vollumfängliche Darstellung der Papiere zu liefern. Stattdessen soll das jeweilige Thema anhand der Papiere vorgestellt werden.

  • Mehr als zwei Wochen vorher: Papier(e) durcharbeiten, inklusive Forschungsstand. Zu lesen sind die jeweiligen Texte, sowie eine Auswahl der darin zitierten Texte. Es ist dringend erforderlich, sich dafür Zeit zu nehmen, also direkt nach der Gruppenteinteilung damit zu beginnen. Die Literatur ist anspruchsvoll und ggf. muss weitere Recherche betrieben werden.
  • Spätestens zwei Wochen vorher: Sprechstunde mit Dozent zu inhaltlichen Fragen zur Literatur (oder Kontext)
  • Spätestens eine Woche vorher: Konzept zum Referat per E-Mail abgeben. Das Konzept beinhaltet a) die Gliederung/Struktur, b) Aufgaben/Fragestellungen für Kleingruppen sowie erwartete Ergebnisse und c) selbst erstellte Beispiele, die das gesagte verdeutlichen und konkretisieren
  • Referat halten. Jedes Referat muss mindestens eine Gruppenaktivität beinhalten, also z. B. eine Aufgabe/Frage die in einer Kleingruppe gelöst/beantwortet wird.
  • Direkt im Anschluss: Feedbackgespräch

Die Zuteilung von Themen erfolgt über diesen Ilias-"Buchungspool" (ab 14.10., 9 Uhr).

Termine und Themen

Datum Verantwortlich Thema, Literatur (siehe Literaturliste)
Methodik 12.10.2021 Nils Reiter Einführung, Organisatorisches, Kennenlernen (Folien)
19.10.2021 Nils Reiter Wissenschaftliche Literatur lesen und verstehen (Folien, Ergebnisse der Gruppenarbeit)
26.10.2021 Nils Reiter Natural Language Processing I: Big Picture (Folien)
02.11.2021 Nils Reiter Natural Language Processing II: Deep learning, transformer models (Folien, Python-Skript)
Anwendungen 09.11.2021 Nils Reiter

Fake News (Oshikawa u. a. 2020; Pérez-Rosas u. a. 2018; Volkova u. a. 2017; Folien, Texte)

16.11.2021 Klink, Görzen, Debbeler

Dialogue Systems (Dinan u. a. 2020; Miehle u. a. 2016; Wang u. a. 2019)

23.11.2021 Homma, Fritz

Anonymisierung and De-Anonymisierung (Bevendorff u. a. 2019; Mahmood u. a. 2020)

30.11.2021 Schäfer, Berg

Mental Health (Coppersmith u. a. 2016; Sharma u. a. 2020)

07.12.2021 Schock, Biwer

Hate speech: Racism (Davidson u.a. 2019; Waseem 2016)

14.12.2021 Munsch, Truong

Hate speech: Sexism (Chiril u.a. 2020; Jha und Mamidi 2017; Parikh u. a. 2019)

21.12.2021 Nils Reiter

Ausnahmsweise: Zoom-Termin
Reflexion über Referate; Low-resource Languages (Grießhaber u. a. 2020; Hedderich u. a. 2021)

Methodik 11.01.2021 Nils Reiter

Modulprüfungen, Schreiben über NLP-Experimente (Folien)

18.01.2021 Nils Reiter Überraschungsthema (Folien)
25.01.2021 fällt aus
01.02.2021 Nils Reiter

Zusammenfassung, Abschlussdiskussion, Feedback

Veranstaltungsmaterialien

Ilias (nicht-öffentliche Kursmaterialien) | Klips (Formalia)