Sprachtechnologie für eine bessere Welt

Inhalt

Sprachtechnologie ist eine dual-use-Technologie. Technik die zur großflächigen Analyse von Narrativen in Texten verwendet wird, kann ebenso verwendet werden, um staatliche und nicht-staatliche Massenüberwachung effizienter zu gestalten. Mit maschinellen Übersetzungssystemen und -assistenten können wir Länder bereisen, deren Sprache wir nicht oder nur unzureichend beherrschen, gleichzeitig machen es solche Systeme leichter, auf Wahlen oder die öffentliche Meinung Einfluss zu nehmen, um Partikularinteressen durchzusetzen.

Im Seminar möchten wir uns mit der "Sonnenseite" der Computerlinguistik beschäftigen, also mit Verfahren, die die Welt zu einer besseren machen. Dazu zählen z.B. Verfahren des de-biasings, also des Entfernens von Vorurteilen aus Textsammlungen; die Erkennung von Hassrede in sozialen Netzwerken; oder die Entwicklung fairer Evaluationsschemata.

Ablauf

Das Seminar gliedert sich in drei Phasen. In der ersten Phase (in der Tabelle unten mit „Methode“ gekennzeichnet) stelle ich methodische Grundlagen vor, in der mittleren (Tabelle unten: „Anwendungen“) werden konkrete Probleme und Lösungsansätze durch Studierende vorgestellt (s.u. zu den Details zu Studienleistungen). In den letzten Sitzungen fassen wir zusammen und reflektieren, ggf. können auch noch spezifische Methoden behandelt werden.

Hintergrundlektüre

Je nach Vorkenntnissen kann ein Blick in die folgenden Veröffentlichungen hilfreich sein:

Allgemeine Einführung in die maschinelle Sprachverarbeitung:
Jurafsky, Dan/James H. Martin (2021): Speech and Language Processing. 3rd ed. Draft of September 21, 2021. Prentice Hall. url: https://web.stanford.edu/~jurafsky/slp3/.
Eine interaktive Einführung in die Lineare Algebra
Statistik und Wahrscheinlichkeitsrechnung:
Manning, Christopher D./Hinrich Schütze (1999): Foundations of Statistical Natural Language Processing. Cambridge, Massachusetts and London, England: MIT Press.
Kapitel 2 verfügbar in Ilias.

Studienleistung

Die Studienleistung besteht im (betreuten) Gestalten einer Seminarsitzung zu einem Thema in einer Zweiergruppe. Das Thema ist definiert durch mehrere Papiere und ein Stichwort (s.u.). Innerhalb dieses Rahmens können und sollen Schwerpunkte gesetzt werden. Es ist nicht erforderlich, eine vollumfängliche Darstellung der Papiere zu liefern. Stattdessen soll das jeweilige Thema anhand der Papiere vorgestellt werden.

Mehr als zwei Wochen vorher: Papier(e) durcharbeiten, inklusive Forschungsstand. Zu lesen sind die jeweiligen Texte, sowie eine Auswahl der darin zitierten Texte. Es ist dringend erforderlich, sich dafür Zeit zu nehmen, also direkt nach der Gruppenteinteilung damit zu beginnen. Die Literatur ist anspruchsvoll und ggf. muss weitere Recherche betrieben werden.
Spätestens zwei Wochen vorher: Sprechstunde mit Dozent zu inhaltlichen Fragen zur Literatur (oder Kontext)
Spätestens eine Woche vorher: Konzept zum Referat per E-Mail abgeben. Das Konzept beinhaltet a) die Gliederung/Struktur, b) Aufgaben/Fragestellungen für Kleingruppen sowie erwartete Ergebnisse und c) selbst erstellte Beispiele, die das gesagte verdeutlichen und konkretisieren
Referat halten. Jedes Referat muss mindestens eine Gruppenaktivität beinhalten, also z. B. eine Aufgabe/Frage die in einer Kleingruppe gelöst/beantwortet wird.
Direkt im Anschluss: Feedbackgespräch

Die Zuteilung von Themen erfolgt über diesen Ilias-"Buchungspool" (ab 14.10., 9 Uhr).

Termine und Themen

	Datum	Verantwortlich	Thema, Literatur (siehe Literaturliste)
Methodik	12.10.2021	Nils Reiter	Einführung, Organisatorisches, Kennenlernen (Folien)
	19.10.2021	Nils Reiter	Wissenschaftliche Literatur lesen und verstehen (Folien, Ergebnisse der Gruppenarbeit)
	26.10.2021	Nils Reiter	Natural Language Processing I: Big Picture (Folien)
	02.11.2021	Nils Reiter	Natural Language Processing II: Deep learning, transformer models (Folien, Python-Skript)
Anwendungen	09.11.2021	Nils Reiter	Fake News (Oshikawa u. a. 2020; Pérez-Rosas u. a. 2018; Volkova u. a. 2017; Folien, Texte)
	16.11.2021	Klink, Görzen, Debbeler	Dialogue Systems (Dinan u. a. 2020; Miehle u. a. 2016; Wang u. a. 2019)
	23.11.2021	Homma, Fritz	Anonymisierung and De-Anonymisierung (Bevendorff u. a. 2019; Mahmood u. a. 2020)
	30.11.2021	Schäfer, Berg	Mental Health (Coppersmith u. a. 2016; Sharma u. a. 2020)
	07.12.2021	Schock, Biwer	Hate speech: Racism (Davidson u.a. 2019; Waseem 2016)
	14.12.2021	Munsch, Truong	Hate speech: Sexism (Chiril u.a. 2020; Jha und Mamidi 2017; Parikh u. a. 2019)
	21.12.2021	Nils Reiter	Ausnahmsweise: Zoom-Termin Reflexion über Referate; Low-resource Languages (Grießhaber u. a. 2020; Hedderich u. a. 2021)
Methodik	11.01.2021	Nils Reiter	Modulprüfungen, Schreiben über NLP-Experimente (Folien)
	18.01.2021	Nils Reiter	Überraschungsthema (Folien)
	25.01.2021	fällt aus
	01.02.2021	Nils Reiter	Zusammenfassung, Abschlussdiskussion, Feedback

Veranstaltungsmaterialien

Ilias (nicht-öffentliche Kursmaterialien) | Klips (Formalia)