Inhalt
Sprachtechnologie ist eine dual-use-Technologie. Technik die zur großflächigen Analyse von Narrativen in Texten verwendet wird, kann ebenso verwendet werden, um staatliche und nicht-staatliche Massenüberwachung effizienter zu gestalten. Mit maschinellen Übersetzungssystemen und -assistenten können wir Länder bereisen, deren Sprache wir nicht oder nur unzureichend beherrschen, gleichzeitig machen es solche Systeme leichter, auf Wahlen oder die öffentliche Meinung Einfluss zu nehmen, um Partikularinteressen durchzusetzen.
Im Seminar möchten wir uns mit der "Sonnenseite" der Computerlinguistik beschäftigen, also mit Verfahren, die die Welt zu einer besseren machen. Dazu zählen z.B. Verfahren des de-biasings, also des Entfernens von Vorurteilen aus Textsammlungen; die Erkennung von Hassrede in sozialen Netzwerken; oder die Entwicklung fairer Evaluationsschemata.
Ablauf
Das Seminar gliedert sich in drei Phasen. In der ersten Phase (in der Tabelle unten mit „Methode“ gekennzeichnet) stelle ich methodische Grundlagen vor, in der mittleren (Tabelle unten: „Anwendungen“) werden konkrete Probleme und Lösungsansätze durch Studierende vorgestellt (s.u. zu den Details zu Studienleistungen). In den letzten Sitzungen fassen wir zusammen und reflektieren, ggf. können auch noch spezifische Methoden behandelt werden.
Hintergrundlektüre
Je nach Vorkenntnissen kann ein Blick in die folgenden Veröffentlichungen hilfreich sein:
-
Allgemeine Einführung in die maschinelle Sprachverarbeitung:
Jurafsky, Dan/James H. Martin (2021): Speech and Language Processing. 3rd ed. Draft of September 21, 2021. Prentice Hall. url: https://web.stanford.edu/~jurafsky/slp3/. -
Statistik und Wahrscheinlichkeitsrechnung:
Manning, Christopher D./Hinrich Schütze (1999): Foundations of Statistical Natural Language Processing. Cambridge, Massachusetts and London, England: MIT Press.
Kapitel 2 verfügbar in Ilias.
Studienleistung
Die Studienleistung besteht im (betreuten) Gestalten einer Seminarsitzung zu einem Thema in einer Zweiergruppe. Das Thema ist definiert durch mehrere Papiere und ein Stichwort (s.u.). Innerhalb dieses Rahmens können und sollen Schwerpunkte gesetzt werden. Es ist nicht erforderlich, eine vollumfängliche Darstellung der Papiere zu liefern. Stattdessen soll das jeweilige Thema anhand der Papiere vorgestellt werden.
- Mehr als zwei Wochen vorher: Papier(e) durcharbeiten, inklusive Forschungsstand. Zu lesen sind die jeweiligen Texte, sowie eine Auswahl der darin zitierten Texte. Es ist dringend erforderlich, sich dafür Zeit zu nehmen, also direkt nach der Gruppenteinteilung damit zu beginnen. Die Literatur ist anspruchsvoll und ggf. muss weitere Recherche betrieben werden.
- Spätestens zwei Wochen vorher: Sprechstunde mit Dozent zu inhaltlichen Fragen zur Literatur (oder Kontext)
- Spätestens eine Woche vorher: Konzept zum Referat per E-Mail abgeben. Das Konzept beinhaltet a) die Gliederung/Struktur, b) Aufgaben/Fragestellungen für Kleingruppen sowie erwartete Ergebnisse und c) selbst erstellte Beispiele, die das gesagte verdeutlichen und konkretisieren
- Referat halten. Jedes Referat muss mindestens eine Gruppenaktivität beinhalten, also z. B. eine Aufgabe/Frage die in einer Kleingruppe gelöst/beantwortet wird.
- Direkt im Anschluss: Feedbackgespräch
Die Zuteilung von Themen erfolgt über diesen Ilias-"Buchungspool" (ab 14.10., 9 Uhr).
Termine und Themen
Datum | Verantwortlich | Thema, Literatur (siehe Literaturliste) | |
---|---|---|---|
Methodik | 12.10.2021 | Nils Reiter | Einführung, Organisatorisches, Kennenlernen (Folien) |
19.10.2021 | Nils Reiter | Wissenschaftliche Literatur lesen und verstehen (Folien, Ergebnisse der Gruppenarbeit) | |
26.10.2021 | Nils Reiter | Natural Language Processing I: Big Picture (Folien) | |
02.11.2021 | Nils Reiter | Natural Language Processing II: Deep learning, transformer models (Folien, Python-Skript) | |
Anwendungen | 09.11.2021 | Nils Reiter |
Fake News (Oshikawa u. a. 2020; Pérez-Rosas u. a. 2018; Volkova u. a. 2017; Folien, Texte) |
16.11.2021 | Klink, Görzen, Debbeler |
Dialogue Systems (Dinan u. a. 2020; Miehle u. a. 2016; Wang u. a. 2019) |
|
23.11.2021 | Homma, Fritz |
Anonymisierung and De-Anonymisierung (Bevendorff u. a. 2019; Mahmood u. a. 2020) |
|
30.11.2021 | Schäfer, Berg |
Mental Health (Coppersmith u. a. 2016; Sharma u. a. 2020) |
|
07.12.2021 | Schock, Biwer |
Hate speech: Racism (Davidson u.a. 2019; Waseem 2016) |
|
14.12.2021 | Munsch, Truong |
Hate speech: Sexism (Chiril u.a. 2020; Jha und Mamidi 2017; Parikh u. a. 2019) |
|
21.12.2021 | Nils Reiter |
Ausnahmsweise: Zoom-Termin |
|
Methodik | 11.01.2021 | Nils Reiter |
Modulprüfungen, Schreiben über NLP-Experimente (Folien) |
18.01.2021 | Nils Reiter | Überraschungsthema (Folien) | |
25.01.2021 | fällt aus | ||
01.02.2021 | Nils Reiter |
Zusammenfassung, Abschlussdiskussion, Feedback |
Veranstaltungsmaterialien
Ilias (nicht-öffentliche Kursmaterialien) | Klips (Formalia)