Inhalt
Sprachtechnologie ist eine dual-use-Technologie. Technik die zur großflächigen Analyse von Narrativen in Texten verwendet wird, kann ebenso verwendet werden, um staatliche und nicht-staatliche Massenüberwachung effizienter zu gestalten. Mit maschinellen Übersetzungssystemen und -assistenten können wir Länder bereisen, deren Sprache wir nicht oder nur unzureichend beherrschen, gleichzeitig machen es solche Systeme leichter, auf Wahlen oder die öffentliche Meinung Einfluss zu nehmen, um Partikularinteressen durchzusetzen.
Im Seminar möchten wir uns mit der "Sonnenseite" der Computerlinguistik beschäftigen, also mit Verfahren, die die Welt zu einer besseren machen. Dazu zählen z.B. Verfahren des de-biasings, also des Entfernens von Vorurteilen aus Textsammlungen; die Erkennung von Hassrede in sozialen Netzwerken; oder die Entwicklung fairer Evaluationsschemata.
Ablauf
Das Seminar gliedert sich in drei Phasen. In der ersten Phase (in der Tabelle unten mit „Methode“ gekennzeichnet) stelle ich methodische Grundlagen vor, in der mittleren (Tabelle unten: „Anwendungen“) werden konkrete Probleme und Lösungsansätze durch Studierende vorgestellt (s.u. zu den Details zu Studienleistungen). In den letzten Sitzungen fassen wir zusammen und reflektieren, ggf. können auch noch spezifische Methoden behandelt werden.
Studienleistung
Die Studienleistung besteht im (betreuten) Gestalten einer Seminarsitzung zu einem Thema in einer Zweiergruppe. Das Thema ist unten definiert, und es gibt einige Papiere als Startpunkte. Innerhalb dieses Rahmens können und sollen Schwerpunkte gesetzt werden. Es ist nicht erforderlich, eine vollumfängliche Darstellung der Papiere zu liefern. Stattdessen soll das jeweilige Thema (ggf. anhand der Papiere) vorgestellt werden.
- Mehr als zwei Wochen vorher: Papier(e) durcharbeiten, inklusive Forschungsstand. Zu lesen sind die jeweiligen Texte, sowie eine Auswahl der darin zitierten Texte. Es ist dringend erforderlich, sich dafür Zeit zu nehmen, also direkt nach der Gruppenteinteilung damit zu beginnen. Die Literatur ist anspruchsvoll und ggf. muss weitere Recherche betrieben werden.
- Spätestens zwei Wochen vorher: Sprechstunde mit Dozent zu inhaltlichen Fragen zur Literatur (oder Kontext)
- Spätestens eine Woche vorher: Konzept zu den Sitzungen per E-Mail abgeben. Das Konzept beinhaltet a) die Gliederung/Struktur, b) Aufgaben/Fragestellungen für Kleingruppen sowie erwartete Ergebnisse und c) selbst erstellte Beispiele, die das gesagte verdeutlichen und konkretisieren
- Sitzung halten. Jede Sitzung muss mindestens eine Gruppenaktivität beinhalten, also z. B. eine Aufgabe/Frage die in einer Kleingruppe gelöst/beantwortet wird.
- Direkt im Anschluss: Feedbackgespräch
Seminarthemen
Siehe rechts. Die Vergabe der Seminarthemen erfolgt via Ilias nach der ersten Sitzung.
Zeitplan
Bereich | Datum | Verantwortung | Thema |
---|---|---|---|
Methodik | 11.10. | Reiter | Einführung, Organisatorisches, Kennenlernen (Slides) |
18.10. | Reiter | Wissenschaftliche Literatur lesen und verstehen Wissenschaftliche Themen aufbereiten und präsentieren (Slides) |
|
25.10. | Reiter | Natural Language Processing I: Big picture (Slides) | |
8.11. | Reiter | Natural Language Processing II: Deep learning (Slides, Code-Beispiel) | |
15.11. | Reiter | Natural Language Processing III: Transformer models (Slides) | |
Inhalte | 22.11. | Günther | Authorship obfuscation / attribution |
29.11. | entfällt | ||
6.12. | Gutiérrez | Hate Speech Detection | |
13.12. | Hrkac / Plakidis | Mental Health | |
20.12. | Bouveyron | Fake News Detection | |
Methodik | 10.01. | Reiter | Seminarsitzungen leiten: Feedback & Lessons Learned; Modulprüfungen, Schreiben über NLP-Experimente (Slides) |
17.01. | Reiter | Experimente und ihre Auswertung in der Sprachverarbeitung |
|
24.01. | Reiter | Tools, Ressourcen, Infrastruktur (Slides) | |
31.01. | entfällt |
Veranstaltungsmaterialien
Ilias (nicht-öffentliche Kursmaterialien) | Klips (Formalia)