Inhalt
Mit "Embeddings" wird eine Sammlung von Methoden bezeichnet, um Objekte in hochdimensionalen Vektorräumen zu repräsentieren. Klassifiziert, z. B. nach Wortarten, werden dann nicht mehr (nur) die Oberflächenformen, sondern die Vektoren, die auch Informationen über den Kontext beinhalten. Es zeigt sich, etwa beim berühmten v(king) - v(man) + v(woman) = v(queen)
-Beispiel (lies: Vom Vektor für "king" wird der Vektor von "man" abgezogen und der Vektor für "woman" addiert. Das Ergebnis, so hat sich gezeigt, liegt nahe am Vektor für "queen"). Der Vektorraum hat also "gelernt", dass das Verhältnis von "man" zu "king" so ist wie das Verhältnis von "woman" zu "queen". Andere Beispiele, in denen solche Verhältnisse interessant sind, sind z. B. Städte (Berlin verhält sich zu Deutschland so wie Paris zu Frankreich).}, dass in den Vektoren auch semantische Informationen, also über die Bedeutung der jeweiligen Wörter enthalten ist, was die Methode(n) sehr mächtig macht.
Im Seminar schauen wir uns einerseits Methoden zum Erzeugen von Embeddings an, also Methoden, die aus einem gegebenen Korpus einen Vektorraum erstellen, und die einzelnen Wörter darin einbetten (daher der Name). Andererseits schauen wir uns Anwendungen von Embeddings an, also Möglichkeiten, die sich durch die Embeddings eröffnen. In einem letzten (kleineren) Teil soll es auch um Forschungen gehen, in denen Embeddings für andere Objekte als Wörter eingesetzt werden, etwa Figuren oder Paare aus Bildern und Bildbeschreibungen.
Ablauf
Im Seminar gibt es drei Phasen. In der ersten und dritten Phase (in der Tabelle unten mit "Methode" gekennzeichnet) stelle ich methodische Grundlagen vor, in der mittleren (Tabelle unten: "Anwendungen") werden Anwendungen von Embeddings durch Studierende vorgestellt (s.u. zu den Details zu Studienleistungen).
Hintergrundlektüre
Je nach Vorkenntnissen kann ein Blick in die folgenden Veröffentlichungen hilfreich sein:
- Allgemeine Einführung zu Sprachverarbeitung: Jurafsky/Martin 2021 draft
- Interaktives Howto zu Linearer Algebra: http://immersivemath.com/ila/
- Statistik und Wahrscheinlichkeitsrechnung: Manning/Schütze 1999, Kapitel 2 (siehe Ilias)
Studienleistung
Die Studienleistung besteht darin, sich in ein Thema einzuarbeiten, eine Seminarsitzung dazu zu planen und sie durchzuführen.
Dabei folgen wir dem folgenen Muster:
- Mehr als zwei Wochen vorher: Papier(e) zum Thema durcharbeiten, inklusive Forschungsstand
- Spätestens zwei Wochen vorher: Sprechstunde mit Dozent zu inhaltlichen Fragen zum Papier
- Bitte melden Sie sich rechtzeitig um einen Termin zu finden
- Spätestens eine Woche vorher: Konzept zum Referat per E-Mail abgeben. Das Konzept beinhaltet a) die Gliederung/Struktur, b) Aufgaben/Fragestellungen für Kleingruppen sowie erwartete Ergebnisse und c) selbst erstellte Beispiele, die das gesagte verdeutlichen und konkretisieren
- Sitzung durchführen halten. Jede Sitzung muss mindestens eine Gruppenaktivität beinhalten, also z. B. eine Aufgabe/Frage die in einer Kleingruppe gelöst/beantwortet wird.
- Im Anschluss: Feedbackgespräch
Die Verteilung der Teilnehmer:innen auf Termine und Themen erfolgt über den Ilias-Buchungspool "Seminarsitzungen", und zwar zwischen 11.04.2022, 08:00 und 14.04.2022, 14:00 Uhr. Dabei bilden sich Gruppen aus 2-3 Studierenden.
Termine und Themen
Datum | Vorträger:innen | Thema und Lektüre | |
---|---|---|---|
Methode | 07.04.2022 | Nils Reiter |
Word meaning, word similarity, lexical relations |
14.04.2022 | Nils Reiter |
Distributional hypothesis, count vectors, tf idf |
|
21.04.2022 | Nils Reiter |
word2vec (Mikolov u. a. 2013) |
|
28.04.2022 | Nils Reiter |
Wissenschaftliche Literatur lesen, verstehen und präsentieren |
|
05.05.2022 | Nils Reiter |
glove (Pennington u. a. 2014) Evaluation methods (Hill u. a. 2015; Hollenstein u. a. 2019; Schnabel u. a. 2015) |
|
Anwendungen | 12.05.2022 | JH, LR | Diachronic semantic change and how to measure it (Hamilton u. a. 2016; Schlechtweg, McGillivray u. a. 2020; Schlechtweg, Schulte im Walde u. a. 2018) |
19.05.2022 | LG, RB |
Bias in embeddings and how to detect it |
|
26.05.2022 | keine Sitzung: Christi Himmelfahrt | ||
02.06.2022 | SaS, MG |
Applications in literary studies & history |
|
09.06.2022 | keine Sitzung: Pfingstferien | ||
16.06.2022 | keine Sitzung: Fronleichnam | ||
23.06.2022 | keine Sitzung: Nils ist auf Konferenz | ||
30.06.2022 | SuS, MK | Applications in linguistics & law (Alhoshan u.a. 2019; Landthaler u. a. 2016) |
|
Methode | 07.07.2022 | Nils Reiter |
Contextual Embeddings |
14.07.2022 | Nils Reiter | Abschlussgespräch |
Literatur
Siehe Literaturliste. Literatur die nicht online verfügbar ist, findet sich im Ilias-Ordner "Literatur".