Inhalt

Mit "Embeddings" wird eine Sammlung von Methoden bezeichnet, um Objekte in hochdimensionalen Vektorräumen zu repräsentieren. Klassifiziert, z. B. nach Wortarten, werden dann nicht mehr (nur) die Oberflächenformen, sondern die Vektoren, die auch Informationen über den Kontext beinhalten. Es zeigt sich, etwa beim berühmten v(king) - v(man) + v(woman) = v(queen)-Beispiel (lies: Vom Vektor für "king" wird der Vektor von "man" abgezogen und der Vektor für "woman" addiert. Das Ergebnis, so hat sich gezeigt, liegt nahe am Vektor für "queen"). Der Vektorraum hat also "gelernt", dass das Verhältnis von "man" zu "king" so ist wie das Verhältnis von "woman" zu "queen". Andere Beispiele, in denen solche Verhältnisse interessant sind, sind z. B. Städte (Berlin verhält sich zu Deutschland so wie Paris zu Frankreich).}, dass in den Vektoren auch semantische Informationen, also über die Bedeutung der jeweiligen Wörter enthalten ist, was die Methode(n) sehr mächtig macht.

Im Seminar schauen wir uns einerseits Methoden zum Erzeugen von Embeddings an, also Methoden, die aus einem gegebenen Korpus einen Vektorraum erstellen, und die einzelnen Wörter darin einbetten (daher der Name). Andererseits schauen wir uns Anwendungen von Embeddings an, also Möglichkeiten, die sich durch die Embeddings eröffnen. In einem letzten (kleineren) Teil soll es auch um Forschungen gehen, in denen Embeddings für andere Objekte als Wörter eingesetzt werden, etwa Figuren oder Paare aus Bildern und Bildbeschreibungen.

Ablauf

Im Seminar gibt es drei Phasen. In der ersten und dritten Phase (in der Tabelle unten mit "Methode" gekennzeichnet) stelle ich methodische Grundlagen vor, in der mittleren (Tabelle unten: "Anwendungen") werden Anwendungen von Embeddings durch Studierende vorgestellt (s.u. zu den Details zu Studienleistungen).

Hintergrundlektüre

Je nach Vorkenntnissen kann ein Blick in die folgenden Veröffentlichungen hilfreich sein:

Studienleistung

Die Studienleistung besteht darin, sich in ein Thema einzuarbeiten, eine Seminarsitzung dazu zu planen und sie durchzuführen.

Dabei folgen wir dem folgenen Muster:

  • Mehr als zwei Wochen vorher: Papier(e) zum Thema durcharbeiten, inklusive Forschungsstand
  • Spätestens zwei Wochen vorher: Sprechstunde mit Dozent zu inhaltlichen Fragen zum Papier
    • Bitte melden Sie sich rechtzeitig um einen Termin zu finden
  • Spätestens eine Woche vorher: Konzept zum Referat per E-Mail abgeben. Das Konzept beinhaltet a) die Gliederung/Struktur, b) Aufgaben/Fragestellungen für Kleingruppen sowie erwartete Ergebnisse und c) selbst erstellte Beispiele, die das gesagte verdeutlichen und konkretisieren
  • Sitzung durchführen halten. Jede Sitzung muss mindestens eine Gruppenaktivität beinhalten, also z. B. eine Aufgabe/Frage die in einer Kleingruppe gelöst/beantwortet wird.
  • Im Anschluss: Feedbackgespräch

Die Verteilung der Teilnehmer:innen auf Termine und Themen erfolgt über den Ilias-Buchungspool "Seminarsitzungen", und zwar zwischen 11.04.2022, 08:00 und 14.04.2022, 14:00 Uhr. Dabei bilden sich Gruppen aus 2-3 Studierenden.

Termine und Themen

Datum Vorträger:innen Thema und Lektüre
Methode 07.04.2022 Nils Reiter

Word meaning, word similarity, lexical relations
(G. E. Hinton 1986; Montague 1970; Salton u.a. 1975; Wittgenstein 1958)

Folien

14.04.2022 Nils Reiter

Distributional hypothesis, count vectors, tf idf
(Harris 1954; Jones 1972)

Folien

21.04.2022 Nils Reiter

word2vec (Mikolov u. a. 2013)

Folien

28.04.2022 Nils Reiter

Wissenschaftliche Literatur lesen, verstehen und präsentieren

Folien

05.05.2022 Nils Reiter

glove (Pennington u. a. 2014)

Evaluation methods (Hill u. a. 2015; Hollenstein u. a. 2019; Schnabel u. a. 2015)

Folien

Anwendungen 12.05.2022 JH, LR Diachronic semantic change and how to measure it
(Hamilton u. a. 2016; Schlechtweg, McGillivray u. a. 2020; Schlechtweg, Schulte im Walde u. a. 2018)
19.05.2022 LG, RB

Bias in embeddings and how to detect it
(Caliskan u.a. 2017; Chaloner und Maldonado 2019; Zhang u. a. 2020)

26.05.2022 keine Sitzung: Christi Himmelfahrt
02.06.2022 SaS, MG

Applications in literary studies & history
(Karsdorp u. a. 2015; Tripodi u. a. 2019)

09.06.2022 keine Sitzung: Pfingstferien
16.06.2022 keine Sitzung: Fronleichnam
23.06.2022 keine Sitzung: Nils ist auf Konferenz
30.06.2022 SuS, MK Applications in linguistics & law
(Alhoshan u.a. 2019; Landthaler u. a. 2016)
Methode 07.07.2022 Nils Reiter

Contextual Embeddings

Folien

14.07.2022 Nils Reiter Abschlussgespräch

Literatur

Siehe Literaturliste. Literatur die nicht online verfügbar ist, findet sich im Ilias-Ordner "Literatur".