Die Vorlesung behandelt Themen aus dem Bereich der datengetriebenen Textanalyse. Dazu werden überwachte und unüberwachte maschinelle Lernverfahren, sowie Fragen der Aus- und Bewertung quantitativer Ergebnisse besprochen. Die Vorlesung nimmt dabei mit einem methodischen Blick verschiedene Probleme der Sprachverarbeitung unter die Lupe und diskutiert, wie diese angegangen werden (können). Bei den meisten Ansätzen gibt es dabei mehrere Ebenen, die auch alle angesprochen werden: Was ist die Idee/Intuition? Wie kann sie formalisiert werden, etwas mithilfe mathematischer Modelle? Wie kann das formale Modell schließlich (effizient) implementiert werden? Teilweise müssen dazu auch Grundlagen zu formalen Modellen oder Programmierkonzepten besprochen werden, was ebenfalls Teil der Vorlesung ist.
Studienleistung
Die Studienleistung (= unbenoteter Teilnahmenachweis) besteht darin, zu mindestens einem Begriff aus einer Vorlesungsitzung einen Glossareintrag zu erstellen. Das Glossar sammeln wir in Ilias. Wenn Ihnen ein Begriff aus dem Kontext der Vorlesung begegnet, der Ihnen interessant oder relevant erscheint, schauen Sie zunächst im Glossar nach, ob er schon eingetragen wurde. Wenn nicht, fügen Sie ihn ein und hinterlassen Ihren Namen im Artikel (damit klar ist, dass er reserviert ist). Danach haben Sie bis zur nächsten Sitzung Zeit, den Begriff zu definieren und ggf. Querverbindungen aufzuzeigen. Markieren Sie Querverweise in fett. Sollten im Laufe der Vorlesung neue Aspekte zum Begriff auftauchen, pflegen Sie sie ein.
Ab dem 5. Mai gilt das folgende Prozedere: Sie schreiben den Glossareintrag und reichen ihn als Übungseinheit in Ilias ein. Ich übertrage ihn dann -- ggf. nach gewissen Änderungsaufforderungen -- ins Glossar.
Ablauf
Im Anschluss an jede Vorlesungssitzung werden eine Audio-Aufzeichnung sowie die Folien hier bereitgestellt.
-
-
Einführung, Überblick, Vorstellung
-
Corpus terminology, Zipf distribution, type/token ratio, most frequent words
-
-
28.04.: Sprachmodelle (Folien, Video)
-
Beispiel für Output von einem "large language model": https://openai.com/blog/better-language-models/
-
-
26.05.: Christi Himmelfahrt (Feiertag)
-
02.06.: Classification 3: Random forest, Implementations, Randomness (Folien, Video)
-
09.06.: Pfingstferien (vorlesungsfrei)
-
16.06.: Fronleichnam (Feiertag)
-
23.06.: entfällt
-
30.06.: Classification 4: Neuronale Netze, Gradient Descent (Folien, Video, simple-nn.py [requires tensorflow to be installed])
-
14.07.: Klausur