Computerlinguistik am IDH

Seit dem Wintersemester 2022/2023 haben wir ein neues Konzept für die computerlinguistische Ausbildung im Studiengang BA Informationsverarbeitung ausgearbeitet.

  • Modul Grundlagen der Computerlinguistik (alte Studienordnung "Computerlinguistische Grundlagen")
    • Seminar Computerlinguistische Grundlagen (immer im WiSe, Dozent Hermes, Inhalt: Linguistische Grundlagen, Annotation)
    • Vorlesung Sprachverarbeitung (immer im SoSe, Dozent Reiter, Quantitative Eigenschaften von Sprache, Machine Learning)
    • Übung Sprachverarbeitung (immer im SoSe, Dozent Reiter, begleitend zur Vorlesung, früher Seminar II)
    • Modulprüfung Klausur (immer im SoSe, 90 Minuten, Teilleistung im WiSe möglich, 30 Minuten)
  • Modul Anwendungen der Computerlinguistik (alte Studienordnung "Angewandte Linguistische Datenverarbeitung")
    • Übung Deep Learning (immer im WiSe, Dozentin Nester, Inhalt: Deep Learning Methoden)
    • Hauptseminar Experimentelles Arbeiten in der Sprachverarbeitung (immer im WiSe, Dozent Reiter, Inhalt: Experimente in der CL, wo kommen Fortschritt und Erkenntnis her?)
    • Modulprüfung Hausarbeit mit computerlinguistischem Experiment

Inhalt

Im Kurs sollen grundlegende Kenntnisse vermittelt werden, die benötigt werden, um mit Deep Learning Textdaten auswerten und verarbeiten zu können.
Hierzu werden, je nach Wissensstand der Veranstaltungsbesucher:innen, zuerst Einführungen in Python und Git gegeben. Anschließend werden Grundlagen des Natural Language Processing besprochen und angewendet. Hierzu zählen verschiedene Formen künstlicher neuronaler Netze, deren Konfiguration, Data Preprocessing, Trouble Shooting im Training künstlicher neuronaler Netze sowie die Evaluation der Ergebnisse.

Anforderungen

Die praktische Umsetzung wird mittels Python stattfinden. Daher sind grundlegende Programmierkenntnisse notwendig.

Studienleistung

Es wird Aufgaben geben, die über Github in einem eigenen branch einzureichen sind.

Links

Ilias

GitHub-Repo

Literatur

Jurafski, D. & J. Martin (2020): Speech and Language Processing. New Jersey: Prentice Hall.

  • Einführendes Werk mit Augenmerk auf aktuelle statistische Verfahren der Sprachverarbeitung, 75 €, Zum überwiegenden Teil sind die neu aktualisierten Kapitel online zugänglich.
  • Für uns sind besonders die Kapitel 5-9 interessant.

Chacon, Scott & Straub, Ben (2014): Pro Git. 2nd edition. Apress.

Termine

13.10.2022

Organisatorisches
Deep Learning
Git

20.10.2022

Git Recap
Python - Syntax, Dynamic Typing, Data Types
Exercise 2

27.10.2022

Python - List Comprehension, Functions, I/O
Exercise 3

03.11.2022

Python - Exception Handling, Python Packages
Types of Deep Learning Tasks

Exercise 4

17.11.2022

Linear and Logistic Regression
Loss Function
Gradient Descent
Scikit-Learn

Exercise 5

Literaturempfehlung! Jurafski-Martin-Buch Kapitel 5 (Logistic Regression) --> Hier online

24.11.2022

Neural Networks
Keras

Exercise 6

01.12.2022

Bag of Words
Overfitting
Regularization
Drop Out

Exercise 7

08.12.2022

Input Representation
Word Embeddings
Embeddings with Keras

Exercise 8

15.12.2022

What we have learned so far...
Q&A

Exercise 8 continued

22.12.2022

Arbeitsprozess Deep Learning Experimente

12.01.2023

Sequential Data
Recurrent Neural Networks

Exercise 9

19.01.2023

Long Short-Term Memory

Exercise 10

02.02.2023

Transformer (Encoder-Decoder, Attention, Transfer Learning, BERT)
Praxisbeispiele (ChatGPT, Dall.E, DeepL)