Computerlinguistik am IDH
Seit dem Wintersemester 2022/2023 haben wir ein neues Konzept für die computerlinguistische Ausbildung im Studiengang BA Informationsverarbeitung ausgearbeitet.
- Modul Grundlagen der Computerlinguistik (alte Studienordnung "Computerlinguistische Grundlagen")
- Seminar Computerlinguistische Grundlagen (immer im WiSe, Dozent Hermes, Inhalt: Linguistische Grundlagen, Annotation)
- Vorlesung Sprachverarbeitung (immer im SoSe, Dozent Reiter, Quantitative Eigenschaften von Sprache, Machine Learning)
- Übung Sprachverarbeitung (immer im SoSe, Dozent Reiter, begleitend zur Vorlesung, früher Seminar II)
- Modulprüfung Klausur (immer im SoSe, 90 Minuten, Teilleistung im WiSe möglich, 30 Minuten)
- Modul Anwendungen der Computerlinguistik (alte Studienordnung "Angewandte Linguistische Datenverarbeitung")
- Übung Deep Learning (immer im WiSe, Dozentin Nester, Inhalt: Deep Learning Methoden)
- Hauptseminar Experimentelles Arbeiten in der Sprachverarbeitung (immer im WiSe, Dozent Reiter, Inhalt: Experimente in der CL, wo kommen Fortschritt und Erkenntnis her?)
- Modulprüfung Hausarbeit mit computerlinguistischem Experiment
Inhalt
Im Kurs sollen grundlegende Kenntnisse vermittelt werden, die benötigt werden, um mit Deep Learning Textdaten auswerten und verarbeiten zu können.
Hierzu werden, je nach Wissensstand der Veranstaltungsbesucher:innen, zuerst Einführungen in Python und Git gegeben. Anschließend werden Grundlagen des Natural Language Processing besprochen und angewendet. Hierzu zählen verschiedene Formen künstlicher neuronaler Netze, deren Konfiguration, Data Preprocessing, Trouble Shooting im Training künstlicher neuronaler Netze sowie die Evaluation der Ergebnisse.
Anforderungen
Die praktische Umsetzung wird mittels Python stattfinden. Daher sind grundlegende Programmierkenntnisse notwendig.
Studienleistung
Es wird Aufgaben geben, die über Github in einem eigenen branch einzureichen sind.
Links
Literatur
Jurafski, D. & J. Martin (2020): Speech and Language Processing. New Jersey: Prentice Hall.
- Einführendes Werk mit Augenmerk auf aktuelle statistische Verfahren der Sprachverarbeitung, 75 €, Zum überwiegenden Teil sind die neu aktualisierten Kapitel online zugänglich.
- Für uns sind besonders die Kapitel 5-9 interessant.
Chacon, Scott & Straub, Ben (2014): Pro Git. 2nd edition. Apress.
-
online zugänglich.
Termine
13.10.2022
Organisatorisches
Deep Learning
Git
20.10.2022
Git Recap
Python - Syntax, Dynamic Typing, Data Types
Exercise 2
27.10.2022
Python - List Comprehension, Functions, I/O
Exercise 3
03.11.2022
Python - Exception Handling, Python Packages
Types of Deep Learning Tasks
Exercise 4
17.11.2022
Linear and Logistic Regression
Loss Function
Gradient Descent
Scikit-Learn
Exercise 5
Literaturempfehlung! Jurafski-Martin-Buch Kapitel 5 (Logistic Regression) --> Hier online
24.11.2022
Neural Networks
Keras
Exercise 6
01.12.2022
Bag of Words
Overfitting
Regularization
Drop Out
Exercise 7
08.12.2022
Input Representation
Word Embeddings
Embeddings with Keras
Exercise 8
15.12.2022
What we have learned so far...
Q&A
Exercise 8 continued
22.12.2022
Arbeitsprozess Deep Learning Experimente
12.01.2023
Sequential Data
Recurrent Neural Networks
Exercise 9
19.01.2023
Long Short-Term Memory
Exercise 10
02.02.2023
Transformer (Encoder-Decoder, Attention, Transfer Learning, BERT)
Praxisbeispiele (ChatGPT, Dall.E, DeepL)