Inhalt

Die Sprachliche Informationsverarbeitung (natural language processing, Computerlinguistik) beschäftigt sich mit der Verarbeitung natürlicher Sprache mit Computern. Bekannte Anwendungen sind maschinelle Übersetzungssysteme oder die Extraktion von Informationen aus großen Textmengen. In der Vorlesung beschäftigen wir uns mit den theoretischen und praktischen Grundlagen der Sprachverarbeitung. Neben die Beschäftigung mit den Besonderheiten von Sprache und den linguistischen Beschreibungskategorien tritt dabei der quantitative Blick auf Sprache, und die verschiedenen Möglichkeiten, sprachliche Phänomene automatisch zu erkennen und zu verarbeiten. Hier befassen wir uns insbesondere mit maschinellen Lernverfahren.

Agenda

  • 13.10. Introduction, overview, ambiguity, linguistic levels (Slides)
  • 20.10. Linguistic levels (Slides)
  • 27.10. Text corpora, quantitatively looking at words, Zipf, type-token-ratio (Slides)
    • Übung: Besorgen Sie sich auf https://opendiscourse.de/ Reden von zwei verschiedenen Politiker:innen aus unterschiedlichen Parteien, so dass sie insgesamt pro Person mehr als 10000 Wörter haben. Schreiben Sie dann in einer Programmiersprache Ihrer Wahl ein Programm, das die type-token-ratio für beide berechnet. Abgabe in Ilias bis zum 09.11.
  • 03.11. Language Modeling (Slides, R-Code zur Tokenisierung und n-gram-Extraktion)
    • Achtung, Raum: BIII
  • 10.11. Automatic prediction of linguistic properties, evaluation, task types (Slides)
  • 17.11. Annotation (Slides)
    • Achtung, bitte Laptop/Tablet mitbringen
    • Übung
  • 24.11. Machine learning 1: Naive Bayes (Slides)
  • 01.12. Machine learning 2: Logistic regression, gradient descent (Slides)
    • Achtung, Raum: BIII
    • Übung: Siehe Folien (und Ilias)
  • 08.12. Deep learning 1: Neural networks (Slides, Neuronales Netz zur Summe, Neuronales Netz zum Maximum)
  • 15.12. Deep learning 2: Word embeddings (Slides, Code-Beispiele 1, 2, 3)
    • Um das zweite Code-Beispiel laufen zu lassen, brauchen Sie vortrainierte Embeddings. Diese können Sie z.B. von fastText herunterladen. Achten Sie darauf, ein Textformat zu erwischen.
  • 22.12. Deep learning 3: overfitting, sequence labeling (Slides, Code-Beispiele 1, 2)
  • 12.01. Deep learning 4: attention, transformers, BERT (Slides)
  • 19.01. BERT-Praxis (Slides, unmasker, bert-embeddings, bert-finetuning)
  • 26.01. General exam questions
  • 02.02. Exam