The lecture covers topics in the area of data-driven text analysis. Supervised and unsupervised machine learning methods, as well as issues of evaluation and assessment of quantitative results are discussed. The lecture takes a methodological look at various problems in language processing and discusses how they can be and are addressed. In most approaches, there are several levels of understanding, all of which will be addressed: What is the idea/intuition? How can it be formalized, something with the help of mathematical models? How can the formal model finally be implemented (efficiently)? Partly, the basics of formal models or programming concepts have to be discussed, which is also part of the lecture.

Please note that the class language is German, while material will (mostly) be in English. English questions during class are of course also okay.

Lecture and Exercise

Lecture (Thursdays) and tutorial (Tuesdays) are closely related in terms of content. Formally, they are two separate courses, namely "Computerlinguistik Übung" and "Sprachverarbeitung". If you do not want to/can not attend both courses, you are strongly advised to consult with the instructors.

Vorlesung (Donnerstags) und Übung (Dienstags) sind inhaltlich eng aufeinander bezogen. Formal handelt es sich um zwei getrennte Veranstaltungen, nämlich "Computerlinguistik Übung" und "Sprachverarbeitung". Wenn Sie nicht beide Veranstaltungen besuchen möchten/können, sollten Sie dringend mit den Dozenten Rücksprache halten. Bitte bringen Sie zur Übung einen Computer mit.

Module zur Computerlinguistik

Seit dem Wintersemester 2022/2023 haben wir ein neues Konzept für die computerlinguistische Ausbildung im Studiengang BA Informationsverarbeitung ausgearbeitet.

  • Modul Grundlagen der Computerlinguistik (alte Studienordnung "Computerlinguistische Grundlagen")
    • Seminar Computerlinguistische Grundlagen (immer im WiSe, Dozent Hermes, Inhalt: Linguistische Grundlagen, Annotation)
    • Vorlesung Sprachverarbeitung (immer im SoSe, Dozent Reiter, Quantitative Eigenschaften von Sprache, Machine Learning)
    • Übung Sprachverarbeitung (immer im SoSe, Dozent Pagel, begleitend zur Vorlesung, früher Seminar II)
    • Modulprüfung Klausur (immer im SoSe, 90 Minuten, Teilleistung im WiSe möglich, 30 Minuten)
  • Modul Anwendungen der Computerlinguistik (alte Studienordnung "Angewandte Linguistische Datenverarbeitung")
    • Übung Deep Learning (immer im WiSe, Dozentin Nester, Inhalt: Deep Learning Methoden)
    • Hauptseminar Experimentelles Arbeiten in der Sprachverarbeitung (immer im WiSe, Dozent Reiter, Inhalt: Experimente in der CL, wo kommen Fortschritt und Erkenntnis her?)
    • Modulprüfung Hausarbeit mit computerlinguistischem Experiment

Studienleistung und Modulprüfung / Study Achievements and Examination

We will start with the exercise together in the tuesday session. All exercises should be finished at home. Four times in the semester, you need to upload your results via Ilias (as a zip file). There will be a written exam in the final week of the course.

Material und Ressourcen / Material and Resources

The following literature is recommended background reading:

  • Dan Jurafsky/James H. Martin (2023). Speech and Language Processing. 3rd ed. Draft of Janaury 7, 2023. Prentice Hall. Available online here: https://web.stanford.edu/~jurafsky/slp3/

  • Christopher D. Manning/Hinrich Schütze (1999). Foundations of Statistical Natural Language Processing. Cambridge, Massachusetts and London, England: MIT Press. Selected chapters will be uploaded to Ilias.

  • Ian H. Witten/Eibe Frank (2005). Data Mining. 2nd ed. Practical Machine Learning Tools and Techniques. Elsevier. Selected chapters will be uploaded to Ilias.

  • Melanie Andresen (2024). Computerlinguistische Methoden für die Digital Humanities. Narr Studienbücher. Verlagswebseite.

In addition to this page (which is the central hub), we will make use of the following platforms:

  • Ilias, to provide you with non-public materials and to upload your solutions for the exercises
  • A Jupyter Server for running Python code on http://compute.spinfo.uni-koeln.de/
  • Klips, to register for the module exam

Themen- und Zeitplan

Woche 1

Woche 2

Woche 3

  • Dienstag, 23. April: Übungen zu Korpora
  • Donnerstag, 25. April: Ü: Reguläre Ausdrücke

Woche 4

  • Dienstag, 30. April: VL: Machine Learning Einführung
  • Donnerstag, 02. Mai: VL: Evaluation in Machine Learning

Woche 5

  • Dienstag, 07. Mai: Fällt aus (DHCon)
  • Donnerstag, 09. Mai: Feiertag

Woche 6

  • Dienstag, 14. Mai: Übungen zur Evaluation in Machine Learning
  • Donnerstag, 16. Mai: Decision Trees

Pfingstwoche (vorlesungsfrei)

Woche 7

  • Dienstag, 28. Mai: Übungen zu Decision Trees
  • Donnerstag, 30. Mai: Feiertag

Woche 8

  • Dienstag, 04. Juni: Gastvortrag, Online (t.b.d.)
  • Donnerstag, 06. Juni: Naive Bayes

Woche 9

  • Dienstag, 11. Juni: Übungen zu Naive Bayes
  • Donnerstag, 13. Juni: Logistic Regression

Woche 10

  • Dienstag, 18. Juni: Übungen zur Logistic Regression
  • Donnerstag, 20. Juni: Fällt aus

Woche 11

  • Dienstag, 25. Juni: VL: Neural Networks Teil 1
  • Donnerstag, 27. Juni: VL: Neural Networks Teil 2

Woche 12

  • Dienstag, 02. Juli: Übungen zu Neural Networks
  • Donnerstag, 04. Juli: offene Themen

Woche 13

  • Dienstag, 09. Juli: offene Themen
  • Donnerstag, 11. Juli: Fragerunde vor der Klausur

Woche 14

  • Dienstag, 16. Juli
  • Donnerstag, 18. Juli: Klausur