Inhalt

Methodischer und inhaltlicher Fortschritt in der Computerlinguistik wird ganz wesentlich von Experimenten geliefert. In diesem Hauptseminar nehmen wir computerlinguistische Experimente in den Blick, und Besprechen ihren gesamten Lebenszyklus: Vom Planen und Formulieren einer Hypothese über die Umsetzung anhand geeigneter Datensätze bis hin zur Auswertung und Interpretation und dem Berichten darüber. Das Seminar führt Kenntnisse zusammen, die die Studierenden im Modul Computerlinguistik gewonnen haben.

Computerlinguistik am IDH

Seit dem Wintersemester 2022/2023 haben wir ein neues Konzept für die computerlinguistische Ausbildung im Studiengang BA Informationsverarbeitung ausgearbeitet.

  • Modul Grundlagen der Computerlinguistik (alte Studienordnung "Computerlinguistische Grundlagen")
    • Seminar Computerlinguistische Grundlagen (immer im WiSe, Dozent Hermes, Inhalt: Linguistische Grundlagen, Annotation)
    • Vorlesung und Übung Sprachverarbeitung (immer im SoSe, Dozent Reiter/Pagel, Inhalt: Quantitative Eigenschaften von Sprache, Machine Learning)
    • Modulprüfung Klausur (immer im SoSe, 90 Minuten)
  • Modul Anwendungen der Computerlinguistik (alte Studienordnung "Angewandte Linguistische Datenverarbeitung")
    • Übung Deep Learning (immer im WiSe, Dozent:in Nester oder Pagel, Inhalt: Deep Learning Methoden)
    • Hauptseminar Anwendungen der Computerlinguistik (immer im WiSe, Dozent Reiter, Inhalt: Experimente in der CL, wo kommen Fortschritt und Erkenntnis her?)
    • Modulprüfung Hausarbeit zu einem computerlinguistischen Experiment

Es werden in diesem Seminar die Kenntnisse aus dem Modul "Grundlagen der Computerlinguistik" vorausgesetzt.

Studienleistung

Im Laufe des Semester werden als Studienleistung insgesamt fünf Hausaufgaben gegeben, die zu verschiedenen Aspekte der Modulprüfung üben. Die Studierenden werden außerdem in Zweiergruppen ein eigenes Experiment zu einem der vorgegebenen Themen durchführen:

TBA

Modulprüfung

Siehe hier.

Termine (Termine sind, Themen aber noch nicht final)

  • 16.10.2025: Einleitung, Organisatorisches und Kennenlernen (Folien)
    • Hausaufgabe 1 (bis 30.10.): Lektüre von Nguyen et al. (2020). Drei Fragen in Ilias eintragen.
  • 23.10.2025: Wissenschaftliche/computerlinguistische Literatur lesen und verstehen (Folien)
  • 30.10.2025: Besprechung Nguyen et al. (2020)
    • Hausaufgabe 2 (bis 20.11.): Lektüre von Panchendrarajan et al. (2016) und Preoţiuc-Pietro et al. (2019). Je Drei Fragen in Ilias eintragen.
  • 06.11.2025: Operationalisierung (Folien)
  • 13.11.2025: Computerlinguistische Experimente und Ziele (Folien, Handout)
  • 20.11.2025: Besprechung Panchendrarajan et al. (2016), Preoţiuc-Pietro et al. (2019) und Wang et al. (2025) (Folien)

Ab jetzt: Arbeit in Kleingruppen, die wir in der ersten Sitzung bilden. Jede Kleingruppe befasst sich mit einer Analyseaufgabe.

  • 27.11.2025: Arbeit in Kleingruppen (Folien)
    • Vertraut werden mit den Daten und Annotationskategorien. Selbst ausprobieren auf eigenen Daten!
  • 04.12.2025: Selbständige Arbeit in Kleingruppen (ohne Dozent)
    • Quantitativen Überblick über die verfügbaren Daten gewinnen (wie viele Instanzen gibt es? Wie viele Annotation von jeder Kategorie? Wie lange sind die Instanzen? ...)
    • Ausarbeitung eines Plans, wie eine automatische Erkennung funktionieren könnte. Identifizieren Sie Stellen/Arbeitsschritte, die Ihnen unklar sind (damit wir nochmal darüber sprechen können).
  • 11.12.2025: Selbständige Arbeit in Kleingruppen
    • Vervollständigung des Plans (bis 18.12. = Hausaufgabe 3).
  • 18.12.2025: Wissenschaftliches Schreiben (1/2) (Folien)
    • Jede Kleingruppe stellt ihren in der letzten Woche ausgearbeiteten Plan den anderen vor.
    • Hausaufgabe (bis 8.1.): Schreiben Sie einen wissenschaftlichen Text. Richten Sie den Text an jemanden, der allgemein mit CL-Verfahren vertraut ist, aber nicht mit ihrem konkreten Task.
      • Inhalt
        • Warum ist die zu lösende Aufgabe es Wert gelöst werden?
        • Was ist die vorgeschlagene Lösung und warum ist sie 'gut'?
      • Form
        • Der reine Text sollte etwa zwei A4-Seite lang sein (Schriftgröße 11, Times). Literaturverzeichnis etc. kann dann länger sein.
        • Stellen Sie sich vor, dass Sie die Arbeit ausgeführt hätten, und erfinden Sie Ergebnisse. Schreiben Sie dann einen Bericht über das Experiment, wie es hätte stattfinden können. Ja, dabei ist es erlaubt Dinge zu erfinden, sie müssen aber realistisch sein.
  • 08.01.2026: Entfällt
  • 15.01.2026: Wissenschaftliches Schreiben (2/2), LaTeX (Folien)
    • Allgemeines Feedback zu den Texten, Reflexion zum Schreibprozess
    • Hausaufgabe 5 (bis 29.01.): Geben Sie Peer-Feedback!
  • 22.01.2026: Modulprüfungen, Reprodubility
  • 29.01.2026: Peer-Review, Reproducibility (2) (Folien)
  • 05.02.2026: Poster, Abschlussdiskussion (Folien)

Veranstaltungsmaterialien

Literaturliste | Ilias (für nicht-freies Material und Abgabe der Hausaufgaben)