Inhalt

Methodischer und inhaltlicher Fortschritt in der Computerlinguistik wird ganz wesentlich von Experimenten geliefert. In diesem Hauptseminar nehmen wir computerlinguistische Experimente in den Blick, und Besprechen ihren gesamten Lebenszyklus: Vom Planen und Formulieren einer Hypothese über die Umsetzung anhand geeigneter Datensätze bis hin zur Auswertung und Interpretation und dem Berichten darüber. Das Seminar führt Kenntnisse zusammen, die die Studierenden im Modul Computerlinguistik gewonnen haben.

Computerlinguistik am IDH

Seit dem Wintersemester 2022/2023 haben wir ein neues Konzept für die computerlinguistische Ausbildung im Studiengang BA Informationsverarbeitung ausgearbeitet.

  • Modul Grundlagen der Computerlinguistik (alte Studienordnung "Computerlinguistische Grundlagen")
    • Seminar Computerlinguistische Grundlagen (immer im WiSe, Dozent Hermes, Inhalt: Linguistische Grundlagen, Annotation)
    • Vorlesung und Übung Sprachverarbeitung (immer im SoSe, Dozent Reiter/Pagel, Inhalt: Quantitative Eigenschaften von Sprache, Machine Learning)
    • Modulprüfung Klausur (immer im SoSe, 90 Minuten, 30 Minuten)
  • Modul Anwendungen der Computerlinguistik (alte Studienordnung "Angewandte Linguistische Datenverarbeitung")
    • Übung Deep Learning (immer im WiSe, Dozent:in Nester oder Pagel, Inhalt: Deep Learning Methoden)
    • Hauptseminar Anwendungen der Computerlinguistik (immer im WiSe, Dozent Reiter, Inhalt: Experimente in der CL, wo kommen Fortschritt und Erkenntnis her?)
    • Modulprüfung Hausarbeit zu einem computerlinguistischen Experiment

Es werden in diesem Seminar die Kenntnisse aus dem Modul "Grundlagen der Computerlinguistik" vorausgesetzt.

Studienleistung

Im Laufe des Semester werden als Studienleistung insgesamt fünf Hausaufgaben gegeben, die zu verschiedenen Aspekte der Modulprüfung üben. Die Studierenden werden außerdem in Zweiergruppen ein eigenes Experiment zu einem der vorgegebenen Themen durchführen:

  • Extraktion von Paaren aus Begriffen mit zugehörigen Definitionen aus (englischsprachigen) Fließtexten (Link, Paper, Daten).
  • Identifikation von Propaganda-Techniken in Überschriften von Nachrichtentexten (Link, Paper, Daten).
  • Erkennung von Humor und Offensivität in Tweets und Witzen (Link, Paper, Daten).

Die Modulprüfung besteht in der selbständigen Durchführung eines solchen computerlinguistischen Experimentes und dem Schreiben eines Papiers dazu.

Termine

  • 17.10.2024: Einleitung, Organisatorisches und Kennenlernen
    • Hausaufgabe 1 (bis 30.10.): Nguyen et al. (2020) lesen. Drei Fragen zum Text in Ilias einreichen.
  • 24.10.2024: Wissenschaftliche/computerlinguistische Literatur lesen und verstehen
  • 31.10.2024: Besprechung Nguyen et al. (2020)
    • Hausaufgabe 2 (bis 20.11.): Panchendrarajan et al. (2016) und Preoţiuc-Pietro et al. (2019) durcharbeiten. Drei Fragen in Ilias einreichen.
  • 07.11.2024: Operationalisierung
  • 14.11.2024: Computerlinguistische Experimente und Ziele
  • 21.11.2024: Besprechung Panchendrarajan et al. (2016) und Preoţiuc-Pietro et al. (2019)

Ab jetzt: Arbeit in Kleingruppen, die wir in der Sitzung vom 28.11. bilden. Jede Kleingruppe befasst sich mit einer Analyseaufgabe.

  • 28.11.2024: Arbeit in Kleingruppen
    • Vertraut werden mit den Daten und Annotationskategorien. Selbst ausprobieren auf eigenen Daten!
  • 05.12.2024: Arbeit in Kleingruppen
    • Ausarbeitung eines Plans, wie eine automatische Erkennung funktionieren könnte. Identifizieren Sie Stellen/Arbeitsschritte, die Ihnen unklar sind (damit wir nochmal darüber sprechen können).
    • Hausaufgabe 3 (bis 12.12.): Vervollständigen Sie den Plan.
  • 12.12.2024: Arbeit in Kleingruppen
    • Jede Kleingruppe stellt ihren in der letzten Woche ausgearbeiteten Plan den anderen vor .
  • 19.12.2024: Wissenschaftliches Schreiben (1/2)
    • Hausaufgabe 4 (bis Montag, 09.01.): Schreiben Sie einen wissenschaftlchen Text. Richten Sie den Text an jemanden, der allgemein mit CL-Verfahren vertraut ist, aber nicht mit ihrem konkreten Task.
      • Der Text sollte motivieren, warum man sich mit dem Thema beschäftigt.
      • Der Text sollte auf andere (vorherige) Arbeiten verweisen, z.B. solche die ein ähnliches Problem bearbeitet haben.
        • Dabei kommen nur Arbeiten in Frage, die erschienen sind, bevor der Task angekündigt wurde. Propaganda: 2019, Definitionen: 2020, Humor: 2021. Stellen Sie sich also vor, dass Sie im jeweiligen Jahr sind.
      • Der reine Text sollte etwa eine A4-Seite lang sein (Schriftgröße 11, Times). Literaturverzeichnis etc. kann dann länger sein.
      • Stellen Sie sich vor, dass Sie die Arbeit ausgeführt hätten, und erfinden Sie Ergebnisse. Schreiben Sie dann einen Bericht über das Experiment, wie es hätte stattfinden können. Ja, in dieser Variante ist es erlaubt Dinge zu erfinden, sie müssen aber realistisch sein.
  • 09.01.2025: Wissenschaftliches Schreiben (2/2)
    • Allgemeines Feedback zu den Texten, Reflexion zum Schreibprozess
    • Hausaufgabe 5 (bis 24.01.): Geben Sie Peer-Feedback!
  • 16.01.2025: Echte Beispiele aus der Praxis, Modulprüfungen
  • 23.01.2025: LLMs, Poster (Slides, Code-Beispiele)
    • In noch zu definierenden Gruppen werden ein oder mehrere Poster für die DHCon 2024 erstellt, die den Kursinhalt zusammenfassen und für andere aufbereiten.
  • 30.01.2025: Gespräch zum Peer-Review, Poster, Abschlussdiskussion

Veranstaltungsmaterialien

Literaturliste | Ilias (für nicht-freies Material und Abgabe der Hausaufgaben)