Anwendungen der Computerlinguistik

Inhalt

Methodischer und inhaltlicher Fortschritt in der Computerlinguistik wird ganz wesentlich von Experimenten geliefert. In diesem Hauptseminar nehmen wir computerlinguistische Experimente in den Blick, und Besprechen ihren gesamten Lebenszyklus: Vom Planen und Formulieren einer Hypothese über die Umsetzung anhand geeigneter Datensätze bis hin zur Auswertung und Interpretation und dem Berichten darüber. Das Seminar führt Kenntnisse zusammen, die die Studierenden im Modul Computerlinguistik gewonnen haben.

Die Modulprüfung besteht in der selbständigen Durchführung eines solchen computerlinguistischen Experimentes und dem Schreiben eines Papiers dazu.

Computerlinguistik am IDH

Seit dem Wintersemester 2022/2023 haben wir ein neues Konzept für die computerlinguistische Ausbildung im Studiengang BA Informationsverarbeitung ausgearbeitet.

Modul Grundlagen der Computerlinguistik (alte Studienordnung "Computerlinguistische Grundlagen")
- Seminar Computerlinguistische Grundlagen (immer im WiSe, Dozent Hermes, Inhalt: Linguistische Grundlagen, Annotation)
- Vorlesung und Übung Sprachverarbeitung (immer im SoSe, Dozent Reiter, Quantitative Eigenschaften von Sprache, Machine Learning; Übung war früher Seminar II)
- Modulprüfung Klausur (immer im SoSe, 90 Minuten, Teilleistung im WiSe möglich, 30 Minuten)
Modul Anwendungen der Computerlinguistik (alte Studienordnung "Angewandte Linguistische Datenverarbeitung")
- Übung Deep Learning (immer im WiSe, Dozentin Nester, Inhalt: Deep Learning Methoden)
- Hauptseminar Anwendungen der Computerlinguistik (immer im WiSe, Dozent Reiter, Inhalt: Experimente in der CL, wo kommen Fortschritt und Erkenntnis her?)
- Modulprüfung Hausarbeit zu einem computerlinguistischen Experiment

Studienleistung

Im Laufe des Semester werden als Studienleistung insgesamt fünf Hausaufgaben gegeben, die zu verschiedenen Aspekte der Modulprüfung üben. Die Studierenden werden außerdem in Zweiergruppen ein eigenes Experiment zu einem der vorgegebenen Themen durchführen:

Extraktion von Paaren aus Begriffen mit zugehörigen Definitionen aus (englischsprachigen) Fließtexten (Link, Paper, Daten).
Identifikation von Propaganda-Techniken in Überschriften von Nachrichtentexten (Link, Paper, Daten).
Erkennung von Humor und Offensivität in Tweets und Witzen (Link, Paper, Daten).

Termine

12.10.2023: Einleitung, Organisatorisches und Kennenlernen (Slides)
- Hausaufgabe 1 (bis 18.10.): Krippendorff (2019, 2.4) lesen. Drei Fragen in Ilias einreichen.
19.10.2023: Content Analysis Framework (Eingereichte Fragen, Slides)
- Literatur: Krippendorff (2019, 2).
26.10.2023: Content Analysis Workflow (Slides)
- Literatur: Krippendorff (2019, 4).
02.11.2023: Operationalisierung (Slides)
- Literatur: Krautter el al. (2023).
09.11.2023: Computerlinguistische Literatur lesen und verstehen (Slides)
- Hausaufgabe 2 (bis 15.11.): Panchendrarajan et al. (2016) und Preoţiuc-Pietro et al. (2019) durcharbeiten. Drei Fragen in Ilias einreichen.
16.11.2023: Computerlinguistische Experimente und Ziele (Eingereichte Fragen, Slides)
- Literatur: Reiter (2023).
23.11.2023: Arbeit in Kleingruppen (Slides)
- Je eine Kleingruppe befasst sich (in den nächsten Wochen) mit einem Task. Ziel: Vertraut werden mit den Daten und Annotationskategorien. Selbst ausprobieren auf eigenen Daten!
30.11.2023: Keine Seminarsitzung
- Aufgabe Selbststudium: Quantitativen Überblick über die Daten gewinnen
  - Wie viele annotierte Beispiele gibt es?
  - Wie viele annotierte Beispiele der verschiedenen Kategorien gibt es?
  - Wie lang sind die gegebenen Texte? Minimum, Maximum, Durchschnitt?
07.12.2023: Arbeit in Kleingruppen
- Ziel: Ausarbeitung eines Plans, wie eine automatische Erkennung funktionieren könnte. Identifizieren Sie Stellen/Arbeitsschritte, die Ihnen unklar sind (damit wir nochmal darüber sprechen können).
- Hausaufgabe 3 (bis 12.12.): Vervollständigen Sie den Plan.
14.12.2023: Arbeit in Kleingruppen
- Jede Kleingruppe stellt ihren in der letzten Woche ausgearbeiteten Plan den anderen vor.
21.12.2023: Wissenschaftliches Schreiben (1/2) (Slides)
- Hausaufgabe 4 (bis Montag, 09.01.): Schreiben Sie einen wissenschaftlchen Text. Richten Sie den Text an jemanden, der allgemein mit CL-Verfahren vertraut ist, aber nicht mit ihrem konkreten Task. Es gibt zwei Varianten für den Text, für beide Varianten gelten aber die folgenden Vorgaben:
  - Der Text sollte auch motivieren, warum man sich mit dem Thema beschäftigt.
  - Der Text sollte auf andere (vorherige) Arbeiten verweisen, z.B. solche die ein ähnliches Problem bearbeitet haben.
    - Dabei kommen nur Arbeiten in Frage, die erschienen sind, bevor der Task angekündigt wurde. Propaganda: 2019, Definitionen: 2020, Humor: 2021. Stellen Sie sich also vor, dass Sie im jeweiligen Jahr sind.
  - Der reine Text sollte etwa eine A4-Seite lang sein (Schriftgröße 11, Times). Literaturverzeichnis etc. kann dann länger sein.
- Varianten:
  - Variante 1: Schreiben Sie einen Mini-Antrag, also für eine Arbeit die Sie noch ausführen wollen.
  - Variante 2: Stellen Sie sich vor, dass Sie die Arbeit ausgeführt hätten, und erfinden Sie Ergebnisse. Schreiben Sie dann einen Bericht über das Experiment, wie es hätte stattfinden können. Ja, in dieser Variante ist es erlaubt Dinge zu erfinden, sie müssen aber realistisch sein.
11.01.2024: Wissenschaftliches Schreiben (2/2) (Slides)
- Allgemeines Feedback zu den Texten, Reflexion zum Schreibprozess
- Hausaufgabe 5 (bis 24.01.): Geben Sie Peer-Feedback!
18.01.2024: Echte Beispiele aus der Praxis, Modulprüfungen (Slides)
25.01.2024: LLMs, Poster (Slides, Code-Beispiele)
- In noch zu definierenden Gruppen werden ein oder mehrere Poster für die DHCon 2024 erstellt, die den Kursinhalt zusammenfassen und für andere aufbereiten.
01.02.2024: Gespräch zum Peer-Review, Poster, Abschlussdiskussion

Veranstaltungsmaterialien

Literaturliste | Ilias (für nicht-freies Material und Abgabe der Hausaufgaben)