Inhalt

Methodischer und inhaltlicher Fortschritt in der Computerlinguistik wird ganz wesentlich von Experimenten geliefert. In diesem Hauptseminar nehmen wir computerlinguistische Experimente in den Blick, und Besprechen ihren gesamten Lebenszyklus: Vom Planen und Formulieren einer Hypothese über die Umsetzung anhand geeigneter Datensätze bis hin zur Auswertung und Interpretation und dem Berichten darüber. Das Seminar führt Kenntnisse zusammen, die die Studierenden im Modul Computerlinguistik gewonnen haben.

Die Modulprüfung besteht in der selbständigen Durchführung eines solchen computerlinguistischen Experimentes und dem Schreiben eines Papiers dazu.

Computerlinguistik am IDH

Seit dem Wintersemester 2022/2023 haben wir ein neues Konzept für die computerlinguistische Ausbildung im Studiengang BA Informationsverarbeitung ausgearbeitet.

  • Modul Grundlagen der Computerlinguistik (alte Studienordnung "Computerlinguistische Grundlagen")
    • Seminar Computerlinguistische Grundlagen (immer im WiSe, Dozent Hermes, Inhalt: Linguistische Grundlagen, Annotation)
    • Vorlesung Sprachverarbeitung (immer im SoSe, Dozent Reiter, Quantitative Eigenschaften von Sprache, Machine Learning)
    • Übung Sprachverarbeitung (immer im SoSe, Dozent Reiter, begleitend zur Vorlesung, früher Seminar II)
    • Modulprüfung Klausur (immer im SoSe, 90 Minuten, Teilleistung im WiSe möglich, 30 Minuten)
  • Modul Anwendungen der Computerlinguistik (alte Studienordnung "Angewandte Linguistische Datenverarbeitung")
    • Übung Deep Learning (immer im WiSe, Dozentin Nester, Inhalt: Deep Learning Methoden)
    • Hauptseminar Experimentelles Arbeiten in der Sprachverarbeitung (immer im WiSe, Dozent Reiter, Inhalt: Experimente in der CL, wo kommen Fortschritt und Erkenntnis her?)
    • Modulprüfung Hausarbeit zu einem computerlinguistischen Experiment

Studienleistung

Im Laufe des Semester werden als Studienleistung insgesamt vier Hausaufgaben gegeben, die zu verschiedenen Aspekte der Modulprüfung üben. Die Studierenden werden außerdem in Dreiergruppen ein eigenes Experiment durchführen zu einem der u.g. Themen durchführen. Die Gruppen folgen dabei einem gemeinsamen Schema, bei dem am Anfang eine genauere Beschäftigung mit den Zielkategorien steht, indem diese auf deutschsprachigen Daten annotiert werden. Nach einer Aufbereitung der Daten erfolgt eine Baseline-Implementierung und anschließend die Anwendung eines maschinellen Lernverfahrens. In jedem Fall wird am Schluss gemeinsam evaluiert.

Detecting and Rating Humor and Offense

Die Aufgabe besteht darin, für kurze (Englischsprachige) Texte (ca. 1-3 Sätze) vorherzusagen, wie witzig sie sind. Die Referenzdaten dazu wurden im Rahmen des HaHackathon-Shared-Tasks gesammelt, und bestehen aus Antworten auf die Fragen "Is the intention of this text to be humorous?" und [If it is intended to be humorous] How humorous do you find it?". Ziel ist also, ein Verfahren zu entwickeln, das diese menschlichen Annotationen reproduzieren kann.

Optional: In einem weiteren Schritt wurden die Annotator:innen gebeten zu markieren, wie beleidigend/diskriminierend ("offensive") sie den Text fanden. Dies kann ebenfalls als Ziel eines Lernverfahrens verwendet werden.

Patronizing and Condescending Language (PCL) Detection

Bevormundende und herablassende Sprache gegenüber gesellschaftlichen Gruppen wurde hier in Nachrichtentexten annotiert. Das Ziel ist, auf Absatzebene zu erkennen, ob hier PCL vorliegt. Herausfordernd -- und klarer Unterschied zu sog. hate speech -- ist u.a., dass es im Regelfall wohlmeinende Äußerungen sind.

Named Entity Recognition and Classification (on Historical Newspapers)

Die Erkennung von Eigennamen (named entities) ist ein klassischer computerlinguistischer Task. Durch die Anwendung auf historische Zeitungstexte stellen sich neue Herausforderungen, etwa weil die Texte OCR-Fehler enthalten oder seltene/historische Namen, aber auch weil sich Sprache verändert hat. Die Daten für dieses Projekt kommen aus der HIPE Challenge und liegen mehrsprachig vor.

Termine

13.10.

Einleitung, Organisatorisches und Kennenlernen (Slides)

20.10.

Computerlinguistische Fachliteratur finden, lesen und verstehen (Slides)

Hausaufgabe 1 (bis 26.10.)

Lektüre von Preoţiuc-Pietro et al. (2017) und Panchendrarajan et al. (2016). Drei Fragen zur Lektüre müssen bis Mittwochabend per Ilias abgegeben werden.

27.10.

Diskussion von zwei Beispielen für NLP-Experimente (Preoţiuc-Pietro et al., 2017 und Panchendrarajan et al., 2016, Slides).

Eingereichte Fragen

03.11.

NLP-Experimente: Überblick und Workflow (Slides)

Hausaufgabe 2 (bis 09.11.)

Lektüre von Mali/Aletras (2021). Zwei Fragen zur Lektüre müssen bis Mittwochabend per Ilias abgegeben werden.

Beschäftigung mit den drei Experimentier-Themen über die jeweiligen Webseiten: Humor and Offense, Patronizing Language, Named Entity Detection and Linking. Bitte schonmal Präferenzen entwickeln!

10.11.

Diskussion von Mali/Aletras (2021), Konzeptuelle Fragen zu den Experimentier-Themen, Forschungsstand (Slides)

Eingereichte Fragen

Hausaufgabe 3 (bis 8.12.)

Recherche Forschungsstand: Erstellen Sie eine kuratierte Liste von fünf wiss. Veröffentlichungen

  • Kuratiert: Nicht wahllos, sondern die “interessanten” Beiträge zum Thema
  • Die Liste enthält (in Stichpunkten): Angaben zur Methodik, verwendete Daten, Ergebnisse, besondere Beobachtungen, was macht den Beitrag interessant?
  • Die Liste darf ausschließlich wissenschaftliche Veröffentlichungen enthalten (d.h. begutachtet und nachhaltig verfügbar)

17.11.

Experimentphase (Slides)

  • Vorstellung der eigenen Experimente, Bildung von Gruppen.
  • Datenanalyse und Annotation

24.11.

Experimentphase

  • Baseline und Evaluation: Entwicklung und Implementierung

01.12.

Experimentphase

  • Erstes System

08.12.

Experimentphase (Slides)

  • Fehleranalyse und Weiterentwicklung

15.12.

Experimentphase (Slides, NLP-Experiment-Steckbrief)

  • Auswertung und Evaluation

22.12.

Modulprüfung und Brainstorming zu Modulprüfungsthemen (Slides, bitte auch Informationen in Ilias beachten)

Hausaufgabe (bis 12.01.)

Schreiben eines wiss. Textes über das Experiment

12.01.

Schreiben über Experimente, Teil 1 (Slides)

19.01.

Schreiben über Experimente, Teil 2 (keine Folien. Besprochene Themen: Referenzen und Zitationen, Technizität von Texten, Abgeschlossenheit)

26.01.

Zwei eigene Experimente: Reiter/Frank (2010), Krautter al. (2020) (Slides)

Abschlussdiskussion, Feedbackgespräch

02.02.

Entfällt

Literatur

Jin, Mali/Nikolaos Aletras (June 2021): “Modeling the Severity of Complaints in Social Media”. In: Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Online: Association for Computational Linguistics, pp. 2264–2274. doi: 10.18653/v1/2021.naacl-main.180. url: https://aclanthology.org/2021.naacl-main.180.pdf.

Panchendrarajan, Rrubaa/Nazick Ahamed/Brunthavan Murugaiah/Prakhash Sivakumar/Surangika Ranathunga/Akila Pemasiri (June 2016): “Implicit Aspect Detection in Restaurant Reviews using Cooccurence of Words”. In: Proceedings of the 7th Workshop on Computational Approaches to Subjectivity, Sentiment and Social Media Analysis. San Diego, California: Association for Computational Linguistics, pp. 128–136. doi: 10.18653/v1/W16-0421. url: https://www.aclweb.org/anthology/W16-0421.pdf.

Preoţiuc-Pietro, Daniel/Mihaela Gaman/Nikolaos Aletras (July 2019): “Automatically Identifying Complaints in Social Media”. In: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy: Association for Computational Linguistics, pp. 5008–5019. doi: 10.18653/v1/P19-1495. url: https://www.aclweb.org/anthology/P19-1495.pdf.

Veranstaltungsmaterialien

Klips