Hausaufgabe 1: Fragen zu Tsujii 2021

  • Disziplinen
    • Ich vermute, dass dieser Text und speziell Tsujiis Aussage „It is time to re-connect NLP and CL.“ (wenn man sie als Aufforderung versteht) mehr an Computerlinguist*innen als an Forschende im Bereich der Sprachverarbeitung gerichtet ist. Ich fände es spannend, dazu aus der CL-Perspektive etwas zu hören, ich frage mich, wie die Zusammenarbeit von CL und NLP konkret aussehen könnte und ob es in der Zwischenzeit schon Fortschritte in diesem Gebiet gab. Also meine Frage ist im Grunde, wie die Rezeption von diesem Paper war, ob es tatsächlich dafür gesorgt hat, dass mehr Zusammenarbeit stattgefunden hat, oder ob viele Forschende in diesen Gebieten eine andere Meinung haben als er.
    • Keine Frage zum Text, eher ein Kommentar:
      Tsujii arbeitet heraus, inwieweit CL und NLP (mitunter stark unterschiedliche) Ansätze wählen und unterschiedliche Ziele verfolgen, CL jedoch behilflich sein kann, NLP-Modelle und ihre Outputs besser zu verstehen und zu analysieren.
      Dennoch driften die beiden Disziplinen in der aktuellen Forschung sukzessive weiter auseinander. Diese Beobachtung stößt Überlegungen dazu an, inwieweit zukünftige Sprachverarbeitungsmodelle darunter leiden könnten, wenn CL und NLP sich weiter voneinander isolieren. Kann dies durch andere Lösungen aufgefangen werden und wäre dieser Ersatz konstruktiv(er)?
    • Sehe ich es richtig, dass Tsujii die CL als eine Art Bindeglied zwischen allen anderen verwandten Disziplinen (Linguistik, NLP...) sieht, das durch die Nutzung interdiszplinärer Methoden neue Erkenntnisse für die jeweilgen einzelnen Disziplinen bringt. Ein wenig so wie die DH allgemein ein Bindeglied zwischen Geisteswissenschaften und Computertechniken sind und dadurch neue Möglichkeiten eröffnen.
    • Mir wurde beim Lesen nicht ganz klar, wie Tsuji sich vorstellt, wie NLP und CL reconnected werden sollen. So wie ich es lese, sagt er, dass NLP und CL voneinander profitieren können, aber sich entfernt haben, bzw. beide Seiten ihr eigenes "Süppchen kochen". Wie sollen die beiden Disziplinen wieder zusammenfinden?
  • Features
    • Tsujii spricht vermehrt von Features (z.B. im Zusammenhang von ""feature-based representation"", ""feature-based formalisms"" etc.). Was genau sind diese Features?
    • Was genau ist mit den "feature-based representations" gemeint? Wurde mehrfach erwähnt und ich hab nicht genau verstanden was in dem Kontext die Features sind.
    • "In Tsujii (1986), instead of mapping at the abstract level, I proposed ‘transfer based on a bundle of features of all the levels,’ in which the transfer would refer to all levels of representation in the source language to produce a corresponding representation in the target language."
      Frage: Tsujii stellt hier die Methode der „transfer based on a bundle of features of all the levels“ vor. Dabei wird vorgeschlagen, beim Übersetzen alle Darstellungsebenen der Ausgangssprache zu berücksichtigen, zum Beispiel lexikalische, syntaktische und semantische Ebenen. Wie wird diese Methode in der Praxis mit Konflikten zwischen den verschiedenen Ebenen umgehen? Zum Beispiel könnten einige semantische Merkmale keine direkte Entsprechung auf der lexikalischen oder syntaktischen Ebene haben. Wie geht das System in solchen Fällen vor?
  • Grammatik und Syntax
    • Zum „Enju-Parser"": Der Autor erklärt, dass der Parser im ersten und zweiten Schritt schon „disambiguiert“. So wie ich verstehe, werden aber nur die „Supertags“, die ich ungefähr wie POS-tags verstehe, nach den Grammatikregeln disambiguiert. Wenn ich das richtig verstanden habe, würde es bei Sätzen mit einem Zweideutigen Wort, deren Satzbau aber gleich ist, nicht funktionieren, oder? (zb. Die Bank in Frankfurt ist groß < -> Die Bank im Park ist bequem).
    • Tsuji (2021: 717) beschreibt, dass eine Grammatik, die auf sprachlichen Merkmalen basiert (feature based grammar) bei NLP-Anwendungen der “processing-oriented representation” klar unterlegen ist. Dazu habe ich einige Fragen: Wie genau unterscheiden sich “feature-based grammar” und “processing-oriented representation” in Bezug auf die praktische Anwendung? Was genau sind DAGs (directed acrylic graphs) (Tsuji 2021: 714)? Welche spezifischen Vorteile bietet die processing-orientierte Repräsentation im Vergleich zur feature-basierten Grammatik und gibt es auch Nachteile?
    • Wie genau ist die Grammatik HPSG definiert, wie unterscheidet sie sich von den anderen gezeigten Grammatiken (Figure 7) und warum wurde eben diese für den Parser gewählt?
    • Ist es möglich, zur Veranschaulichung einen Durchlauf des Parsers an einem Beispiel zu sehen?
    • Existieren heutzutage formale Grammatiken, die zumindest die Syntax natürlicher Sprachen vollständig oder nahezu vollständig beschreiben können?
    • "From the NLP point of view, the emergence of large tree banks led to the development of powerful tools (i.e., probabilistic models) for disambiguation.""
      Könnten wir genauer auf die Rolle von Treebanks eingehen, in Bezug auf ihre Funktion bei der Erkennung von ""disambiguation""? Gibt es Beispiele dazu?
  • Sonstige
    • Mir wird der Zusammenhang zum biomedizinischen Bereich nicht wirklich klar. Wie lassen sich die Erkenntnisse auf natürliche und produktive Sprache übertragen?
    • Im Text wird mehrmals darauf verwiesen, dass "disambiguation" ein großes Problem in NLP ist, und dass selbst nach Verwendung von probabilistischen Modelle weiterhin eine hohe Fehlerrate besteht. Ich frage mich daher, welche Strategien verfolgt werden könnten, um diese anhaltende Herausforderung der Disambiguierung zu bewältigen?
    • Inwiefern könnten multimodale Ansätze, die Informationen wie Bilder und Audio kombinieren, die Sprachverarbeitung verbessern?
    • Welche Ansätze könnten verwendet werden, um die Glaubwürdigkeit und Verlässlichkeit von Informationen, insbesondere im Bereich der biomedizinischen Textverarbeitung, zu bewerten?
    • Ich habe mich gefragt wieso es so schwierig ist in einem Satz alle Abhängigkeiten korrekt zu erkennen? Ich hätte jetzt erwartet, dass dies mithilfe von einer Hierarchichen Struktur relativ gut möglich sein sollte?
    • Was genau kann man sich unter "Supertags" vorstellen und wie wird die wahrscheinlichste Reihenfolge von Supertags für einen Satz festgelegt?