Aufgabe 2: Fragen zu Panchendrarajan et al. (2016) und Preoţiuc-Pietro et al.
- Preoţiuc-Pietro et al. (2019) / Complaints
- Was genau ist mit ""a favorable event to occur"" und ""an unfavorable event to be prevented"" gemeint?"
- Warum ist es wichtig, zwischen negativen Sentiments und tatsächlichen Beschwerden zu unterscheiden und wie wird der Unterschied erkannt?
- Zu Preoţiuc-Pietro et al.: Inwiefern ist es sinnvoll, dass die beiden Autoren des Papers die Tweets selbst annotiert haben? Könnten diese durch die Annotation die Ergebnisse des Modells in eine bestimmte Richtung lenken und die Performance verbessern?
- Was, wenn das Programm für ""böse"" Zwecke benutzt wird, z.B. User Sperren bevor die Beschwerde abgesendet wurde?
- Wieso gibt es kein annotiertes Data Set für Beschwerden vor dem Artikel, wenn es als so wichtig angesehen wurde?
- Was, wenn ein Tweet länger ist und die Beschwerde nur einen geringen Teil ausmacht? Twitter erhöhte Ende 2018 die Anzahl von Charakteren in Tweets von 140 auf 280, ist das also noch relevant oder unsignifikant weil die Anzahl solcher Tweets zu gering ist?
- Wo ist der Code auf GitHub?
- Wie explizit bzw. plakativ kann/darf ein complaint sein? U.a. ist Sarkasmus für Außenstehende eher fehlleitend als hilfreich.
- Muss ein complaint immer im Bezug auf etwas stehen oder kann ein complaint auch ohne Kontext verstanden/analysiert werden?
- Kann man aus dieser Arbeit den Schluss ziehen das die "Menschheit" sich zur Selbsthilfe beunfähigt?
- Was könnten mögliche Gründe dafür sein, dass das „bag of words“-Feature den besten F1-Score erbringt?
- Stellt Overfitting ein Problem in der Beschwerden identifizierung dar? Wie stark sind die jeweiligen Modelle auf die Plattform angepasst, mit der sie trainiert wurden? Könnte z.B. das Modell von Preoţiuc-Pietro et al. auch auf Beschwerden auf Yelp angewandt werden?
- Welche Arten von Missklassifikationen könnten bei dem Modell häufiger auftreten und warum?
- Ist im Kontext der automatisierten Bewertung von Beschwerden möglicherweise die Gefahr einer Veränderung des Verhaltens der Nutzer*innen zur Folge die sich die automatisierte Auswertung versuchen zu eigen zu machen in dem Beschwerden künftig entsprechend formuliert werden um von diesen Systemen als intensiver erkannt zu werden zu erwarten? Und könnte dies wiederum zu einer benachteiligung nicht automatisierter Beschwerden führen, da koordinierte Aktionen die Messlatte der Intensität quasi nach oben verschieben.
- Wie könnte die Annotation der Tweets durch unabhängige, diverse Gruppen von Annotatoren die Übertragbarkeit und Robustheit des Modells beeinflussen, insbesondere in Hinblick auf mögliche Verzerrungen durch die Autoren selbst?
- "as important signal may be washed out if the features are joined across both domains, we experiment with domain adaptation using the popular EasyAdapt algorithm" (Preotiuc S. 8) - Wieso können wichtige Signale verloren gehen, wenn die manuell annotierten features und die mit distant supervision gewonnenen kombiniert werden? Wie kann man sich die "domain adaption" über den genannten Algorithmus vereinfacht vorstellen? Ist die Aufteilung in Domänen nicht hinderlich hinsichtlich der korrekten Vorhersage (die Autoren wollten jedoch eine Unterscheidung in Domänen ermöglichen)?
- Panchendrarajan et al. (2016) / Implicit Aspects
- Wie genau funktioniert eine "10-fold-cross-validation"? Was sind die Vorteile der Auswertungsmethode im Vergleich zu anderen Methoden?
- Wie genau funktioniert die Berechnung der Scores für die impliziten Aspekte und warum wird die Distanz zwischen Wörtern in die Formel einbezogen?
- Kann man das entwickelte Modell ohne weiteres auf Rezensionen zu allen möglichen Themen anwenden?
- Wieso wurden nicht mehr Regeln benutzt, würde das nicht die Accuracy erhöhen?
- Würde es mehr Sinn mahcne, die Hierachy of Aspects zu erweitern?
- Lassen sich die vorherigen Experimente bzw. die Ergebnisse auch auf andere Sprachen anwenden?
- Was für Herausforderungen können bei der dynamischen Erweiterung des hierarchischen Modells auftreten, wenn man neue Aspekte oder Entitäten automatisch (aus zukünftigen Bewertungen) integrieren würde?
- Inwiefern ist es sinnvoll zwei verschiedene Modelle zu trainierten und sie zusammen in eine Pipeline zubringen, angewandt auf andere Problemstellungen?
- Was sind die Schwächen des Modells, wenn es auf andere Restaurants mit unterschiedlichen Arten von Rezensionen angewendet wird? Wie könnte man das Modell noch anpassen um diese zu minimieren?
- food size small wäre für einen Erwachsenen/ein Kind ggf. big und vice versa. Also gerade da hier manuell einspeist wird müsste doch gewissen Rahmen gesetzt werden?
- Wie wird mit fake Bewertung umgegangen.
- Und ist dieses Modell überhaupt vernünftig Anwendbar, mit informierten Testsubjekten?
- Wie kann das System am besten manipuliert werden?
- Kann das Modell Sarkasmus erkennen, bzw. wie geht es damit um? Bsp. ""War suuuuuuuper lecker, werde bestimmt wieder kommen, da waren bestimmt keine Haare auf meiner Pizza"" oder würde hier Pizza dann als lecker klassifiziert werden?
- Wie bereitet man ein Modell mit Sentiment Analyse darauf vor Ambiguität zu erkennen (z.b Ironie und Humor in Reviews)
- In ihrem Fazit geben Panchendrarjajan et al. an das das Modell durch die Darstellung in der Hierarchisiserung auf andere Domains übertragbar sei, in wie fern sind aber die durch die Thematik gewählten impliziten Aspekte, die das Modell nutzt möglicherweise aufgrund ihrer Zusammenhang in Bewertungen wirklich übertragbar in andere Kontexte, wenn implizite Aspekte nicht unbedingt in wertenden Aussagen getroffen werden?
- Welche zusätzlichen Schritte wären erforderlich, um das entwickelte Modell so zu erweitern, dass es effektiv und präzise auf Rezensionen aus thematisch unterschiedlichen Bereichen angewendet werden kann?
- Allgemein
- Die Computerlinguistik und Statistik rücken näher zusammen, und ihre Bedeutung in der Geschäftswelt wird deutlich zunehmen, insbesondere da Unternehmen zunehmend Erkenntnisse aus unstrukturierten Daten wie Tweets gewinnen müssen. Dies könnte dazu führen, dass Statistik und CL-Verfahren gemeinsam genutzt werden, um präzisere Schlussfolgerungen über das Verhalten und die Meinungen von Nutzern zu ziehen. Was denken Sie, wie sich die Kombination dieser Disziplinen in der Zukunft weiterentwickeln könnte?