Eingereichte Fragen

Fragen zu Jin/Aletras (2021):

Verständnisfragen

  1. Im Text wird gesagt, dass 3 unabhängige Annotatoren jeden Tweet annotiert haben. Danach wird geschrieben, dass 35 Annotatoren angestellt wurden. Was haben die 35 gemacht? Sie werden danach nicht mehr erwähnt. Was war ihre Aufgabe?
  2. Was genau sagt dieses Ethics statement aus?
  3. Ist M-RoBERTa nun ein bereits existierende Sprachverarbeitungsmodel oder ist es (zusammen mit der Hinzunnahme linguistischer Informationen) der Name für das von den Autoren entwickelte Modell, das eine Kombinatione der Modelle RoBERTa und M-BERT ist?
  4. Warum gibt es einen Unterschied in der class distribution zwischen den Bereich? Warum wurden sie überhaupt gruppiert?
  5. An dem Beispiel in Tabelle 1 ist der Unterschied zwischen Accusation und Blame sehr schwer zu erkennen. Der Wortlaut des Beispiels für Accusation ist ““Can u (you) stop […]”“, was ebenso die Suche nach einem Schuldigen darstellt wie das Beispiel für Blame.
  6. was sind die vier complaint severity kategorien nach Trosborg (2011)?
  7. Ist es wirklich möglich, die Beschwerden streng nach den vier Klassen zu trennen? Sind sie nicht auch intersektional? Kann eine Beschwerde nicht auch ““Disapproval”” und ““Accusation”” sein?
  8. Das Korpus war mit 3442 Rezensionen signifikant größer als bei Preotiuc-Pietro et al. (2017), wo das Korpus 1971 Tweets umfasste. Wie frei ist man beim experimentellen Arbeiten in der Wahl der Korpusgröße?

Konzept und Datensatz

  1. Warum wird nach ““Art”” der Beschwerde gefiltert anstelle von Schwere, wenn das Papier doch ““Modeling the SEVERITY of complaints”” heißt?
  2. Anhand welcher Kriterien entschied man sich für das 4-Klassen-Modell zur Unterscheidung der Complaint Severity? Muss/ sollte dies in einem solchen Text (detaillierter) dargelegt werden?
  3. Beruht das Kategorisieren der ““levels of severity”” nicht eigentlich auf subjektivem Empfinden?
  4. Is 1-D severity classification of complaints sensible? In my view, this muddles up several dimensions of “complaint” that may be better treated separately, e.g.: rationality of the complaint (vs. emotionality, incoherent “venting”), constructiveness (is a credible way forward suggested?), offensiveness (strongness of words, use of unnecessary expletives), directness (is it a personal attack or non-blame). intent (is action required by addressee? or has user taken action and is just alerting?), escalation (is it a stronger reaction to a previous unanswered complaint?), physicality (is there a threat of physical violence on non-compliance?), time criticality (will the complaint self-expire if not resolved by a certain date?)
  5. Wenn sogar Menschen Probleme damit haben Accusation und Disapproval zu unterscheiden, ist das dann nicht ein Problem der Klassifizierung der Beschwerden? Wäre ein genaueres System eventuell sinnvoller?
  6. Wie gängig ist es, schon vorhandene Datensätze weiter-/wiederzuverwenden, vor allem wenn es sich dabei um Ressourcen handelt, die nicht ““populär”” sind bzw. nur für ein einzelnes spezielles Experiment zusammengetragen wurden? Die Autoren nutzen die Twitterdatensätze, die bereits von Preotiuc-Pietro et al. (2019) zusammengetragen und für deren Experiment genutzt wurden. Bei diesen Daten (Quelle, Kategorisierung, Annotationen) war bereits fraglich, wie sinnvoll diese im Kontext der Thematik Beschwerden/Nicht-Beschwerden sind.
  7. If the complaint is written in an neutral way (without using much emotional information), would it be classified as a complaint?

Methodenfragen

  1. Was genau sind Hyperparameter?
  2. Wie kann das Model mit contextual informations verbessert werden und wären diese anwendbar auf andere Bereiche?
  3. Wieso werden für die predictive models verschiedene MTL models verwendet?
  4. Welche Topics unterliegen M-RoBERTa_top?
  5. Was ist GloVe embedding?
  6. Was ist Transformer architecture?
  7. Was ist masked language modeling?
  8. Was ist die hidden size eines BiGRU-Att Modells?
  9. Was ist das dropout eines BiGRU-Att Modells?
  10. Was ist LR-Bow?
  11. Wie kann man sich das MTL Hard Sharing predictive model genau vorstellen? Kann man den Vorgang skizzieren?
  12. Warum liegt die maximale Sequenzlänge bei RoBERTa bei 50?
  13. War es von besonderer Bedeutung, dass eine 10 fold cross validation mit mehreren Unterteilungen der Loops vorgenommen wurde?
  14. Ich verstehe das Vorgehen beim BiGRU-Att Netzwerk und den self-attention Mechanismus nicht ganz und was es genau mit der softmax activation function auf sich hat.
  15. Would hidden size be just a variables name or a ““random”” number which wouldn’t be disclosed for a specific reason?
  16. Wurde RoBERTa bereits für andere Projekte genutzt beziehungsweise stellt sich mir hier die Frage inwiefern RoBERTa dort sinnvolle Ergebnisse geliefert hat.

Sinnfragen

  1. Inwiefern ist eine derartige Modellierung der Beschwerdegrade von Sozialen Medien sinnvoll?
  2. Welche konkreten neuen Erkenntnisse erbringen Mali und Aletras?
  3. Es handelt sich laut Text um einen Versuchsaufbau, der nicht ausschließlich theoretische Erkenntnisse liefert und bereits in der Praxis Anwendung finden soll. Dennoch stellt sich die Frage, ob hiermit konkrete Beiträge zu anthropologischen Fragestellungen geliefert werden sollen und ob es wirklich einen tieferen Sinn für Unternehmen hat, einordnen zu können, ob sie vom Nutzer beispielsweise direkt oder indirekt für ein Problem beschuldigt werden?
  4. What practical purpose has been served by this work? How can I now take the model into real-world applications, and if not, what further work is required so it becomes useful? Alternatively, what relevant NEW insight with regards to the nature of the human act of complaining ON TWITTER (e.g. as opposed to other media, or verbal) has been gained for science?”

Interpretationsfragen

  1. warum ist das Model besser darin “Blame” voraus zu sagen als Menschen?
  2. Können die Modelle auch mit zweisprachigen Tweets umgehen? Zum Beispiel Denglisch
  3. Wie geht das System mit Doppeldeutigkeit oder Ironie um? (immer ein Error?)
  4. Wie fähig bzw. leistungsstark sind linguistische Modelle im Allgemeinen, wenn es darum geht, nicht nur reine Informationen, sondern speziell menschliche Emotionen in sprachlichen Ausdrücken korrekt zuzordnen? Ist es bspw. möglich, Sarkasmus, Ironie oder implizite Aussagen, die sich ““zwischen den Zeilen”” verbergen, korrekt auszulesen/zuzordnen? Im behandelten Papier scheint dies eine der größten Schwierigkeiten zu sein, zumal auch viele Menschen damit Probleme haben, solche sprachlichen Merkmale zu erkennen und richtig einzuordnen.
  5. Wieso profitiert die binäre complaint identification von den complaint severity level-Informationen bei simultanem Training? Wo liegt der Unterschied zwischen simultanen und sequenziellen Trainingsvorgängen?
  6. Are there speciafic types of tweets that the MTL-M-RoBERTa systematically categorises incorrectly?

Weiterführende Fragen

  1. Wie viel Speicherplatz und Rechenaufwand hat das fertige Model gebraucht?
  2. Der Text gibt an, dass weitere Versuche das Anwenden der Methoden auf Multilingualer Ebene in Zukunft geplant sind. Sind auch weitere Versuche zur Verbesserung und somit höheren Accuracy, Precision, Recall, und F-Score Werten geplant? Oder gibt es die zurzeit schon?
  3. Es wird zum Schluss gesagt, dass die Methoden in Zukunft in einem mehrsprachigen Umfeld auf verschiedenen Plattformen angewendet werden sollen. Wird dies in anderen Sprachen und Platformen überhaupt genauso gut funktionieren wie zuvor beschrieben?
  4. Can this method be applied to other domains other than complaints in social media?
  5. Wenn alle Twitter Usernamen durch <USER> ersetzt werden, in einem Tweet jedoch vielleicht mehr als nur auf einen User referiert wird, nimmt die Methode dann den Token <USER> als die gleiche Person wahr?
  6. Whilst the lack of explicit reproach is the most common, how can we pinpoint any critic within this complaint? [Unless Mali/Aletras actually comprehend complaints within a s set number of social media posts, which would help to see not all posts are complaints but confuses severly]
  7. Between BERT and the emotional enriched MTL M RoBERTa (Ill use the 4 examplas as absolute) the emotional aspect will always completely shift any statement? How so when only deemed non-sever? [More realistacally I’d say the training set used is inferior since as it is we label all twitter users at the same emotional level, which a)can be easily disproved, b)might work for a specific class which wasn’t defined(as I seethis) or c)the amount of data wasn’t large enough to actually cover the variety of grades in human emotions. People obsessed with eggs might work hard towards their goal, whilst some with said goal fail miserably but still envy or even hate others for anothers success - regardless of which it’s no longer any complaint based on what assumption? ]