Eingereichte Fragen

Preoţiuc-Pietro et al. (2017): Automatically Identifying Complaints in Social Media

Verständnisfragen

  • What is univariate Pearson correlation? (Diese Frage hat sich mittlerweile geklärt. Ich kannte es nur unter einem anderen Namen bivariate Korrelation)
  • (What is 10-fold-cross validation?)
  • Was ist 10-fold cross-validation?
  • What does AUC stand for?
  • Was ist ein ““Binary annotation task”“?
  • Was ist distant supervision?
  • Wie ist man zu der Erkenntnis LIWC als Standard in traditional psychology studies zu verwenden? Bezieht sich dies eher auf psycholinguistische Phänomene oder einen pragmatisch/logischen Ansatz?
  • Was ist maximum entropy classification und wie werden damit explicit aspects identifiziert?
  • Wieso ist es wichtig, dass dem Data Set randomisierte Tweets hinzugefügt werden, damit die Evaluation nicht disproportional viele Complaints enthält?
  • Welche Branchen bezüglich des Kundenservice wurden genutzt? Beziehungsweise anhand welcher Kriterien haben die Autoren diese sortiert?
  • Zuletzt würde ich gerne wissen warum man mit neuronalen Netzwerken fast mit die besten Ergebnisse bzw. höchste Genauigkeit erreichen kann. Dabei fände ich eine erneute Erklärung auf deutsch von dem MLP Netzwerk hilfreich.

Konzeptfragen zur Kategorie “complaint”

  • Es wird die Vermutung aufgestellt tweets haben nur einen thought, daher der Eindruck jeder weitere thought in dem initial tweet geht unter oder wird nicht registriert. (e.g.: Wisst Ihr was die DB so richtig gut kann?! Ich auch nicht.) Dieser thought wäre erstmal nicht als complaint einzustufen. Mit dem nötigen Hintergrundwissen und dem implicit aspect aus Text 2 wird schnell klar, dass hier sehr wohl ein complaint stattgefunden hat. Darf ein complaint stets als Reaktion auf Fernableiben einer Aktion gesehen werden? Wenn ich es recht verstehe, wird davon ausgegangen, dass der user sich meist nur dann beschwert, wenn es einen triftigen Grund gibt. Gleichzeitig werden so, dann hier neurotische Meckerer mit tatsächlichen complaints gleichgestellt. Dies sehe ich jedoch als Problem an, da hier davon ausgegangen wird jedem complait liegt eine fehlende Handlung voraus. Wie lässt sich dem vorbeugen, kann man dem vorbeugen? Meines Erachtens ist ein complain vielmehr Floskel und Sprachgebrauch als eine Reaktion, da selten jemand wirklich ehrlich Kritik - aber vorallem meist emotional und eben wenig bis gar nicht sachlich fundiert - übt. (e.g.: alles ist scheiße) ein complaint, aber ohne Bezug schwierig einzuordnen, während alles lediglich das Klingeln des selbst gestellten Weckers ist. Wo steckt dann eigentlich der complaint?
  • Wie unterscheidet man in einer Nutzerbefragung zwischen Beschwerde (Complaint) und konstruktiver (vielleicht sogar wohlwollender) Kritik? Ist eine Unterscheidung nötig?
  • Woran erkennt man in einer Beschwerde wie ““the food sucks”” den Unterschied zwischen einer Beschwerde und einer simplen negativen Bewertung? Oder ist das in dem Fall das Gleiche? Oder sogar beides?
  • What if a certain tweet has properties of both being a complaint and not a complaint? How does the algorithm decide?

Datenfragen

  • Wie sinnvoll ist es allgemein, ein Medium (hier Twitter) als Quelle zu verwenden, das in erster Linie andere Ziele hat und Eigenschaften erfüllt, als das im Experiment untersuchte Thema? Gerade im Bereich der Kundenbeschwerden oder allgemeiner -bewertungen gibt es zahlreiche Plattformen, die speziell darauf abzielen, diese zu sammeln und zu veröffentlichen. Auf Twitter hingegen ist der User allein durch die Kürze des Texts stark eingeschränkt in seinen Äußerungen.
  • Sind die Annotierten und Sortierten Tweets als Datenbank für weitere Forschungen bereitgestellt worden (Nachdem im Text beschrieben worden ist, dass es keine solcher Datenbanken gab)? Wenn ja, kann man drauf zugreifen und wie?
  • Warum genau werden hier Twitter-Kommentare als seriöse Bewertungen ausgewählt? Evtl. liegt es an meiner Unerfahrenheit gegenüber Twitter, aber für mich scheint es als eine sehr unpersönliche Plattform wo jeder schreibt was er gerade denkt. Dabei wird nicht auf eine konstruktive Kritik geachtet. Dazu kommt dass dort viel Interaktion mit anderen herrscht, sodass Personen manche Dinge auch einfach nur schreiben um Aufmerksamkeit zu erregen und ins Gespräch oder eine Diskussion mit anderen zu kommen. Weshalb ich mich frage ob einfach nur Testdaten gebraucht wurden oder bei Twitter wirklich auch von Seriosität gesprochen werden kann.
  • Frage 2: What data was used?
    • Antwort: ““We create a new data set of written utterances annotated with whether they express a complaint. We use Twitter as the data source because it represents 5010 a platform with high levels of self-expression; and users directly interact with other users or corporate brand accounts.”“

Sinnfragen

  • Welcher Sinn ergibt sich aus der Kategorisierung der einzelnen Firmen in neun beliebige Kategorien? Laut Paper wurde die Kategorie nach der am häufigsten vorkommenden Beschwerde zu einem Produkt/einer Dienstleistung ausgewählt, was dazu führt, dass Firmen bei der Auswahl anderer Zeiträume der Tweets unter Umständen in anderen Kategorien eingeordnet werden. Das würde letztlich die Vorhersagbarkeit/Erkennung in einzelnen Kategorien beeinflussen, da die Zielgruppe/der Kundenstamm der jeweiligen Firma sich im Gegenzug dazu nicht ändert.
  • Inwiefern ist es für die Branchen von Relevanz eine derartige automatische Identifizierung von Kundenbeschwerden zu erhalten?

Methodenfragen

  • Wie grenzt sich innerhalb einer Linguistic Expression der Teil, der als Beschwerde gewertet würde, von anderen Teilen innerhalb dieser ab?
  • Welche Methoden der Features sind für welche Ergebnisse, bzw. für welche Unterschiede zu wählen? Wie werden sie Ausgewählt und mit welchen Begründungen?
  • Wie wurden die Linguistic Features gewertet bzw. wie haben sie die Einordnung der Tweets in Complaints und non-Complaints beeinflusst?
  • Auch hier müssen die unterschiedlichen Kriterien, anhand derer eine Beschwerde identifiziert werden soll, unterschiedlich gewichtet werden. Wie wird die Gewichtung entschieden?
  • Wenn verschiedene Modelle/Verfahren sich (oder dem Experimentaufbau) widersprechen, wäre es dann nicht sinnvoller, eines oder mehrere dieser aus dem Experiment zu entfernen? Bspw. ordnet ein Modell Dankbarkeit und Unterstützung den Nicht-Beschwerden zu. Im weiteren Text wird jedoch erwähnt, dass beides häufig auch in Beschwerden zu finden ist (Suche nach Hilfe/Unterstützung, Dankbarkeit im Voraus etc.). Gleiches gilt auch für die ““Intensifier”“: Großschreibung oder die Häufung von Satzzeichen wird mit Beschwerden in Verbindung gebracht. Im Weiteren wird jedoch erwähnt, dass die meisten Beschwerden weder das eine noch das andere enthalten.

Weiterführende Fragen

  • Is it common to use both methods - Logistic Regression and Neural Networks to predict complaints?
  • And is it possible to combine these methods or models to improve the accuracy of the prediction?
  • Can you adapt the methods/techniques for detecting/analyzing complaints, to any other social media platform, like Facebook or Instagram?
  • Frage 1: Which fields are intrested in Identifying Complains in Social Media.
    • Antwort: Linguistics, psychologists, organizations and advisers to improve the customer service.
  • Frage 3: What are the results of the detection?
    • Antwort: ““Results are presented in Table 6. Most sentiment analysis models show accuracy above chance in predicting complaints. The best results are obtained by the Volkova & Bachrach model (Sentiment – V&B) which achieves 60 F1. However, models trained using linguistic features on the training data obtain significantly higher predictive accuracy.””
  • Benutzen Sentiment-Analysis-Systeme auch Word2Vec zur Bestimmung von Deutungsrichtungen?
  • Gibt es eine weitere Kategorie von Sprechakten außer Beschwerden, die noch extensiver Forschung bedürfen? Wenn ja, welche?
  • The text talks about a large amount of features to possibly identify complaints, but are there features that should be prioritized?
  • Funktioniert das Systen auch bei gesprochener Sprache?
  • erkennt das System sarkasmus?
  • Ist es möglich für das System, die complaints inhaltlich zu deuten und einzuordnen? (praktischer umgesetzt als z. B. durch Hashtag Kategorien)
  • Why does ‘Food and Beverage’ score a comparatively low predictive performance?
  • Are two annotators enough for a high agreement percentage to mean much?
  • warum sind negative (emotions-)Wörter nicht so wichtig für die analyse von Beschwerden, aber positive (emotions-)Wörter für die Analyse von nicht Beschwerden (Lob) schon?

Panchendrarajan et al. (2016): Implicit Aspect Detection in Restaurant Reviews

Verständnisfragen

  • What is 10-fold-cross validation?
  • What is the double propagation method? (Eventuell eine Frage zum selbst nachlesen bei Qiu et al (2011)?)
  • What are co-occurrences of words? (I hope this question is not too basic)
  • Werden die sog. ““stop words”” manuell zum Lexikon der Software hinzugefügt oder stellt sie diese Wörter anhand ihrer Häufigkeit fest?
  • Welche Methoden werden zur Berechnung der Gesamtbewertung eines Aspekts aus den Bewertungen seiner Unteraspekte verwendet? Wie wird entschieden, wie die Unteraspekte gewichtet werden sollen?
  • Inwiefern ist der Cohen’s Kappa Wert bedeutend und was sagt er aus?
  • Sind mit ““opinion words”” immer Adjektive gemeint? Was ist der Unterschied zwischen opinion word, opinion target und opinion?
  • was sind explizite und implizite Aspekte?

Datenfragen

  • verstößt es eigentlich gegen irgendwelche AGBs die Reviews von Gästen für Wissenschaftliche Zwecke zu verwenden? Oder gibt es dafür einen Präzedenz Fall in dem das gereelt wurde? Oder gelten Reviews einfach als öffentlich und daher nicht von irgendwelchen Regeln geschützt?
  • What data was used?
    • Antwort: ““1000 restaurant reviews collected from Yelp (2016) are used as the training data set.””

Konzeptfragen

  • Mich würde eine genauere Erklärung zum Umgang mit Ambiguität in diesem Vorgang interessieren. Was genau wird erkannt, wenn eine Person eine Bewertung abgibt in der nicht automatisch gesagt werden kann, ob es positiv oder negativ ist? Wenn beispielsweise ein Restaurantbesucher schreibt ““Es war ein scheiß gutes Essen.”“ oder”“Ich würde sterben für noch so ein Schnitzel.”” In den Sätzen wären ja Indikatoren für eine negative Bewertung drin.
  • Which word categories are classified as opinions? Are verbs and negation of verbs in combination with personal pronouns considered? E.g. Are verbs ““like/not like” considered? What about reviews containing sentences such as “I didn’t like the food at all”? Are “like” and negations of verbs considered as opinion words? So that the sentence is implying that Food_item_Taste is bad
  • How are unattached aspects identified as such? E.g. ““I liked the restaurant”” -> is this discarded, counted as part of ““overall experience”“?
  • Ist es möglich, eine annähernd objektive Bewertung anhand von Reviews durchzuführen, wenn die Gewichtung einzelner (Kritik-)Punkte doch sehr vom individuellen Empfinden jeder einzelnen Autorin/ jedes einzelnen Autoren und jeder einzelnen Leserin/ jedes einzelnen Lesers abhängt? (Opinion Words wie klein, groß, günstig, teuer sind relativ)
  • Inwiefern kann ein Bewertender implizierend argumentieren? Führe dies nicht nur zu einer Anwendung in einer spezifischen Schicht? (e.g.: Die food size small wäre für ein Kind ggf. big und vice versa. Da wir hier allerdings implizierte Aussagen bewerten ist es doch hoch subjektiv ob die food size satisfying war und nicht ob small, big, extra large, etc.) Bei einem Testdatensatz von 1000 scheint mir hier kein gemeinsamer Nenner vorhanden.
  • Wie kann man bezüglich des Beispiels, bei dem sich der Aspekt ““Größe”” sowohl auf das Restaurant selber als auch auf die dort angebotene Pizza beziehen kann, von Ambiguität sprechen, wenn in den Beispielsätzen das Restaurant bzw. die Pizza doch explizit genannt werden? Derselben Logik nach müsste man auch beim Aspekt ““Geschmack”” von Ambiguität sprechen; die Aussage ““Es hat gut geschmeckt”” kann sich neben dem Essen ja auch auf die Getränke bezogen haben.
  • If an opinion is modified by an adverb (e.g. ““very”” kind, ““extremely”” tasty or ““really”” delicious), could this be interpreted or categorized differently from using ““kind”” or ““tasty”” without any modifiers? If yes, how so?

Methodenfragen

  • Does it present a problem to the model if the customers leaving reviews misspell things like opinion words or target aspects?
  • Beeinflusst es die Resultate, dass es Rechtschreibfehler in Figure 2: Hierarchy of Aspects gibt
  • Wenn ein Satz zwei implizierte Wörter enthält, werden dann beide Wörter auf einmal durch ein Aspektlabel geändert oder nacheinander? Also ob es ein Schritt ist oder zwei?”
  • What are the results of the detection?
    • Antwort: ““Table 3 shows the results for IRR test and it can be seen that average Kappa coefficient value for the test data sets is 0.83. Therefore the training data set with aspects labeled is acceptable.””
  • Wie hoch sind der Zeit und Arbeitsaufwand dieser Methode?

Sinnfragen

  • Dieses Experiment wirkt wie eine grundsätzliche Modellierung einer Methode. Es werden keine Einschränkung hinsichtlich einer bestimmten Sprache oder einer bestimmten Quelle gemacht. Als Beispiele werden ebenfalls nur sehr einfache Sätze genannt. Wie wichtig wäre hier die Eingrenzung der Sprache hinsichtlich der Komplexität des Satzbaus oder der Art und Weise des Sprachgebrauchs in Bezug auf vorhandene Höflichkeit, Floskeln, Redewendungen, Häufigkeit von Adjektiven o.ä.?Die gleiche Frage stellt sich mir im Hinblick auf die Quelle der Bewertungen - Zielgruppe, Art/en von Restaurants etc.
  • Ist es der Anspruch der Implicit Aspect Detection, nach der Analyse (belastbare) Aussagen treffen zu können, ob ein Restaurant laut Nutzern klein, groß, günstig, teuer sein soll?
  • Inwiefern ist eine derartige Untersuchung für Reviews von Restaurants sinnvoll? Welches Publikum möchten die Autoren wirklich erreichen?

Weiterführende Fragen

  • In Section 2 Related Work wird von einer chinesischen Studie von Zhang und Zhu gesprochen. Inwiefern kann man NLP/CL Studien von verschiedenen Sprachen miteinander vergleichen oder Teile der Vorgehensweise übernehmen? Ist dies bei manchen Sprachen eher möglich als bei anderen?
  • Wurde die Hierarchietabelle manuell erstellt? Im gleichen Zug wie die Trainingsdatensätze annotiert wurden?
  • Ist dieses Verfahren heutzutage oft verwendet? Gibt es andere Verfahren für diese Aufgabe, die häufig benutzt wird? Wenn ja, wonach entscheidet man, welches Verfahren benutzt wird?
  • What is the method in the paper capable of?
    • Antwort: ““This paper presents a method to detect implicit aspects mentioned in restaurant reviews. It is capable of identifying multiple implicit aspects appearing in a sentence.””
  • Gibt es eine Möglichkeit im Pre-Processing die Erkennung im Hinblick auf spätere discarded entities zu optimieren (zB bei discards für die es keine passende Regel gibt oder die Target-Erkennung nicht erfolgreich war)?~ wobei man natürlich anderseits auch einfach mehr Samples nutzen kann, um die Discards auszugleichen, was wahrscheinlich in vielen Fragestellungen einen einfacheren Ansatz darstellt.
  • In the text, the sentence ““I am a big fan of that restaurant”” is used as an example that would be discarded. Would it be possible to bypass this by introducing another aspect Customer (with e.g. sub-aspect Customer_Happiness) and training the model to assign opinion words targeting ““I”” or ““we”” to it?
  • werden nicht bewertete Aspekte auch in einer Analyse berücksichtigt? (z. B. keine negativen Bemerkungen der Sauberkeit ein gutes Zeichen?)
  • wie komplex können die Formulierungen sei bis Fehlinterpretationen aufkommen?
  • Funktionalität bei Aussagen mit negativen Aussagen die positiv gemeint sind (z. B. ““the food is sick”“)
  • How does the algorithm perform when analysing highly ambigious reviews?
  • How does the algorithm perceive ironic or sarcastic reviews?
  • Insbesondere zum Text ““Panchendrarajan”” wie lassen sich regionale, kulturelle oder auch sozial-ökonomische Differenzierungen der Aspekte erkennen? z.B. hätte der Satz ““the food was fine”” einen andere Konnitation wenn er von jemandem aus London geschrieben wird im Verglich zu jemanden aus Kalifornien. Sprache entwickelt und verändert sich mit der Zeit. Ist es möglich das Algorithmen diese Veränderungen erkennen und sich von alleine anpassen oder muss alle n-Jahre der Algorithmus angepasst werden?

Vergleichende oder nicht zugeordnete Fragen

  • Wie sind die F1-Werte von R. Panchendrarajan et al. und Preot¸iuc-Pietro et al. zu verstehen? Sind es komplett unterschiedliche Verfahren? R. Panchendrarajan et al.: ““Our approach yields an F1 measure of 0.842 […].”” Preot¸iuc-Pietro et al.: ““[…] achieving a predictive performance of up to 79 F1 […].””
  • Handelt es sich bei dem Gegenstand der jeweiligen wissenschaftlichen Arbeit um „ein Problem auf der Suche nach einer Lösung“ oder um „eine Lösung auf der Suche nach einem Problem“, wie der Engländer so schön sagt? Mit anderen Worten: ist es sinnvoll, subjektive und unstrukturierte Meinungsäußerungen auszuwerten? Wäre es nicht sinnvoller, für ein objektives Bild der Kundenzufriendenheit („customer satisfaction“) ein strukturiertes Bewertungsformular nach expliziten Aspekten zu entwerfen bzw. im Vergleich zu Konkurrenzprodukten zu bewerten (wobei Preis/Leistung sicherlich eine Rolle spielen)? Bzw.: Kann es sich ein Unternehmen leisten, nicht jede Service-Anfrage gewissenhaft individuell zu bearbeiten - wobei die Arbeit vielleicht weniger in der (automatisierten) Beantwortung der Fehlermeldung als in der eigentlichen Behebung des Fehlers liegt? (Einen möglichen Nutzen dieser Arbeiten wäre vielleicht eine automatisierte initiale Zustellung von Service-Anfragen bzw. Kundenzufriedenheitsäußerungen an die möglicherweise zuständige Abteilung/Person – aber auch das wäre wohl besser explizit vom Fragesteller bestimmt.)
  • Welchen innovativen Ansatz bringen die Autoren der jeweiligen wissenschaftlichen Arbeit dem Problem bei? Kann ich diesen Ansatz nachvollziehen, ist er logisch und verständlich erklärt? Bringt dieser Ansatz einen nennenswerten Fortschritt zur effektiven Aufarbeitung des erklärten Problems? Ist der erzielte Erfolg (Precision/Recall/F1) in der Praxis ausreichend? Welche Ideen gibt es, mit möglichst geringem Aufwand weitere Verbesserungen zu erzielen?
  • Liefern die Autoren in Ihrer wissenschaftlichen Arbeit genügend Informationen, um selber die beschriebene Problemlösung programmierungstechnisch umzusetzen? Legen die Autoren Ihre Testdaten und/oder den Programmcode offen, zum Herunterladen oder auf Anfrage, um selbst auszuprobieren, die vorgelegten Ergebnisse und angepriesen Erfolge nachzuvollziehen, bzw. ähnliche oder bessere Ergebnisse mit Hilfe alternativer Methodik zu erzielen? Sehe ich einen persönlichen Nutzen, solchen Aufwand zu betreiben, um intellektuellen oder kommerziellen Gewinn zu erzielen?
  • was sind die 3 Regeln der Testphase?