Aufgabe 1: Fragen zu Nguyen et al. (2020)
- Konkrete Fragen zum Text
- Woe werden Unstimmigkeiten zwischen Annotatoren festgehalten, wenn diese in die Analyse mit eingebunden werden (5.2 Annotation)
- Auf S.40 werden die Characteristika der Forschungsfragen in der content analysis aufgezählt, was meint der 3. Punkt ""Sie betreffen zurzeit unzugängliche Phänomene""?
- Was heißt "validity of the analytical constructs that guide their coding instruction and inform their inferences"? S.94 O-O
- Wie genau sieht das aus, wenn die Wahrscheinlichkeit der Annotatoren untereinander mit eingerechnet werden kann? Wie kommt diese Erkenntnis zustande? (5.7 Validation)
- Supervised/unsupervised
- Was ist 'supervised' und 'unsupervised' learning? Wo liegt ihr Einsatzbereich?
- Was sind die wesentlichen Unterschiede zwischen supervised und unsupervised learning und für welche allgmeinen Anwendungsfälle eignen sich die beiden Methoden?
- Wie legt man bei einem "unsupervised learning" Modell fest, was genau analysiert werden soll? Wie stellt man sicher, dass die Forschungsfrage behandelt wird?
- Operationalisierung
- Wie können wir Konzepte in messbare Werte umwandeln und wie kann diese Messung mit Nuancen umgehen?
- Kann eine Kategorisierung oder Vorverarbeitung von Textdaten bei den Analyseergebnissen helfen oder werden sie dadurch verfälscht? Wenn ja oder nein: wieso/wieso nicht?
- Welche Herausforderungen entstehen bei der Operationalisierung von komplexen sozialen Konzepten für die maschinelle Analyse?
- Welche Herausforderungen bestehen bei der Operationalisierung sozialer und kultureller Konzepte in der computergestützten Textanalyse?
- Wie wägt man unterschiedliche Vorverarbeitungsschritte untereinander ab, um sich für Schritte zu entscheiden, die zu möglichst wenig Informationsverlust führen?
- Qualitätssicherung
- Wie können wir sicherstellen, dass Konzept und die Definition von Mustern und der verwendete Datensatz up-to-date sind bzw. die Definitionen und Muster überhaupt anwendbar sind?
- Wie können Vergleich oder Umfrage hinreichend auf die Gültigkeit hinweisen während gegen ähnliche Verfahren getestet wird? (Es geht ja um grundlegend neue Verfahren und keine Weiterentwicklung alter Modelle)
- Wie wird in der rechnergestützten Textanalyse sicher gestellt, dass sie an Validität besitzt? Insbesondere bei sozialen Konzepten (z. B. Hate Speech)?
- Was ist das "ground truth" in der Computerlinguistik, welche technischen Methoden beinhaltet es und welche Probleme kann es erzeugen?
- Wie kann man sicherstellen, dass bei der Quantifizierung von sprachlichen Ausdrucksformen keine wichtigen Bedeutungsnuancen verloren gehen?
- Welche Möglichkeiten gibt es, um die Qualität der ausgewählten (Kontroll-)Daten zu erkennen, und so eine Bestätigung der eigenen gesuchten Forschungsergebnisse zu vermeiden?
- "the ground truth comes from people" Ist es überhaupt möglich zu sagen das etwas "Der Wahrheit entspricht"?
- 3. Ist ein gold standard in der Computerlinguistik realistisch zu erreichen oder nur Utopie?
- Im Text wird beschrieben, dass auch mit Daten aus nicht aussagekräftigen Kontexten (wie bspw. durch die Verzerrung der Nutzergruppe von Reddit) gearbeitet werden kann, wenn die Aussagen entsprechend eingeschränkt werden. Wie weit kann diese Einschränkung überhaupt sinnvoll sein, wenn es das Ziel der Analyse ist verwertbare Ergebnisse zu produzieren?
- In wie weit ist es möglich Arbeiten aufeinander aufzubauen, wenn durch die Nutzung von machine learning die Prozesse in denen Ergebnisse entstanden sind größtenteils nicht weiter einsehbar sind und so nicht überprüft werden können?
- Born-digital und nicht digitalisiert
- Wie kann man Born-Digital Data und manuell erhobene Daten, bei denen Antworten, durch das Bewusstsein der Befragten an einer Umfrage teilzunehmen, beeinflusst wurden, gemeinsam verwendet bzw. gewichtet werden?
- Wie problematisch ist es für die computergestützte Textanalyse, wenn Quellen nicht digitalisiert sind?
- Inwiefern wird die Sekundärnutzung von "born-digital data" sanktioniert? Liegt dies immer noch weitestgehend an der Entscheidung des Unternehmens, wie damit umgegangen wird oder gibt es strengere Richtlinien, an die sich Unternehmen halten müssen?
- Inwiefern beeinflussen ethische Überlegungen zur Sekundärnutzung von "born-digital data" die Methodenauswahl und die Formulierung von Forschungsfragen?
- Welche ethischen Fragen wirft die Nutzung von „born-digital data“ auf, und wie kann die Repräsentativität dieser Daten gesichert werden?
- Ist es im Angesicht von immer mehr durch generative AI generierte Texte weiterhin überhaupt noch sinnvoll digital-born Data zu verwenden, da es nach aktuellem Standpunkt keine Möglichkeit gibt diese herauszufiltern und diese durch ihre theoretische Menge Ergebnisse stark verzerren kann?
- 1. Sollte privacy überhaupt in Born-Digital Data beachtet werden, wenn es die Möglichkeit gibt, seinen Account privat zu schalten?
- Warum kann die Benutzung von 'born-digital data' problematisch sein?
- Daten und ihre Qualität
- Mit welchen Mitteln lassen sich Repräsentativität und Qualität von Datensätzen einschätzen?
- Welche Problematik können große Datenmengen vorweisen? Erklären Sie dieses auffallenden Probleme anhand von zwei Beispielen.
- Welche Probleme können auftrete, wenn man bestimmte Dokumente aus den Daten entfernt und welche Dokumente eignen sich besonders zum entfernen?
- Welche Methoden könnten helfen, das Risiko der Verzerrung zu minimieren, das durch Merkmale wie die Popularität eines Themas (z.B. einer TV-Show) im Modell entstehen könnte?
- Nach welchen Kriterien können Metadaten und Labels untersucht werden, um möglichen „Bias“ und eventuelle fehlende Informationen zu erkennen?
- Wie kann man die Daten, die Analysten zu analysieren versuchen am besten manipulieren? S.47
- Wie kann man bei einem großen Dataset sicher gehen, dass nur für die Forschungsfrage relevante Daten im Dataset enthalten sind bzw. dass die nicht relavanten Daten das Ergebnis nicht verzerren?
- Zu operationalisierende Konzepte / Konkrete Operationalisierungen
- Wie könnten Machtstrukturen und Hierarchien, die in Texten sichtbar werden, operationalisiert werden, um ihre Wirkung in verschiedenen Kontexten messbar zu machen?
- Wie kann man, sprachliche Konstruktionen von Identität in messbare Variablen überführen, ohne deren Komplexität und Vielschichtigkeit zu verlieren?
- Wie kann in der computergestützten Textanalyse ein komplexes sprachliches Phänomen wie Sarkasmus oder schwarzer Humor von anderen Phänomenen wie etwa Hate-Speech unterschieden werden?
- Was ist der Hintergrundgedanke der Reddit-Studie? Warum wurde sie mehrmals aufgegriffen? Was sind key features und Probleme?
- Sonstige
- Wo sind noch Problematiken vorhanden, die verhindern, dass nicht jedes computerlinguistische Problem bei ausreichender Datenbasis vollautomatisiert annotiert und analysiert wird?
- Was sind dictionaries und wie werden diese beispielsweise in der computerlinguistischen Praxis eingesetzt?
- Welche Rolle nehmen interdisziplinäre Ansätze in der computergestützten Textanalyse (von sozialen Daten) ein?
- Wenn im worst-case Datensätze zur Verbesserung der TTR abgewandelt werden (normalization, stemming, ...) und im Nachhinein festgestellt wird, dass an diesem Punkt etwas nicht korrekt umgesetzt wurde, wie wird damit umgegangen? (5.3 Data Processing)
- Wie tragen interdisziplinäre Ansätze zur Verbesserung der computergestützten Textanalyse sozialer und kultureller Daten bei?
- 2. Wie lassen sich racial/gender bias am besten vermeiden?
- Welcher Vor- und Nachteil ergibt sich aus der Lemmatisierung von Tokens?
- Welche Rolle spielt die Interdisziplinarität für das Verständnis und die Analyse kultureller Daten in der computerlinguistischen Forschung und wie könnte man zusammenarbeiten, um ein tieferes Verständnis zu fördern?
- Kommt der Impuls sich mit einer Problematik zu beschäftigen aus den eigenen Reihen, oder ist die IDH nur Mittel zum Zweck?
- Löst automatisierte Textanalyse in der Praxis mehr Probleme als sie selber schafft.
- Wie kann man Ergebnisse von Vorhersagen wirklich erklärbar und interpretierbar machen, wenn wir aufgrund der Menge nur stichprobenartig überprüfen können wie die Daten klassifiziert werden?
- Welche Kriterien müsste ein "human expert" erfüllen um gegen eine trainierte KI effizienter bzw. nachhaltig besser zu sein
- Wie kann dem Informationsverlust (der Inflexionen) bei der Tokenisierung vorgebeugt werden?