Datenbasis

Grundgesamtheit – Population
Menge aller möglichen Objekte, über die eine Aussage gemacht werden soll.

Beispiel Wählerbefragung: alle wahlberechtigten Personen.
Element der Grundgesamtheit: jede Wählerin, jeder Wähler.

Stichprobe – Sample
Auswahl von Elementen der Grundgesamtheit. Also begrenzte Teilmenge der Grundgesamtheit.
Beispiel Wählerbefragung: Gesamtheit derjenigen, die am Wahllokal nach ihrem Votum gefragt wurden.

Erhebungseinheit: Elemente der Population, die in die Stichprobe aufgenommen wurden. == Untersuchungseinheit oder Merkmalsträger.

Stichprobenumfang: Anzahl der ausgewählten Elemente.

Stichprobenverfahren: Vorschrift, die festlegt, auf welche Art und Weise Elemente aus der Grundgesamtheit ausgewählt werden. Grundsätzlich werden drei verschiedene unterschieden:

  1. Wahrscheinlichkeitsauswahl (repräsentative(?) Zufallsstichproben)
    Bsp.: Listen-/Karteiauswahl –> Einwohnermeldeamt und Zufallszahlen zur Elementauswahl
  2. bewusste Auswahl (repräsentative(?) Quotenstichproben)
    Quotenaufstellung nach Parametern der Population: z.B.: 56% Frauen und 44% Männer –> verkleinertes Abbild der Grundgesamtheit
  3. willkürliche Auswahl (willkürliche Stichproben)
    psychologische Experimente –> freiwillige Kandidaten

Phasen der Datenauswertung

1. Erfasste Informationen extrahieren:

  1. Fragebögen nummerieren, jeder Fragebogen ist ein Fall
    → Fallnummer
  2. Fragen nummerieren, jede Frage wird zu einer Variablen
    → Variablennummer
  3. Antwortkategorien codieren
    → Kodeziffer
  4. fehlende Werte (missing values) codieren

2. Erfasste Informationen überprüfen:

  • wild code → Werte außerhalb der vorgesehenen Kodeziffern
  • outlier → unplausibler Wert, Ausreißer
    Bsp.: Auto-Kilometerleistung im letzten Jahr = 500000km (> 1340 km / Tag!!!)
  • inkonsistente Werte Bsp.: Beruf setzt Hochschulabschluss voraus, Angaben zur Schulbildung differiert

Meist Übertragungsfehler, die sich mit einer Software schnell finden lassen, und korrigiert werden können:

  1. Vergleich mit Originalfragebogen über Fallnummer
  2. Korrektur oder missing value

3. Informationsaufbereitung (Variablenrecodierung und Variablentransformation)

  • Recodierung = neue Antwortkategorien
    Z. B. Antwortkategorien zusammenfassen, die differenzierter erfasst wurden, als zur Datenanalyse nötig
    → Einkommen in Euro → Einkommensklassen (bessere graph. Darstellung)
    → SPSS Anweisung: RECODE
  • Transformation = neue Variablen
    Durch Rechenoperationen werden aus den vorhandenen Variablen neue gebildet
    → Todesjahr – Geburtsjahr = Lebensdauer
    → SPSS Anweisung: COMPUTE

Kodierung

Ein Code oder Kode ist ein Regelwerk, in dem festgehalten ist wie jedem Zeichen/Zeichenfolge eines ersten Zeichenvorrats eindeutig ein Zeichen oder eine Zeichenfolge aus einem anderen Zeichenvorrat zuordnet werden soll.

Kodes müssen folgende Eigenschaften haben:

  1. Eindeutigkeit
    → nicht Worte durch Zahlen ersetzen, sondern vage verbale Ausdrücke in präzisen Kategorien abbilden.
    → eine Variable bildet ein Konzept ab und jede Variablenauspräging ist eine Möglichkeiten der Realisierung dieses Konzepts, die alle anderen Möglichkeiten ausschliesst.
  2. Systematik
    → jede rechte Stelle eines mehrstelligen Kodes ist eine konzeptuelle Untergliederung der links davon stehenden.
  3. Vollständigkeit
  4. Effizienz
  5. Rückverfolgbarkeit

Beispiel: Sonntagsfrage enthält u.a. eine Variable fragnr, deren Ausprägung z.B. W-005 oder O-012 lauten könnte.

Der Code ist folgendermaßen zu interpretieren:

W = alte Bundesländer
O = neue Bundesländer
005 = 5. Befragung
012 = 12. Befragung

Fehlende Werte (missing values) codieren:

Aus den verschiedensten Gründen können Datensätze unvollständig sein – d.h. es können Werte fehlen.

Von SPSS wird automatisch der Code „system missing“ gesetzt, wenn für eine nummerische Variable kein Datenwert eingetragen wird. Kenntlich gemacht wird dies im Daten-Editor auf dem Blatt Datenansicht durch ein Komma in der betreffenden Zelle. Daneben gibt es benutzerdefinierte fehlende Werte, die im Dialogfenster ‚Fehlende Werte‘ definiert werden können. Datenwerte, die als benutzerdefinierte fehlende Werte angegeben sind, werden zur Sonderbehandlung gekennzeichnet und von den meisten Berechnungen ausgeschlossen. Bei String-Variablen ist per Voreinstellung ein fehlender Wert eine leere Zelle.

Wichtig: Die Kodierung für einen fehlenden Wert darf unter keinen Umständen eine Kodeziffer einer Antwortkategorie sein!

  • Grund irrelevant: 9 / 99
  • Grund miterfassen:
  • weiß nicht: (9)7
  • trifft nicht zu: (9)8
  • Antwort verweigert: (9)9

SPSS Kommandosprache

SPSS (Windowversion) = SPSS Kommandosprache + Window-Interface

Jede Dialogboxen und jede Aktion innerhalb dieser, ist eine graphische Umsetzung der SPSS Kommandosprache. So muss diese nicht mehr zwingend erlernt werden und das Programm kann intuitiv bedient werden. Der Preis dafür ist jedoch, dass zu einer Zeit nur eine Aktion angestoßen werden kann, eine Kombination ist nicht möglich. Oft ist es sehr viel effizienter komplexe Befehle als Kommando einzugeben.

Ein intensives Arbeiten mit SPSS kann außerdem das Editieren dieser Befehle erfordern. Im Syntax Editor können die Befehle direkt eingegeben werden. Eine Manipulation der Befehle, die durch die Verwendung von Dialogboxen aufgerufen werden, ist ebenfalls möglich (Button paste).

SPSS Syntax-Regeln (4 Kategorien):

1. Befehl

→ Kommando zur Steuerung von SPSS

2. Unterbefehl

→ Zusatzanweisung zu einem Befehl

3. Spezifikation

→ Zusatzangaben, die von einem Befehl benötigt werden

4. Schlüsselwort

→ SPSS vordefiniertes Wort, das in den Spezifikationen eingesetzt wird

Grundregeln:

  • Jeder Befehl beginnt am Anfang einer neuen Zeile und endet mit einem Punkt.
  • Unterbefehle werden durch Schrägstriche (/) voneinander getrennt.
  • eine Befehlszeile darf nicht mehr als 80 Zeichen beinhalten