Kreuztabellen

bivariate Tabellen, contingency table, Kontingenztabelle, Kontingenztafel

Eine Kreuztabelle stellt die gemeinsamen Häufigkeitsverteilungen zweier nominal- oder ordinalskalierter, manchmal zu Überblickszwecken auch gruppierter metrischer Variablen dar.
Der genaue Inhalt einer Kreuztabelle hängt vom Zweck der Darstellung ab: im allgemeinen ist es sinnvoll, bei den Randverteilungen die absoluten Häufigkeiten anzugeben, in den Zellen der Tabelle Prozentwerte. Wird (wie meistens) zwischen einer unabhängigen (erklärenden) und einer abhängigen (zu erklärenden) Variablen unterschieden, so sollte die unabhängige Variable in den Kopf (als Spaltenvariable) und die abhängige an den Rand (als Zeilenvariable) gestellt werden.

Bildergebnis für kreuztabellen

Bestimmung der Stärke oder Schwäche eines Zusammenhangs:

  1. intervallskalierte Variablen: Pearson´schen Korrelationskoeffizienten
  2. ordinalskalierte Variablen: Spearman Korrelationskoeffizienten

Grundsätzliche Interpretationsmöglichkeit des Korrelationskoeffizienten r:

Wert von r Interpretation
0 < r <= 0,2 sehr geringe Korrelation
0,2 < r <= 0,5 geringe Korrelation
0,5 < r <= 0,7 mittlere Korrelation
0,7 < r <= 0,9 hohe Korrelation
0,9 < r <= 1 sehr hohe Korrelation

Korrelation und Regression

Korrelation

Die Korrelation misst den Zusammenhang zwischen zwei quantitativen Merkmalen. Eine Maßzahl für die Stärke der Korrelation ist der Korrelationskoeffizient.

So wird der Korrelationskoeffizient r (PEARSONsche Produkt-Moment-Korrelations-Koeffizient) zur Bestimmung der Beziehung zwischen zwei metrischen Variablen verwendet.
Er kann Werte zwischen -1 und +1 annehmen. Je größer r ist, desto stärker ist die Beziehung zwischen den Variablen.

Bivariate Verteilungen können mit einem Streudiagramm veranschaulicht werden:

Beispiel für den Zusammenhang der Variablen Einkommen und Miete --> Tafelbild

Die x-Achse repräsentiert immer die unabhängige Variable, die y-Achse die abhängige.

Fragestellungen können beispielsweise folgendermaßen lauten:
Wie sehr hängen die Ausgaben für Wohnzwecke (abhängige Variable) von dem Einkommen (unabhängige Variable) eines Privathaushaltes ab?

Aufgrund der Punktewolke kann eine Tendenz abgelesen werden, die bei linearen Beziehungen eine Gerade darstellt und auch rechnerisch als Regressionsgerade bestimmt werden kann.


Regression

Als lineare Regression bezeichnet man die vermittels einer linearen Funktion beschriebene Abhängigkeit eines quantitativen Merkmals von einem anderen quantitativen Merkmal.

Sollen nun Voraussagen getroffen werden (z.B. Ein Haushalt xy hat ein Einkommen von 4000 Euro; wie hoch darf die Miete sein, das die Wohnung für diesen Haushalt noch interessant ist?), ist der wahrscheinlichste Wert der, der auf der Regressionsgerade liegt.