Kreuztabellen
bivariate Tabellen, contingency table, Kontingenztabelle, Kontingenztafel
Eine Kreuztabelle stellt die gemeinsamen Häufigkeitsverteilungen zweier nominal- oder ordinalskalierter, manchmal zu Überblickszwecken auch gruppierter metrischer Variablen dar.
Der genaue Inhalt einer Kreuztabelle hängt vom Zweck der Darstellung ab: im allgemeinen ist es sinnvoll, bei den Randverteilungen die absoluten Häufigkeiten anzugeben, in den Zellen der Tabelle Prozentwerte. Wird (wie meistens) zwischen einer unabhängigen (erklärenden) und einer abhängigen (zu erklärenden) Variablen unterschieden, so sollte die unabhängige Variable in den Kopf (als Spaltenvariable) und die abhängige an den Rand (als Zeilenvariable) gestellt werden.
Bestimmung der Stärke oder Schwäche eines Zusammenhangs:
- intervallskalierte Variablen: Pearson´schen Korrelationskoeffizienten
- ordinalskalierte Variablen: Spearman Korrelationskoeffizienten
Grundsätzliche Interpretationsmöglichkeit des Korrelationskoeffizienten r:
Wert von r | Interpretation | |
0 < r <= 0,2 | sehr geringe Korrelation | |
0,2 < r <= 0,5 | geringe Korrelation | |
0,5 < r <= 0,7 | mittlere Korrelation | |
0,7 < r <= 0,9 | hohe Korrelation | |
0,9 < r <= 1 | sehr hohe Korrelation |
Korrelation und Regression
Korrelation
Die Korrelation misst den Zusammenhang zwischen zwei quantitativen Merkmalen. Eine Maßzahl für die Stärke der Korrelation ist der Korrelationskoeffizient.
So wird der Korrelationskoeffizient r (PEARSONsche Produkt-Moment-Korrelations-Koeffizient) zur Bestimmung der Beziehung zwischen zwei metrischen Variablen verwendet.
Er kann Werte zwischen -1 und +1 annehmen. Je größer r ist, desto stärker ist die Beziehung zwischen den Variablen.
Bivariate Verteilungen können mit einem Streudiagramm veranschaulicht werden:
Beispiel für den Zusammenhang der Variablen Einkommen und Miete --> Tafelbild
Die x-Achse repräsentiert immer die unabhängige Variable, die y-Achse die abhängige.
Fragestellungen können beispielsweise folgendermaßen lauten:
Wie sehr hängen die Ausgaben für Wohnzwecke (abhängige Variable) von dem Einkommen (unabhängige Variable) eines Privathaushaltes ab?
Aufgrund der Punktewolke kann eine Tendenz abgelesen werden, die bei linearen Beziehungen eine Gerade darstellt und auch rechnerisch als Regressionsgerade bestimmt werden kann.
Regression
Als lineare Regression bezeichnet man die vermittels einer linearen Funktion beschriebene Abhängigkeit eines quantitativen Merkmals von einem anderen quantitativen Merkmal.
Sollen nun Voraussagen getroffen werden (z.B. Ein Haushalt xy hat ein Einkommen von 4000 Euro; wie hoch darf die Miete sein, das die Wohnung für diesen Haushalt noch interessant ist?), ist der wahrscheinlichste Wert der, der auf der Regressionsgerade liegt.