invisible header

Dies ist das Dokument ohne Lösungen

Klick hier, um die Musterlösungen einzublenden.

Zum European Social Survey

In den Übungen arbeiten wir mit Daten des European Social Survey (ESS). Dies ist ein internationaler Datensatz mit repräsentativen Stichproben aus mehreren europäischen Ländern. Die Befragungen des ESS werden in zweijährlichen Abständen durchgeführt. Wir arbeiten ausschliesslich mit Daten aus der Erhebung 2016. Die Hauptthemen des Datensatzes sind Einstellungen, Normen und Werte. Aufgrund dieser Schwerpunktsetzung ist er in der Soziologie besonders populär. Weitere Überblicksinformationen zum ESS finden Sie auf der Homepage: https://www.europeansocialsurvey.org/ Die Daten sind ebenfalls auf der Homepage des ESS frei erhältlich.

Zur Vorbereitung

ESS8-Datensatz einlesen:

# Working directory setzen (z.B. "C:/daten")
setwd("mein_laufwerk/mein_datenverzeichnis")
# Daten einlesen
library(haven)
ess8 <- read_dta("ESS8e02_2.dta")

Ein neues Übungsskript erstellen:

# Statistik 2: R Tutorat
# Übungsskript zur Regression mit kategorialen Variablen
# Datum: XXX
# AutorIn: XXX

Aktiviere die Packages aus dem tidyverse, sowie zusätzlich table1, stargazer, summarytools, labelled und visreg:

# install.packages("dplyr")
library(tidyverse)
# install.packages("table1")
library(table1)
# install.packages("stargazer")
library(stargazer)
# install.packages("visreg")
library(visreg)
#install.packages("summarytools")
library(summarytools)
#install.packages("labelled")
library(labelled)

 

I. Datenaufbereitung & Inspektion

1. Wir analysieren den Zusammenhang zwischen dem Zivilstand und der Lebenszufriedenheit. Gibt es einen kausalen Einfluss des Zivilstandes auf die Lebenszufriedenheit? Formuliere eine Hypothese dazu und begründe diese in 2 Sätzen.

 

2. Weshalb ist es sinnvoll, das Alter im Kontext des empirischen Tests der Hypothese als Störmerkmal zu betrachten?

 

3. Datenmanagement: Erstelle einen neuen Teildatensatz des ESS, in dem nur die Variablen idno, maritalb, stflife, agea enthalten sind. Wie gross ist dieser neue Datensatz?

 

4. Inspiziere die ausgewählten Variablen. Welcher Variablenklasse gehört maritalb an? Und: Sind Rekodierungen dieser Variable notwendig oder sinnvoll?

 

5. Rekodierungen kategorialer Variablen gehen meistens leichter von der Hand, wenn sie vor der Faktorisierung durchgeführt werden. Fasse daher nun die Ausprägungen 1 und 2 sowie die Ausprägungen 3 und 4 der Variable “maritalb” in jeweils einer Kategorie zusammen und definieren die Ausprägung 5 (´Widowed´) als Missing.

Tipp: Hier - wie bei nahezu jeder Rekodierung - ist es hilfreich…

  1. die Rekodierung in einer neuen Variable vorzunehmen, damit Ziel- und Bedingungsvariable nicht identisch sind.
  2. direkt Kategoriennamen statt numerischer Codes zu vergeben, zumindest wenn es sich um kategoriale Variablen handelt.
  3. aufgrund der Unwägbarkeiten von R nach jedem Rekodierungsschritt die Datenmatrix zu inspizieren.

 

6. Bereite die 3 Variablen analysefähig auf. Achte darauf, dass…

 

7. Nutze table1() um eine Tabelle mit der Stichprobenstatistik zu erstellen. Harmonisiere anschliessend die Stichprobe durch Ausschluss aller Beobachtungen mit fehlenden Werten in einer der Analysevariablen.

 

8. Führe eine bivariate Testregression mit Familienstand als UV und Lebenszufriedenheit als AV durch. Was messen die Koeffizienten? Welches ist die Referenzkategorie der UV? Ist diese Default-Referenzkategorie sinnvoll? Führe ggf. eine Referenzmodifikation durch.

 

II. Regressionsanalyse

1. Wir lassen Management, Inspektion und Testanalyse hinter uns und starten in die Regressionsanalyse. Berechne zunächst eine einfache bivariate Regression. Speicher das Regressionsergebnis als Objekt ab.

 

2. Integriere nun das Kontrollmerkmal Alter in die Analyse, Speichere auch dieses Ergebnis als Objekt.

 

3. Mache dir die Funktionalität des stargazer()-Befehls zu Nutze und setze eine publikationswürdige Tabelle auf, welche beide Regressionsergebnisse darstellt.

 

4. Welche Schlüsse lassen die Ergebnisse der Regressionsanalyse auf die Hypothese (H1) zu?

 

5. Interpretiere die Konstanten der beiden Analysen.

 

6. Bei Konstanthaltung des Einkommens verdoppelt sich der Mittelwertunterschied zwischen Verheirateten und Singles. Dies zeigt der Vergleich der Koeffizienten von Modell 1 und Modell 2. Deute diese Veränderung.

 

7. Stelle mit visreg() die bereinigten Mittelwertunterschiede graphisch dar

 

logo.knit

Conforti, E., Siefart, F., De Min, N., Dürr, R., Hofer, L., Rauh, S., Senn, S., Strassmann Rocha, D., Giesselmann, M. (2023): “Regressionsanalysen mit R”