Datenintegration und -Inspektion

link zum pdf

In dieser Einheit lernt ihr, wie ihr Daten in R Einlesen und Inspizieren könnt. Zunächst arbeiten wir gemeinsam mit den Daten, die im Kurs erhoben wurden. Die Daten wurden anonymisiert. Klicke hier um den Datensatz kursdata_anon herunterzuladen.
Wir starten unser Skript wie immer mit dem Header.

# Statistik 1: R Tutorat
# Übungsskript zur Datenintegration
# Datum: 12.10.2025
# AutorIn: XXX

1. Installation und Aktivierung von Packages

Die Funktionalität von R beruht auf Apps bzw. “Packages”, in denen die verschiedenen Funktionen bzw. Befehle organisiert sind. Packages müssen vor Verwendung einmalig mit dem Befehl install.packages() installiert werden. Die Aktivierung von Packages erfolgt dann vor jeder Nutzung mit dem Befehl library(). Diese zwei Schritte sind vergleichbar mit dem Herunterladen und Öffnen einer Mobile App.

Wir arbeiten im Kurs, wenn immer möglich, mit Packages aus dem tidyverse-Pool. tidyverse ist eine Sammlung von sehr nützlichen R-Packages, welche eine Gestaltungsphilosophie & Grammatik teilen und zudem auf die Bearbeitung und Analyse von Daten in Matrix-Form ausgerichtet sind. Die Kernpakete aus dem tidyverse, die wir in diesem Kurs verwenden werden, sind u.a. ggplot2, dplyr und readr. Diese enthalten Befehle, die Daten modellieren, transformieren und visualisieren können. Wir starten daher mit der Installation und Aktivierung der tidyverse-Packages. Hierfür reicht der Verweis auf tidyverse im Installations- und Aktivierungsbefehl - es müssen nicht alle Teilpackages einzeln installiert werden.

# Package installieren
install.packages("tidyverse")
# Package aktivieren 
library(tidyverse)

Alternativ könnt ihr unten rechts in der Orientierung in RStudio über den Tab “Packages”-> “Install”-> Packagename-> “Install” euer gewünschtes Package installieren und dann in der Übersicht das Package durch Häkchen aktivieren (und es wieder wegnehmen um es ggf. zu deaktivieren).

Informationen zu den Packages und spezifischen Befehlen findet ihr über die Hilfsfunktion “?…”.

# Hilfe für Package
?dplyr

## starte den http Server für die Hilfe fertig

# Hilfe für Befehl 
?summary

2. Einlesen der Daten

R kann Daten bzw. Datenmatrizen unterschiedlicher Formate einlesen, z.B. .csv (Text-Dateien), .dta (Stata-Dateien), .sav (SPSS-Dateien), .sas (SAS-Dateien) oder .xls/.xlsx (Excel-Dateien). Datensätze können über die Funktion “Import Dataset” im Environmentfenster eingelesen werden. Da unser kursdata.anon.dta Datensatz als Stata-File angelegt ist, müsst ihr “from Stata” auswählen. Danach könnt ihr zum Datensatz auf eurem Rechner navigieren, solltet anschliessend zur Sicherung die Befehlssyntax kopieren (und dann in euer Skript einsetzen) und schliesslich auf “Import” klicken.

Alternativ könnt ihr den Einleseprozess direkt aus dem Skript heraus steuern. Dabei empfehlen wir, dass ihr zuvor über den Befehl setwd() (~definiere Arbeitsverzeichnis) R mitteilt, wo auf Eurem Rechner sich die Daten befinden (damit nicht mehr der ganze Pfad, sondern nur noch der Dateiname in den Befehl eingefügt werden muss).

# Working directory setzen (z.B. "c:/Tutorat_Statistik/Daten/")
setwd("mein_laufwerk/mein_datenverzeichnis/")
# Daten einlesen
library(haven)
kursdata_anon <- read_dta("kursdata_anon.dta")

3. Dateninspektion

3.1 Visuelle Inspektion

Der Befehl View() öffnet den Datensatz in einem separaten Fenster. Alternativ könnte im Environment der Datensatz direkt angeklickt werden.

View(kursdata_anon)

Wir werfen einen prüfenden Blick auf die Datenmatrix:

Sind die Daten sauber in der Matrix organisiert?
- Befinden sich die Merkmale in den Spalten?
- Befinden sich die Merkmalsträger in den Zeilen?
- Befinden sich Werte in den Zellen?
Sind fehlende Werte als “NA” (not available) kodiert?
- R erkennt fehlende Werte nur als solche, wenn sie als “NA” kodiert wurden.
- Wenn Zellen leer sind, oder mit einem anderen Symbol belegt wurden (z.B. -99), müssen diese Variablen recodiert werden. Ansonsten laufen wir Gefahr, diese Zahlenwerte unbeabsichtigt z.B. bei der Berechnung von Mittelwerten zu berücksichtigen.

3.2 Systematische Inspektion

1. Ist die Anzahl an Fällen und Variablen plausibel?
Der dim() Befehl zeigt die Anzahl an Beobachtungen und Merkmalen.

dim(kursdata_anon)

## [1] 69 28

Der glimpse() Befehl listet alle im Datensatz enthaltenen Merkmale und Beobachtungen mit ihren Ausprägungen auf. Zusätzlich werden die Variablenklassen angezeigt.

glimpse(kursdata_anon)

## Rows: 69
## Columns: 28
## $ id              <dbl> 33, 54, 23, 3, 2, 32, 15, 57, 39, 45, 34, 29, 44, 49, …
## $ dispcode        <dbl> 22, 22, 22, 31, 31, 31, 31, 31, 31, 31, 31, 31, 31, 31…
## $ lastpage        <dbl> 160425, 160425, 160431, 160437, 160437, 160437, 160437…
## $ lezufr          <dbl> 43, 75, 80, 59, 75, 90, -99, 30, 55, 90, 80, 100, 60, …
## $ alter           <dbl> 21, 19, 20, 21, 19, 23, 19, 21, 27, 23, 23, 26, 23, 22…
## $ geschlecht      <chr> "weiblich", "weiblich", "weiblich", "weiblich", "weibl…
## $ qm              <dbl> 77, 73, 74, 34, 73, 18, 60, 76, 66, 29, 35, 26, 26, 25…
## $ rauchen         <dbl+lbl> NA, NA, NA,  3,  2,  1,  3,  2,  3,  2,  3,  2,  1…
## $ rauchen_aktuell <dbl+lbl> -99,  NA,  NA,   0,   0,   1,   0,   0,   0,   0, …
## $ konsum          <dbl+lbl> NA, NA, NA,  1,  2,  1,  2,  1,  2,  2,  2,  2,  1…
## $ leftright       <dbl> NA, NA, NA, 20, 25, 38, 0, 18, 30, 10, 40, 30, 19, 15,…
## $ intgender       <dbl+lbl> NA, NA,  1,  1,  2,  1,  1,  1,  1,  1,  2,  2,  1…
## $ intmig          <dbl+lbl> NA, NA,  1,  1,  1,  1,  1,  1,  2,  1,  2,  1,  1…
## $ llezufr         <dbl> 28, 70, 70, 15, 80, 78, 90, 70, 45, 70, 70, 49, 75, 96…
## $ trust           <dbl> 4, 3, 2, 3, 3, 4, 4, 3, 2, 2, 4, 2, 3, 4, 2, 5, 4, 4, …
## $ eltern          <dbl+lbl> NA, NA,  2,  3,  1,  2,  2,  2,  2,  1,  3,  3,  3…
## $ mathe           <dbl> NA, NA, 5.8, 3.2, 6.0, 3.7, 5.8, 4.5, 4.4, 3.0, 4.2, 4…
## $ deutsch         <dbl> NA, NA, 5.3, 5.9, 6.0, 5.0, 6.0, 5.3, 5.3, 5.7, 5.1, 4…
## $ fach            <dbl+lbl> NA, NA,  2,  1,  1,  1,  1,  1,  1,  1,  2,  1,  1…
## $ semester        <dbl> NA, NA, 4, 4, 3, 2, 2, 2, 4, 2, 3, 4, 3, 2, 2, 2, 1, 3…
## $ statfreiw       <dbl+lbl> NA, NA, NA,  2,  1,  1,  1,  1,  2,  3,  1,  3,  2…
## $ sidejob         <dbl+lbl> NA, NA, NA,  2,  2,  2,  2,  2,  2,  2,  1,  2,  2…
## $ buecher         <dbl> 64, 100, 63, 23, 6, 2, 86, 61, 2, 50, 3, 20, 50, 20, 8…
## $ konsum2         <dbl+lbl> 1, 1, 1, 1, 2, 1, 2, 1, 2, 2, 2, 2, 1, 2, 2, 2, 2,…
## $ links           <dbl+lbl> 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1,…
## $ akback          <dbl+lbl> NA, NA,  1,  0,  1,  1,  1,  1,  1,  1,  0,  0,  0…
## $ akback_str      <dbl+lbl> NA, NA,  0,  0,  1,  0,  0,  0,  0,  1,  0,  0,  0…
## $ trustkat        <dbl+lbl> 3, 2, 1, 2, 2, 3, 3, 2, 1, 1, 3, 1, 2, 3, 1, 3, 3,…

2. Variablenübersicht: Sind alle relevanten Variablen enthalten?
Der look_for() Befehl aus dem labelled Package gibt euch alle vorhandenen Metainformationen zum Datensatz. Bei einem gut beschriebenen (bzw. “gelabellten”) Datensatz kann der look_for-Output daher (fast) die Datendokumentation bzw. ein offizielles Codebook ersetzen. Konkret werden alle Merkmale aufgelistet und zusätzlich deren Variablen- und Wertelables (wenn vorhanden) angezeigt. Ihr könnt den Output von look_for direkt in ein neues Objekt schreiben, welches dann automatisch in übersichtlicher Tabellenform organisiert ist. Wir empfehlen, diese im Environment (rechts oben) als Tab zu öffnen und über den gesamten Prozess des Datenmanagements & -analyse im Hintergrund geöffnet zu halten.

#install.packages("labelled")
library(labelled)
varlist <- look_for(kursdata_anon)

Der attributes() Befehl ist vor allem hilfreich, da er durch das $ Zeichen auf ein bestimmtes Merkmal zugreifen kann und dessen Labels zeigt.

attributes(kursdata_anon)

## $class
## [1] "tbl_df"     "tbl"        "data.frame"
## 
## $row.names
##  [1]  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
## [26] 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
## [51] 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69
## 
## $names
##  [1] "id"              "dispcode"        "lastpage"        "lezufr"         
##  [5] "alter"           "geschlecht"      "qm"              "rauchen"        
##  [9] "rauchen_aktuell" "konsum"          "leftright"       "intgender"      
## [13] "intmig"          "llezufr"         "trust"           "eltern"         
## [17] "mathe"           "deutsch"         "fach"            "semester"       
## [21] "statfreiw"       "sidejob"         "buecher"         "konsum2"        
## [25] "links"           "akback"          "akback_str"      "trustkat"

attributes(kursdata_anon$lezufr)

## $label
## [1] "Lebenszufriedenheit derzeit"
## 
## $format.stata
## [1] "%8.0g"

3. Übersichtstatistiken (Summary Statistics): Plausible Werte?
Der summary() Befehl zeigt das Minimum und Maximum der Ausprägungen, die erste und dritte Quartilsgrenze, den Median und das arithmetische Mittel. Mit dem Dollarzeichen kann im Befehl wiederum eine spezifische Variable angesteuert werden (daten$variable). So könnt ihr leicht und übersichtlich erkennen, ob (1) die für Euch relevanten Variablen korrekte und sinnvolle Werte enthalten, (2) alle fehlenden Werte als solche erkennbar und kodiert sind und (3) die grundlegenden Verteilungseigenschaften mit Euren Erwartungen übereinstimmen.

summary(kursdata_anon)

##        id            dispcode        lastpage          lezufr      
##  Min.   :  2.00   Min.   :22.00   Min.   :160425   Min.   :-99.00  
##  1st Qu.: 20.00   1st Qu.:31.00   1st Qu.:160437   1st Qu.: 60.00  
##  Median : 38.00   Median :31.00   Median :160437   Median : 77.00  
##  Mean   : 41.09   Mean   :29.94   Mean   :160436   Mean   : 70.65  
##  3rd Qu.: 56.00   3rd Qu.:31.00   3rd Qu.:160437   3rd Qu.: 86.00  
##  Max.   :104.00   Max.   :32.00   Max.   :160437   Max.   :100.00  
##                                                                    
##      alter        geschlecht              qm           rauchen   
##  Min.   :19.00   Length:69          Min.   :13.00   Min.   :1.0  
##  1st Qu.:21.00   Class :character   1st Qu.:25.00   1st Qu.:2.0  
##  Median :22.50   Mode  :character   Median :35.00   Median :2.0  
##  Mean   :22.66                      Mean   :43.01   Mean   :2.2  
##  3rd Qu.:24.00                      3rd Qu.:66.00   3rd Qu.:3.0  
##  Max.   :27.00                      Max.   :80.00   Max.   :3.0  
##  NA's   :1                                          NA's   :9    
##  rauchen_aktuell       konsum        leftright        intgender    
##  Min.   :-99.000   Min.   :1.000   Min.   :  0.00   Min.   :1.000  
##  1st Qu.:  0.000   1st Qu.:1.000   1st Qu.: 15.00   1st Qu.:1.000  
##  Median :  0.000   Median :2.000   Median : 25.00   Median :1.000  
##  Mean   : -1.393   Mean   :1.704   Mean   : 29.95   Mean   :1.311  
##  3rd Qu.:  0.000   3rd Qu.:2.000   3rd Qu.: 40.00   3rd Qu.:2.000  
##  Max.   :  1.000   Max.   :2.000   Max.   :100.00   Max.   :3.000  
##  NA's   :8         NA's   :15      NA's   :9        NA's   :8      
##      intmig         llezufr           trust           eltern     
##  Min.   :1.000   Min.   : 15.00   Min.   :1.000   Min.   :1.000  
##  1st Qu.:1.000   1st Qu.: 50.00   1st Qu.:3.000   1st Qu.:1.000  
##  Median :1.000   Median : 70.00   Median :3.000   Median :2.000  
##  Mean   :1.262   Mean   : 63.64   Mean   :3.478   Mean   :1.938  
##  3rd Qu.:1.000   3rd Qu.: 78.00   3rd Qu.:4.000   3rd Qu.:3.000  
##  Max.   :3.000   Max.   :100.00   Max.   :5.000   Max.   :3.000  
##  NA's   :8                                        NA's   :4      
##      mathe          deutsch         fach          semester       statfreiw   
##  Min.   :3.000   Min.   :4.0   Min.   :1.000   Min.   :1.000   Min.   :1.00  
##  1st Qu.:3.800   1st Qu.:4.8   1st Qu.:1.000   1st Qu.:2.000   1st Qu.:1.00  
##  Median :4.300   Median :5.1   Median :1.000   Median :3.000   Median :1.00  
##  Mean   :4.374   Mean   :5.1   Mean   :1.359   Mean   :2.968   Mean   :1.75  
##  3rd Qu.:4.900   3rd Qu.:5.5   3rd Qu.:2.000   3rd Qu.:4.000   3rd Qu.:3.00  
##  Max.   :6.000   Max.   :6.0   Max.   :2.000   Max.   :5.000   Max.   :3.00  
##  NA's   :8       NA's   :8     NA's   :5       NA's   :6       NA's   :9     
##     sidejob        buecher          konsum2          links       
##  Min.   :1.00   Min.   :  0.00   Min.   :1.000   Min.   :0.0000  
##  1st Qu.:2.00   1st Qu.:  4.00   1st Qu.:1.000   1st Qu.:0.0000  
##  Median :2.00   Median : 10.00   Median :2.000   Median :0.0000  
##  Mean   :1.85   Mean   : 24.13   Mean   :1.551   Mean   :0.4928  
##  3rd Qu.:2.00   3rd Qu.: 40.00   3rd Qu.:2.000   3rd Qu.:1.0000  
##  Max.   :2.00   Max.   :100.00   Max.   :2.000   Max.   :1.0000  
##  NA's   :9                                                       
##      akback         akback_str        trustkat    
##  Min.   :0.0000   Min.   :0.0000   Min.   :1.000  
##  1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:2.000  
##  Median :1.0000   Median :0.0000   Median :2.000  
##  Mean   :0.6769   Mean   :0.3846   Mean   :2.333  
##  3rd Qu.:1.0000   3rd Qu.:1.0000   3rd Qu.:3.000  
##  Max.   :1.0000   Max.   :1.0000   Max.   :3.000  
##  NA's   :4        NA's   :4

summary(kursdata_anon$alter)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   19.00   21.00   22.50   22.66   24.00   27.00       1

summary(kursdata_anon$lezufr)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -99.00   60.00   77.00   70.65   86.00  100.00

summary(kursdata_anon$qm)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   13.00   25.00   35.00   43.01   66.00   80.00

Mit dem table() Befehl lassen sich einfache Häufigkeitstabellen erstellen - sinnvoll für die Inspektion kategorialer Variablen.

library(dplyr)
table(kursdata_anon$rauchen)

## 
##  1  2  3 
## 14 20 26

table(kursdata_anon$semester)

## 
##  1  2  3  4  5 
##  7 19 13 17  7

4. Sind die Klassen der relevanten Variablen stimmig definiert?
Der class() Befehl zeigt uns die Klasse bzw. den Typ einer Variablen an (bei “double” - und ebenso “integer” - handelt es sich um Untertypen der Klasse “numeric”).

class(kursdata_anon$geschlecht)

## [1] "character"

class(kursdata_anon$leftright)

## [1] "numeric"

class(kursdata_anon$rauchen)

## [1] "haven_labelled" "vctrs_vctr"     "double"

Bei Bedarf können wir die Variablenklasse auch ändern. Dies ist häufig bei kategorialen Variablen sinnvoll, falls diese im numerischen Format oder als character angelegt sind. factor und as.factor sind Basisvarianten der Faktorisierung, wobei erstes mit Zusatzargumenten (z.B. zur Rekodierung oder Umsortierung) angereichert werden kann, zweitesdagegen nicht. as_factor nutzt ein spezielles Feature aus dem oben aktivierten dplyr-Package und überschreibt die Wertelabel mit Kategorienwerten. Der Ergebnisoutput wird so oft besser lesbar:

table (kursdata_anon$rauchen)

## 
##  1  2  3 
## 14 20 26

kursdata_anon$rauchen_factor_v1 <- factor(kursdata_anon$rauchen)
table (kursdata_anon$rauchen_factor_v1)

## 
##  1  2  3 
## 14 20 26

kursdata_anon$rauchen_factor_v2 <- as.factor(kursdata_anon$rauchen)
table (kursdata_anon$rauchen_factor_v2)

## 
##  1  2  3 
## 14 20 26

kursdata_anon$rauchen_factor_v3 <- as_factor(kursdata_anon$rauchen)
table (kursdata_anon$rauchen_factor_v3)

## 
##                ja nein, aber früher    nein, noch nie 
##                14                20                26

Folgende Texte empfehlen wir euch zur Lektüre und Vertiefung:

BCP Kapitel 2: Beckerman, A.P., Childs, D.Z., Petchey, O.L. (2017): Getting Started with R. Oxford: University Press.

GW Kapitel 9 & 11: Wickham, Hadley und Garrett Grolemund (2018): R for Data Science. Import, Tidy, Transform, Visualize, and Model Data.

SVS Kapitel 1.3: Marco R. Steenbergen, Kushtrim Veseli, Benjamin Schlegel (2015): Working with Descriptive and Inferential Statistics in R. Script.

Hier gehts weiter zur Übung I

logo.knit

Conforti, E., Siefart, F., De Min, N., Dürr, R., Moos, M., Senn, S., Strassmann-Rocha, D., Giesselmann, M. (2022): “R für das Soziologiestudium an der UZH”