Kako analizirati podatke raziskav Pew Research Center v R

Pew Research Center javno objavi svoje raziskave v obliki datotek IBM SPSS s pripono .sav. Če pa nimate dostopa do SPSS, so na voljo brezplačna odprtokodna orodja za analizo in uporabo podatkov.

Tudi pri osnovnem dostopu do SPSS je za delo s podatki raziskovanja potrebna dodatna orodja ali tehnike za pravilno ravnanje z utežmi ali drugimi zapletenimi zasnovnimi značilnostmi ankete. Analize, ki teh oblikovnih lastnosti ne upoštevajo, lahko prinesejo pristranske rezultate in pretirano natančnost ocen ali statističnih testov. Na srečo so orodja za pravilno izvedbo tovrstnih analiz prosto dostopna s statistično programsko platformo R.

Ta objava ponuja hitro vadnico o tem, kako pravilno analizirati podatke raziskav centra z uporabo R. To je prva v občasnem nizu objav, katerih namen je pomagati analizirati naloge podatkov iz anket z uporabo R.

Kaj je R?

R je jezik in okolje za statistično računalništvo in grafiko. R je na voljo kot brezplačna programska oprema v obliki izvorne kode pod pogoji splošne javne licence GNU Foundation Free Software Foundation. Zbira in deluje na najrazličnejših platformah UNIX in podobnih sistemih (vključno s FreeBSD in Linuxom), Windows in MacOS. Če želite prebrati več o R-ju in kako ga prenesti, obiščite r-project.org.

V tej objavi bo analiza temeljila na:
 - R
 - R Studio (odprtokodni urejevalnik kod in vmesnik, ki deluje v jeziku R)
 - Naslednji prosto dostopni paketi R:
· Tuj
· Anketa
· Pletenec

Za namestitev teh paketov uporabite naslednjo kodo:

install.packages (c ("tuji", "anketa", "pletenec"))

Dostop do podatkov raziskovalnega središča Pew

Številni nabori raziskav raziskovalnega središča Pew so na voljo za prenos z dostopom do zavihka »Nabor podatkov« na spletnem mestu centra. Če želite več informacij o vrsti podatkov, ki jih Center objavlja, in o dostopu do njega, preberite to objavo na spletnem dnevniku.

Skoraj vsi podatki, ki so na voljo za prenos iz centra, so shranjeni kot datoteke SPSS .sav. Datoteke SPSS pogosto vsebujejo tako vrednosti kot oznake vrednosti - na primer 1 za republikanca, 2 za demokrate.

V tej vadnici bodo uporabljeni podatki iz politične raziskave Centra iz aprila 2017, ki se je osredotočila na teme, vključno z ameriškimi pogledi na nacionalne institucije in njihovo zaupanje v vlado.

Nalaganje anketnih podatkov v R

Prvi korak k analizi podatkov anket v R je branje podatkovne datoteke v vašem R okolju. Ker so podatki shranjeni kot .sav datoteka, boste morali uporabiti funkcijo read.spss () iz R-jevega "tujega" paketa. Spodaj najprej naložimo knjižnice paketov in nato podatke preberemo v data.frame, ki mu bomo rekli "apr17". Read.spss () privzeto ohrani vse oznake spremenljivk in vrednosti za podatke ankete, vendar samodejno ne ustvari data.frame, zato moramo izrecno nastaviti parameter. Tu uporabljamo to.data.frame = TRUE za nalaganje datoteke v naše R okolje kot podatkovni okvir.

 knjižnica (tuja)
 knjižnica (anketa)
 knjižnica (pletenec)
 Apr17 <- read.spss ("Apr17 public.sav", #file pot do nabora podatkov
                    to.data.frame = TRUE) #sets objekt v podatkovnem okviru
## ponovno kodiranje iz CP1252

Če zaženete to kodo, boste dobili opozorilo za spremenljivke, ki nimajo oznak za vsako kategorijo - na primer starost. V teh primerih read.spss () bo te oznake privzeto dodala. Če iščete drugačno vedenje, preverite možnost add.undeclared.levels ().
 
 Večina spremenljivk v zbirkah podatkov Centra - na primer spol, rasa in podobno - je kategoričnih. V R se te vrste spremenljivk imenujejo faktorji. S funkcijo tabela () si lahko ogledate, kako je spremenjena faktorska spremenljivka, kot sledi:

miza (zabava Apr17 $)
 ##
 ## republikanski demokrat
 ## 375 466
 ## Neodvisno Brez nastavitev (VOL.)
 ## 616 28
 ## Druga stranka (VOL.) Ne vem / zavrača (VOL.)
 ## 9 7

Postavitev anketne zasnove

Naslednji korak pri analizi podatkov ankete je uporaba funkcije svydesign iz paketa "anketa" za ustvarjanje predmeta zasnove ankete. Ta korak je pomemben, ker izrecno navaja zasnovo ankete, da pravilno uporablja uteži ankete in druge sestavne dele za oceno. Funkcija svydesign sprejema veliko različnih oblik zapletenih modelov ankete. Če želite prebrati več podrobnosti o funkciji, kliknite tukaj.

Za večino raziskav raziskovalnega središča Pew, vključno s podatkovnimi podatki iz aprila 2017, uporabljenimi v tej vadnici, morajo uporabniki ob prijavi zasnove ankete navesti tri elemente:
 
 1. Identifikatorji grozda z ids =. Skoraj vse ameriške raziskave Centra nimajo identifikatorjev grozdov. Uporabite formulo ~ 0, da označite, da ta raziskava nima nobenih grozdov.
 2. Niz anketnih podatkov s podatki =
 3. Teža ankete z utežmi =

Apr17_design = svydesign (
         ids = ~ 0, #formula pomeni, da ni nobenih grozdov
         podatki = apr17, #this je nabor podatkov
         teža = ~ teža) # to je spremenljivka 'teža'
                            # iz podatkovnega nabora Apr17

Ocenjevanje frekvenc z utežmi

Po razglasitvi zasnove ankete lahko s pomočjo funkcije svymean () dobite utežene ocene. Bistveni argumenti svymean () so formula, ki identificira spremenljivko, ki vas zanima, in objekt zasnove ankete.

Funkcijo svymean () lahko uporabimo za izračun tehtanih sredstev, odstopanj, razmerij, seštevkov in več. Vrnjena statistika je odvisna od razreda spremenljivke, za katero je pozvana. Na primer, če želite oceniti odobritev delovnega mesta predsednika Donalda Trumpa (q1 - faktorska spremenljivka), uporabite naslednjo kodo:

svymean (~ q1, # spremenljiv za oceno
         design = apr17_design #survey design design
                                # ustvarjeno s svydesign ()
         )
 ## pomeni SE
 ## q1Posveti 0,394008 0,0144
 ## q1Odobri 0,542368 0,0147
 ## q1Ne vem / zavrni (VOL.) 0,063624 0,0078

Če želite pregledati Trumpovo odobritev zaposlitve med različnimi podskupinami, lahko uporabite funkcijo svyby (), ki izračuna statistiko za podskupine nabora podatkov. Funkcijo svymean () lahko uporabljamo skupaj s funkcijo svyby () za izračun tehtanih ocen na podmnožjih podatkov, ki jih določajo druge faktorske spremenljivke. Kable () funkcija iz pletenja paketa prikazuje statistične podatke v tabeli.

Na primer za oceno predsedniške odobritve moških in žensk lahko uporabite to kodo:

q1_by_sex = svyby (~ q1, # spremenljivo za oceno
                   ~ sex, #subgroup spremenljivka
                   design = apr17_design,
                   FUN = svymean, # funkcija za uporabo v vsaki podskupini
                   Keep.names = FALSE #dodi ne vključujejo imen vrstic
                                       # za spremenljivko podskupine
      )
 
 knitr :: kable (q1_by_sex, števke = 2)

Ta objava samo opraska površino vrst analiz, ki jih lahko naredite v programu R s paketom anket, vendar upam, da je dovolj, da začnete. V prihodnosti načrtujemo, da bomo z R. napisali dodatne objave o analizi podatkov in anketiranju podatkov o anketah. Če imate vprašanja o tej objavi ali če obstajajo druge stvari s podatki ankete in R, ki jih želite vedeti, nam to sporočite vedeti na info@pewresearch.org.

Nick Hatley je raziskovalni analitik v raziskovalnem centru Pew.