Kuinka analysoida Pew Research Center -tutkimuksen tietoja R: ssä

Pew Research Center julkaisee tutkimustiedot julkisesti IBM SPSS-tiedostoina .sav-tunnisteella. Mutta jos sinulla ei ole pääsyä SPSS: ään, käytettävissä on ilmaisia ​​avoimen lähdekoodin työkaluja tietojen analysointiin ja hyödyntämiseen.

Jopa SPSS-peruskäytön kanssa, kyselydatan kanssa työskenteleminen vaatii lisätyökaluja tai tekniikoita tutkimuspainojen tai muiden monimutkaisten tutkimussuunnitteluominaisuuksien käsittelemiseksi. Analyysit, jotka eivät ota näitä suunnitteluominaisuuksia huomioon, voivat tuottaa puolueellisia tuloksia ja yliarvioida arvioiden tai tilastollisten testien tarkkuuden. Onneksi työkalut tällaisten analyysien suorittamiseen oikein ovat vapaasti saatavissa R-tilastollisen ohjelmistoalustan kautta.

Tämä viesti tarjoaa nopean oppaan, kuinka keskuksen tutkimustiedot voidaan analysoida oikein R.: n avulla. Tämä on ensimmäinen satunnaisten viestisarjojen avulla, joiden tarkoituksena on auttaa sinua analysoimaan kyselyaineistot R: n avulla.

Mikä on R?

R on tilastollisen laskennan ja grafiikan kieli ja ympäristö. R on saatavana ilmaisena ohjelmistona lähdekoodimuodossa Free Software Foundationin GNU: n yleisen lisenssin ehtojen nojalla. Se kokoaa ja toimii monilla UNIX-alustoilla ja vastaavilla järjestelmillä (mukaan lukien FreeBSD ja Linux), Windowsilla ja MacOS: lla. Lisätietoja R: stä ja sen lataamisesta on osoitteessa r-project.org.

Tämän viestin analyysi perustuu:
 - R
 - R Studio (avoimen lähdekoodin editori ja käyttöliittymä, joka toimii R-kielellä)
 - Seuraavat vapaasti saatavilla olevat R-paketit:
· Ulkomaiset
· Kysely
· Neule

Asenna nämä paketit käyttämällä seuraavaa koodia:

install.packages (c ("vieraat", "kysely", "neuleet"))

Pääsy Pew Research Center -tietoihin

Monet Pew Research Center -kyselyaineistot ovat ladattavissa siirtymällä "Tietoaineistot" -välilehdelle keskuksen verkkosivustolla. Lisätietoja tästä blogin postituksesta siitä, millaisia ​​tietoja keskus julkaisee ja miten niitä voi käyttää.

Lähes kaikki keskustasta ladattavat tiedot tallennetaan SPSS .sav-tiedostoina. SPSS-tiedostot sisältävät usein sekä arvoja että arvotunnisteita - esimerkiksi 1 republikaanille, 2 demokratille.

Tässä oppaassa käytetään tietoja keskuksen huhtikuun 2017 poliittisesta tutkimuksesta, joka keskittyi aiheisiin, mukaan lukien amerikkalaisten näkemykset kansallisista instituutioista ja heidän luottamuksensa hallitukseen.

Ladataan kyselytiedot R: ään

Ensimmäinen askel tutkimustietojen analysoimisessa R: ssä on tietotiedoston lukeminen R-ympäristöösi. Koska tiedot tallennetaan .sav-tiedostona, sinun kannattaa käyttää read.spss () -toimintoa R: n “vieraasta” paketista. Seuraavaksi lataamme ensin pakettikirjastokirjat ja luemme sitten tiedot data.kehykseen, jota kutsutaan ”Apr17”. Oletuksena read.spss () säilyttää kaikki muuttujien ja arvojen tunnisteet tutkimustiedoille, mutta se ei luo automaattisesti data.kehystä, joten parametri on asetettava nimenomaisesti. Täällä käytämme to.data.frame = TRUE tiedostoa ladattavaksi R-ympäristöömme data.frame-muodossa.

 kirjasto (ulkomainen)
 kirjasto (tutkimus)
 kirjasto (knitr)
 Huhtikuu 17 <- read.spss ("Apr17 public.sav", #tiedostopolku tietojoukkoon
                    to.data.frame = TRUE) # asettaa objektin tietokehykseen
## uudelleenkoodaus CP1252: sta

Jos suoritat tämän koodin, saat varoituksen muuttujista, joilla ei ole tarroja jokaiselle luokalle - kuten ikä. Näissä tapauksissa read.spss () lisää nämä tarrat oletuksena. Jos etsit erilaista käyttäytymistä, tarkista add.undeclared.levels () -vaihtoehto.
 
 Suurin osa keskuksen tietoaineistojen muuttujista - kuten sukupuoli, rotu ja niin edelleen - ovat kategorisia. R: ssä tällaisia ​​muuttujia kutsutaan tekijöiksi. Taulukon () -toiminnon avulla voit nähdä, kuinka tekijämuuttuja jakautuu seuraavasti:

table (Apr17 $ puolue)
 ##
 ## republikaanien demokraatti
 ## 375 466
 ## Itsenäinen Ei suositusta (VOL.)
 ## 616 28
 ## Muu osapuoli (VOL.) En tiedä / kieltäytyi (VOL.)
 ## 9 7

Kyselyn suunnittelun laatiminen

Seuraava askel tutkimustietojen analysoinnissa on käyttää R: n “tutkimus” -paketin svydesign-toimintoa tutkimuksen suunnittelukohteen luomiseen. Tämä vaihe on tärkeä siinä mielessä, että siinä todetaan nimenomaisesti kyselyn suunnittelu, jotta arviointiin voidaan käyttää asianmukaisesti tutkimuspainoja ja muita suunnittelukomponentteja. Svydesign-toiminto hyväksyy monenlaisia ​​monimutkaisia ​​kyselymuotoja. Lue lisätietoja toiminnosta napsauttamalla tätä.

Suurimmassa osassa Pew Research Center -kyselyjä, mukaan lukien tässä opetusohjelmassa käytetty huhtikuun 2017 tietoaineisto, käyttäjien on määritettävä kolme kohdetta ilmoittaessaan kyselyn suunnittelua:
 
 1. Klusterin tunnisteiden tunnus =. Lähes kaikilla yhdysvaltalaisilla keskuksen tutkimuksilla ei ole klusteritunnisteita. Käytä ~ 0-kaavaa osoittaaksesi, että tutkimuksessa ei ole klustereita.
 2. Kyselyaineisto, jonka data =
 3. Kyselyn painot painoilla =

Apr17_design = svydesign (
         tunnukset = ~ 0, # kaava osoittavat, että klustereita ei ole
         data = huhtikuu 17, # tämä on tietojoukko
         painot = ~ paino) # tämä on 'paino' muuttuja
                            # alkaen Apr17-tietoaineistosta

Arvioi taajuudet tutkimuspainoilla

Kun kyselysuunnitelma on julistettu, voit saada painotetut arviot käyttämällä svymean () -toimintoa. Svymean (): n perusargumentit ovat kaava, jolla tunnistetaan kiinnostava muuttuja ja kyselyn suunnittelukohde.

Funktion svymean () avulla voidaan laskea painotetut keskiarvot, varianssit, suhteet, kokonaismäärät ja muut. Palautetut tilastotiedot ovat riippuvaisia ​​muuttujan luokasta, johon sitä kutsutaan. Esimerkiksi arvioidaksesi presidentti Donald Trumpin hyväksynnän (q1 - tekijämuuttuja), käytä seuraavaa koodia:

svymean (~ q1, # muuttuva arvioida
         design = Apr17_design #selvityssuunnitteluobjekti
                                #luotu svydesignilla ()
         )
 ## tarkoittaa SE
 ## q1Vahvista 0.394008 0.0144
 ## q1Hyväksytty 0.542368 0.0147
 ## q1En tiedä / kieltäytyi (VOL.) 0,063624 0,0078

Voit tarkastella Trumpin työn hyväksyntää eri alaryhmien välillä käyttämällä svyby () -toimintoa, joka laskee tilastot tietojoukon alaryhmille. Svymean () -toimintoa voidaan käyttää yhdessä svyby () -funktion kanssa laskettaessa painotettuja arvioita muiden tekijämuuttujien määrittämien tietojen osajoukkoihin. Neulepakkauksen kable () -toiminto näyttää tilastot taulukkomuodossa.

Arvioidaksesi esimerkiksi miesten ja naisten presidentin hyväksynnän, voit käyttää tätä koodia:

q1_by_sex = svyby (~ q1, #muuttuja estimoida
                   ~ sukupuoli, # alaryhmämuuttuja
                   design = Apr17_design,
                   FUN = svymean, #toiminto käytettäväksi jokaisessa alaryhmässä
                   keep.names = FALSE # ei sisällä rivinimiä
                                       # alaryhmämuuttujalle
      )
 
 neule :: kable (q1_by_sex, numeroita = 2)

Tämä viesti vain naarmuttaa pinta-alaa sellaisista analyyseistä, joita voit tehdä R-tutkimuksessa tutkimuspaketin kanssa, mutta toivon, että se riittää aloittamiseen. Jatkossa aiomme kirjoittaa lisää viestejä tutkimustietojen analysoinnista ja visualisoinnista R: n kanssa. Jos sinulla on kysyttävää tästä viestistä tai jos on muita asioita tutkimustiedoilla ja R: llä, jonka haluat tietää, miten tehdä, anna meille tietää osoitteessa info@pewresearch.org.

Nick Hatley on tutkimusanalyytikko Pew Research Centerissä.