Uvoz podataka u R: Čitanje CSV, Excel, SPSS, Stata, SAS datoteka

Podaci mogu postojati u raznim formatima. Za svaki format R ima određenu funkciju i argument. Ovaj vodič objašnjava kako uvesti podatke u R.

U ovom ćete tutorijalu naučiti

Pročitajte CSV
Čitajte Excel datoteke
readxl_example ()
read_excel ()
excel_sheets ()
Uvoz podataka iz drugog statističkog softvera
Čitaj sas
Pročitajte STATA
Pročitajte SPSS
Najbolji primjeri iz uvoza podataka

Pročitajte CSV

Jedno od najrasprostranjenijih spremišta podataka su formati datoteka .csv (vrijednosti odvojene zarezom). R učitava niz knjižnica tijekom pokretanja, uključujući paket utils. Ovaj je paket prikladan za otvaranje csv datoteka u kombinaciji s funkcijom read.csv (). Evo sintakse za read.csv

read.csv(file, header = TRUE, sep = ",")

Argument :

datoteka : PUT u kojem je datoteka pohranjena
zaglavlje : potvrdite ima li datoteka zaglavlje ili ne, prema zadanim postavkama zaglavlje je postavljeno na TRUE
sep : simbol koji se koristi za razdvajanje varijable. Prema zadanim postavkama, `,`.

Pročitat ćemo naziv datoteke podataka mtcats. CSV datoteka pohranjuje se na mreži. Ako je vaša .csv datoteka lokalno pohranjena, PATH možete zamijeniti unutar isječka koda. Ne zaboravite ga zamotati unutra ''. PUT mora biti vrijednost niza.

Za korisnike Mac računala put do mape za preuzimanje je:

 "/Users/USERNAME/Downloads/FILENAME.csv"

Za korisnika sustava Windows:

"C:\Users\USERNAME\Downloads\FILENAME.csv"

Imajte na umu da bismo uvijek trebali navesti proširenje naziva datoteke.

.csv
.xlsx
.txt
...

PATH <- 'https://raw.githubusercontent.com/guru99-edu/R-Programming/master/mtcars.csv'df <- read.csv(PATH, header = TRUE, sep = ',')length(df)

Izlaz:

## [1] 12

class(df$X)

Izlaz:

## [1] "factor"

R, prema zadanim postavkama, vraća vrijednosti znakova kao faktor. Ovu postavku možemo isključiti dodavanjem stringsAsFactors = FALSE.

PATH <- 'https://raw.githubusercontent.com/guru99-edu/R-Programming/master/mtcars.csv'df <-read.csv(PATH, header =TRUE, sep = ',', stringsAsFactors =FALSE)class(df$X)

Izlaz:

## [1] "character"

Klasa za varijablu X sada je znak.

Čitajte Excel datoteke

Excel datoteke su vrlo popularne među analitičarima podataka. S proračunskim tablicama lako je raditi i fleksibilne su. R je opremljen knjižnicom readxl za uvoz Excel proračunske tablice.

Koristite ovaj kod

require(readxl)

kako biste provjerili je li readxl instaliran u vašem stroju. Ako instalirate r s r-conda-bitno, knjižnica je već instalirana. U naredbenom prozoru trebali biste vidjeti:

Izlaz:

Loading required package: readxl.

Ako paket ne izađe, možete ga instalirati s bibliotekom conda ili u terminalu, upotrijebite conda install -c mittner r-readxl.

Upotrijebite sljedeću naredbu za učitavanje knjižnice za uvoz excel datoteka.

library(readxl)

readxl_example ()

Tijekom ovog vodiča koristimo primjere uključene u paket readxl.

Koristite kod

readxl_example()

da biste vidjeli sve dostupne proračunske tablice u knjižnici.

Jednostavno korištenje da biste provjerili mjesto proračunske tablice nazvane clippy.xls

readxl_example("geometry.xls")

Ako R instalirate s condom, proračunske tablice nalaze se u Anaconda3 / lib / R / library / readxl / extdata / filename.xls

read_excel ()

Funkcija read_excel () od velike je koristi kada je riječ o otvaranju xls i xlsx proširenja.

Sintaksa je:

read_excel(PATH, sheet = NULL, range= NULL, col_names = TRUE)arguments:-PATH: Path where the excel is located-sheet: Select the sheet to import. By default, all-range: Select the range to import. By default, all non-null cells-col_names: Select the columns to import. By default, all non-null columns

Proračunske tablice možemo uvesti iz biblioteke readxl i izbrojati broj stupaca na prvom listu.

# Store the path of `datasets.xlsx`example <- readxl_example("datasets.xlsx")# Import the spreadsheetdf <- read_excel(example)# Count the number of columnslength(df)

Izlaz:

## [1] 5

excel_sheets ()

Datoteka datasets.xlsx sastoji se od 4 lista. Koji su listovi dostupni u radnoj knjizi možemo saznati pomoću funkcije excel_sheets ()

example <- readxl_example("datasets.xlsx")
excel_sheets(example)

Izlaz:

[1] "iris" "mtcars" "chickwts" "quakes"

Ako radni list sadrži mnogo listova, lako je odabrati određeni list pomoću argumenata lista. Možemo odrediti naziv lista ili indeks lista. Možemo provjeriti vraćaju li obje funkcije isti izlaz s identičnim ().

example <- readxl_example("datasets.xlsx")quake <- read_excel(example, sheet = "quakes")quake_1 <-read_excel(example, sheet = 4)identical(quake, quake_1)

Izlaz:

## [1] TRUE

Na dva načina možemo kontrolirati koje ćelije čitati

Upotrijebite argument n_max za vraćanje n redaka
Upotrijebite argument raspona u kombinaciji s cell_rows ili cell_cols

Na primjer, postavili smo n_max jednako 5 za uvoz prvih pet redaka.

# Read the first five row: with headeriris <-read_excel(example, n_max =5, col_names =TRUE)

Ako promijenimo col_names u FALSE, R automatski stvara zaglavlja.

# Read the first five row: without headeriris_no_header <-read_excel(example, n_max =5, col_names =FALSE)

iris_no_header

U podatkovnom okviru iris_no_header, R je stvorio pet novih varijabli pod nazivom X__1, X__2, X__3, X__4 i X__5

Također možemo koristiti raspon argumenata za odabir redaka i stupaca u proračunskoj tablici. U donjem kodu koristimo stil excel za odabir raspona od A1 do B5.

# Read rows A1 to B5example_1 <-read_excel(example, range = "A1:B5", col_names =TRUE)dim(example_1)

Izlaz:

## [1] 4 2

Vidimo da example_1 vraća 4 retka s 2 stupca. Skup podataka sadrži zaglavlje, a razlog zbog kojeg je dimenzija 4x2.

U drugom primjeru koristimo funkciju cell_rows () koja kontrolira raspon redaka za povratak. Ako želimo uvesti retke od 1 do 5, možemo postaviti ćelijske_redice (1: 5). Imajte na umu da, cell_rows (1: 5) vraća isti izlaz kao i cell_rows (5: 1).

# Read rows 1 to 5example_2 <-read_excel(example, range =cell_rows(1:5),col_names =TRUE)dim(example_2)

Izlaz:

## [1] 4 5

Primjer_2 je, međutim, matrica 4x5. Skup podataka irisa ima 5 stupaca sa zaglavljem. Vraćamo prva četiri retka sa zaglavljem svih stupaca

U slučaju da želimo uvesti retke koji ne počinju na prvom redu, moramo uključiti col_names = FALSE. Ako koristimo range = cell_rows (2: 5), postaje očito da naš podatkovni okvir više nema zaglavlja.

iris_row_with_header <-read_excel(example, range =cell_rows(2:3), col_names=TRUE)iris_row_no_header <-read_excel(example, range =cell_rows(2:3),col_names =FALSE)

We can select the columns with the letter, like in Excel.# Select columns A and Bcol <-read_excel(example, range =cell_cols("A:B"))dim(col)

Izlaz:

## [1] 150 2

Napomena: range = cell_cols ("A: B"), vraća izlaz svih stanica s ne-null vrijednošću. Skup podataka sadrži 150 redaka, stoga read_excel () vraća retke do 150. To se provjerava funkcijom dim ().

read_excel () vraća NA kada se u ćeliji pojavi simbol bez numeričke vrijednosti. Broj izostalih vrijednosti možemo izbrojiti kombinacijom dviju funkcija

iznos
je.na

Ovdje je kod

iris_na <-read_excel(example, na ="setosa")sum(is.na(iris_na))

Izlaz:

## [1] 50

Nedostaje nam 50 vrijednosti, a to su redovi koji pripadaju vrsti setosa.

Uvoz podataka iz drugog statističkog softvera

Uvozit ćemo različite formate datoteka s nebeskim paketom. Ovaj paket podržava softverske programe SAS, STATA i SPSS. Sljedeću funkciju možemo koristiti za otvaranje različitih vrsta skupova podataka, u skladu s nastavkom datoteke:

SAS: read_sas ()
STATA: read_dta () (ili read_stata (), koji su identični)
SPSS: read_sav () ili read_por (). Moramo provjeriti produžetak

Unutar ove funkcije potreban je samo jedan argument. Moramo znati PUT na kojem je datoteka pohranjena. To je to, spremni smo otvoriti sve datoteke sa SAS-a, STATA-e i SPSS-a. Ove tri funkcije prihvaćaju i URL.

library(haven)

utočište dolazi s condom r-bitno, inače idite na vezu ili u terminalu conda instalirajte -c conda-forge r-haven

Čitaj sas

Za naš primjer koristit ćemo prijemni skup podataka iz IDRE-a.

PATH_sas <- 'https://github.com/guru99-edu/R-Programming/blob/master/binary.sas7bdat?raw=true'df <- read_sas(PATH_sas)head(df)

Izlaz:

## # A tibble: 6 x 4## ADMIT GRE GPA RANK##    ## 1 0 380 3.61 3## 2 1 660 3.67 3## 3 1 800 4.00 1## 4 1 640 3.19 4## 5 0 520 2.93 4## 6 1 760 3.00 2

Pročitajte STATA

Za STATA podatkovne datoteke možete koristiti read_dta (). Koristimo potpuno isti skup podataka, ali pohranjujemo u .dta datoteku.

PATH_stata <- 'https://github.com/guru99-edu/R-Programming/blob/master/binary.dta?raw=true'df <- read_dta(PATH_stata)head(df)

Izlaz:

## # A tibble: 6 x 4## admit gre gpa rank##    ## 1 0 380 3.61 3## 2 1 660 3.67 3## 3 1 800 4.00 1## 4 1 640 3.19 4## 5 0 520 2.93 4## 6 1 760 3.00 2

Pročitajte SPSS

Za otvaranje SPSS datoteke koristimo funkciju read_sav (). Ekstenzija datoteke ".sav"

PATH_spss <- 'https://github.com/guru99-edu/R-Programming/blob/master/binary.sav?raw=true'df <- read_sav(PATH_spss)head(df)

Izlaz:

## # A tibble: 6 x 4## admit gre gpa rank##    ## 1 0 380 3.61 3## 2 1 660 3.67 3## 3 1 800 4.00 1## 4 1 640 3.19 4## 5 0 520 2.93 4## 6 1 760 3.00 2

Najbolji primjeri iz uvoza podataka

Kada želimo uvesti podatke u R, korisno je primijeniti sljedeći kontrolni popis. Olakšat će vam točan uvoz podataka u R:

Tipični format proračunske tablice je korištenje prvih redaka kao zaglavlja (obično naziv varijabli).
Izbjegavajte imenovati skup podataka praznim razmacima; može dovesti do tumačenja kao zasebne varijable. Ili radije koristite '_' ili '-.'
Poželjna su kratka imena
U ime nemojte uključiti simbol: tj: razmjena_razmjene _ $ _ € nije točna. Radije mu dajte ime: exchange_rate_dollar_euro
Inače koristite NA za vrijednosti koje nedostaju; moramo kasnije očistiti format.

Sažetak

Sljedeća tablica sažima funkciju koja se koristi za uvoz različitih vrsta datoteka u R. U prvom se stupcu navodi knjižnica povezana s funkcijom. Posljednji stupac odnosi se na zadani argument.

Knjižnica	Cilj	Funkcija	Zadani argumenti
utils	Pročitajte CSV datoteku	read.csv ()	datoteka, zaglavlje =, ISTINA, sep = ","
readxl	Pročitajte EXCEL datoteku	read_excel ()	putanja, raspon = NULL, col_names = TRUE
utočište	Pročitajte SAS datoteku	read_sas ()	staza
utočište	Pročitajte STATA datoteku	read_stata ()	staza
utočište	Pročitajte SPSS file	read_sav ()	staza

Sljedeća tablica prikazuje različite načine uvoza odabira pomoću funkcije read_excel ().

Funkcija	Ciljevi	Argumenti
read_excel ()	Očitati n broja redaka	n_max = 10
	Odaberite retke i stupce kao u Excelu	range = "A1: D10"
	Odaberite retke s indeksima	raspon = ćelijske_redice (1: 3)
	Odaberite stupce s slovima	raspon = ćelijske_kolije ("A: C")