Podaci mogu postojati u raznim formatima. Za svaki format R ima određenu funkciju i argument. Ovaj vodič objašnjava kako uvesti podatke u R.
U ovom ćete tutorijalu naučiti
- Pročitajte CSV
- Čitajte Excel datoteke
- readxl_example ()
- read_excel ()
- excel_sheets ()
- Uvoz podataka iz drugog statističkog softvera
- Čitaj sas
- Pročitajte STATA
- Pročitajte SPSS
- Najbolji primjeri iz uvoza podataka
Pročitajte CSV
Jedno od najrasprostranjenijih spremišta podataka su formati datoteka .csv (vrijednosti odvojene zarezom). R učitava niz knjižnica tijekom pokretanja, uključujući paket utils. Ovaj je paket prikladan za otvaranje csv datoteka u kombinaciji s funkcijom read.csv (). Evo sintakse za read.csv
read.csv(file, header = TRUE, sep = ",")
Argument :
- datoteka : PUT u kojem je datoteka pohranjena
- zaglavlje : potvrdite ima li datoteka zaglavlje ili ne, prema zadanim postavkama zaglavlje je postavljeno na TRUE
- sep : simbol koji se koristi za razdvajanje varijable. Prema zadanim postavkama, `,`.
Pročitat ćemo naziv datoteke podataka mtcats. CSV datoteka pohranjuje se na mreži. Ako je vaša .csv datoteka lokalno pohranjena, PATH možete zamijeniti unutar isječka koda. Ne zaboravite ga zamotati unutra ''. PUT mora biti vrijednost niza.
Za korisnike Mac računala put do mape za preuzimanje je:
"/Users/USERNAME/Downloads/FILENAME.csv"
Za korisnika sustava Windows:
"C:\Users\USERNAME\Downloads\FILENAME.csv"
Imajte na umu da bismo uvijek trebali navesti proširenje naziva datoteke.
- .csv
- .xlsx
- .txt
- ...
PATH <- 'https://raw.githubusercontent.com/guru99-edu/R-Programming/master/mtcars.csv'df <- read.csv(PATH, header = TRUE, sep = ',')length(df)
Izlaz:
## [1] 12
class(df$X)
Izlaz:
## [1] "factor"
R, prema zadanim postavkama, vraća vrijednosti znakova kao faktor. Ovu postavku možemo isključiti dodavanjem stringsAsFactors = FALSE.
PATH <- 'https://raw.githubusercontent.com/guru99-edu/R-Programming/master/mtcars.csv'df <-read.csv(PATH, header =TRUE, sep = ',', stringsAsFactors =FALSE)class(df$X)
Izlaz:
## [1] "character"
Klasa za varijablu X sada je znak.
Čitajte Excel datoteke
Excel datoteke su vrlo popularne među analitičarima podataka. S proračunskim tablicama lako je raditi i fleksibilne su. R je opremljen knjižnicom readxl za uvoz Excel proračunske tablice.
Koristite ovaj kod
require(readxl)
kako biste provjerili je li readxl instaliran u vašem stroju. Ako instalirate r s r-conda-bitno, knjižnica je već instalirana. U naredbenom prozoru trebali biste vidjeti:
Izlaz:
Loading required package: readxl.
Ako paket ne izađe, možete ga instalirati s bibliotekom conda ili u terminalu, upotrijebite conda install -c mittner r-readxl.
Upotrijebite sljedeću naredbu za učitavanje knjižnice za uvoz excel datoteka.
library(readxl)
readxl_example ()
Tijekom ovog vodiča koristimo primjere uključene u paket readxl.
Koristite kod
readxl_example()
da biste vidjeli sve dostupne proračunske tablice u knjižnici.
Jednostavno korištenje da biste provjerili mjesto proračunske tablice nazvane clippy.xls
readxl_example("geometry.xls")
Ako R instalirate s condom, proračunske tablice nalaze se u Anaconda3 / lib / R / library / readxl / extdata / filename.xls
read_excel ()
Funkcija read_excel () od velike je koristi kada je riječ o otvaranju xls i xlsx proširenja.
Sintaksa je:
read_excel(PATH, sheet = NULL, range= NULL, col_names = TRUE)arguments:-PATH: Path where the excel is located-sheet: Select the sheet to import. By default, all-range: Select the range to import. By default, all non-null cells-col_names: Select the columns to import. By default, all non-null columns
Proračunske tablice možemo uvesti iz biblioteke readxl i izbrojati broj stupaca na prvom listu.
# Store the path of `datasets.xlsx`example <- readxl_example("datasets.xlsx")# Import the spreadsheetdf <- read_excel(example)# Count the number of columnslength(df)
Izlaz:
## [1] 5
excel_sheets ()
Datoteka datasets.xlsx sastoji se od 4 lista. Koji su listovi dostupni u radnoj knjizi možemo saznati pomoću funkcije excel_sheets ()
example <- readxl_example("datasets.xlsx")excel_sheets(example)
Izlaz:
[1] "iris" "mtcars" "chickwts" "quakes"
Ako radni list sadrži mnogo listova, lako je odabrati određeni list pomoću argumenata lista. Možemo odrediti naziv lista ili indeks lista. Možemo provjeriti vraćaju li obje funkcije isti izlaz s identičnim ().
example <- readxl_example("datasets.xlsx")quake <- read_excel(example, sheet = "quakes")quake_1 <-read_excel(example, sheet = 4)identical(quake, quake_1)
Izlaz:
## [1] TRUE
Na dva načina možemo kontrolirati koje ćelije čitati
- Upotrijebite argument n_max za vraćanje n redaka
- Upotrijebite argument raspona u kombinaciji s cell_rows ili cell_cols
Na primjer, postavili smo n_max jednako 5 za uvoz prvih pet redaka.
# Read the first five row: with headeriris <-read_excel(example, n_max =5, col_names =TRUE)
Ako promijenimo col_names u FALSE, R automatski stvara zaglavlja.
# Read the first five row: without headeriris_no_header <-read_excel(example, n_max =5, col_names =FALSE)
iris_no_header
U podatkovnom okviru iris_no_header, R je stvorio pet novih varijabli pod nazivom X__1, X__2, X__3, X__4 i X__5
Također možemo koristiti raspon argumenata za odabir redaka i stupaca u proračunskoj tablici. U donjem kodu koristimo stil excel za odabir raspona od A1 do B5.
# Read rows A1 to B5example_1 <-read_excel(example, range = "A1:B5", col_names =TRUE)dim(example_1)
Izlaz:
## [1] 4 2
Vidimo da example_1 vraća 4 retka s 2 stupca. Skup podataka sadrži zaglavlje, a razlog zbog kojeg je dimenzija 4x2.
U drugom primjeru koristimo funkciju cell_rows () koja kontrolira raspon redaka za povratak. Ako želimo uvesti retke od 1 do 5, možemo postaviti ćelijske_redice (1: 5). Imajte na umu da, cell_rows (1: 5) vraća isti izlaz kao i cell_rows (5: 1).
# Read rows 1 to 5example_2 <-read_excel(example, range =cell_rows(1:5),col_names =TRUE)dim(example_2)
Izlaz:
## [1] 4 5
Primjer_2 je, međutim, matrica 4x5. Skup podataka irisa ima 5 stupaca sa zaglavljem. Vraćamo prva četiri retka sa zaglavljem svih stupaca
U slučaju da želimo uvesti retke koji ne počinju na prvom redu, moramo uključiti col_names = FALSE. Ako koristimo range = cell_rows (2: 5), postaje očito da naš podatkovni okvir više nema zaglavlja.
iris_row_with_header <-read_excel(example, range =cell_rows(2:3), col_names=TRUE)iris_row_no_header <-read_excel(example, range =cell_rows(2:3),col_names =FALSE)
We can select the columns with the letter, like in Excel.# Select columns A and Bcol <-read_excel(example, range =cell_cols("A:B"))dim(col)
Izlaz:
## [1] 150 2
Napomena: range = cell_cols ("A: B"), vraća izlaz svih stanica s ne-null vrijednošću. Skup podataka sadrži 150 redaka, stoga read_excel () vraća retke do 150. To se provjerava funkcijom dim ().
read_excel () vraća NA kada se u ćeliji pojavi simbol bez numeričke vrijednosti. Broj izostalih vrijednosti možemo izbrojiti kombinacijom dviju funkcija
- iznos
- je.na
Ovdje je kod
iris_na <-read_excel(example, na ="setosa")sum(is.na(iris_na))
Izlaz:
## [1] 50
Nedostaje nam 50 vrijednosti, a to su redovi koji pripadaju vrsti setosa.
Uvoz podataka iz drugog statističkog softvera
Uvozit ćemo različite formate datoteka s nebeskim paketom. Ovaj paket podržava softverske programe SAS, STATA i SPSS. Sljedeću funkciju možemo koristiti za otvaranje različitih vrsta skupova podataka, u skladu s nastavkom datoteke:
- SAS: read_sas ()
- STATA: read_dta () (ili read_stata (), koji su identični)
- SPSS: read_sav () ili read_por (). Moramo provjeriti produžetak
Unutar ove funkcije potreban je samo jedan argument. Moramo znati PUT na kojem je datoteka pohranjena. To je to, spremni smo otvoriti sve datoteke sa SAS-a, STATA-e i SPSS-a. Ove tri funkcije prihvaćaju i URL.
library(haven)
utočište dolazi s condom r-bitno, inače idite na vezu ili u terminalu conda instalirajte -c conda-forge r-haven
Čitaj sas
Za naš primjer koristit ćemo prijemni skup podataka iz IDRE-a.
PATH_sas <- 'https://github.com/guru99-edu/R-Programming/blob/master/binary.sas7bdat?raw=true'df <- read_sas(PATH_sas)head(df)
Izlaz:
## # A tibble: 6 x 4## ADMIT GRE GPA RANK#### 1 0 380 3.61 3## 2 1 660 3.67 3## 3 1 800 4.00 1## 4 1 640 3.19 4## 5 0 520 2.93 4## 6 1 760 3.00 2
Pročitajte STATA
Za STATA podatkovne datoteke možete koristiti read_dta (). Koristimo potpuno isti skup podataka, ali pohranjujemo u .dta datoteku.
PATH_stata <- 'https://github.com/guru99-edu/R-Programming/blob/master/binary.dta?raw=true'df <- read_dta(PATH_stata)head(df)
Izlaz:
## # A tibble: 6 x 4## admit gre gpa rank#### 1 0 380 3.61 3## 2 1 660 3.67 3## 3 1 800 4.00 1## 4 1 640 3.19 4## 5 0 520 2.93 4## 6 1 760 3.00 2
Pročitajte SPSS
Za otvaranje SPSS datoteke koristimo funkciju read_sav (). Ekstenzija datoteke ".sav"
PATH_spss <- 'https://github.com/guru99-edu/R-Programming/blob/master/binary.sav?raw=true'df <- read_sav(PATH_spss)head(df)
Izlaz:
## # A tibble: 6 x 4## admit gre gpa rank#### 1 0 380 3.61 3## 2 1 660 3.67 3## 3 1 800 4.00 1## 4 1 640 3.19 4## 5 0 520 2.93 4## 6 1 760 3.00 2
Najbolji primjeri iz uvoza podataka
Kada želimo uvesti podatke u R, korisno je primijeniti sljedeći kontrolni popis. Olakšat će vam točan uvoz podataka u R:
- Tipični format proračunske tablice je korištenje prvih redaka kao zaglavlja (obično naziv varijabli).
- Izbjegavajte imenovati skup podataka praznim razmacima; može dovesti do tumačenja kao zasebne varijable. Ili radije koristite '_' ili '-.'
- Poželjna su kratka imena
- U ime nemojte uključiti simbol: tj: razmjena_razmjene _ $ _ € nije točna. Radije mu dajte ime: exchange_rate_dollar_euro
- Inače koristite NA za vrijednosti koje nedostaju; moramo kasnije očistiti format.
Sažetak
Sljedeća tablica sažima funkciju koja se koristi za uvoz različitih vrsta datoteka u R. U prvom se stupcu navodi knjižnica povezana s funkcijom. Posljednji stupac odnosi se na zadani argument.
Knjižnica |
Cilj |
Funkcija |
Zadani argumenti |
---|---|---|---|
utils |
Pročitajte CSV datoteku |
read.csv () |
datoteka, zaglavlje =, ISTINA, sep = "," |
readxl |
Pročitajte EXCEL datoteku |
read_excel () |
putanja, raspon = NULL, col_names = TRUE |
utočište |
Pročitajte SAS datoteku |
read_sas () |
staza |
utočište |
Pročitajte STATA datoteku |
read_stata () |
staza |
utočište |
Pročitajte SPSS file |
read_sav () |
staza |
Sljedeća tablica prikazuje različite načine uvoza odabira pomoću funkcije read_excel ().
Funkcija |
Ciljevi |
Argumenti |
---|---|---|
read_excel () |
Očitati n broja redaka |
n_max = 10 |
Odaberite retke i stupce kao u Excelu |
range = "A1: D10" |
|
Odaberite retke s indeksima |
raspon = ćelijske_redice (1: 3) |
|
Odaberite stupce s slovima |
raspon = ćelijske_kolije ("A: C") |