Faktor u R: Kategorijska varijabla & Neprekidne varijable

Sadržaj:

Anonim

Što je faktor u R?

Faktor u R varijabla je koja se koristi za kategorizaciju i pohranu podataka, a ima ograničeni broj različitih vrijednosti. Pohranjuje podatke kao vektor cjelobrojnih vrijednosti. Faktor u R poznat je i kao kategorijska varijabla koja kao razine pohranjuje vrijednosti niza i cjelobrojne podatke. Faktor se najviše koristi u statističkom modeliranju i istraživačkoj analizi podataka s R.

U skupu podataka možemo razlikovati dvije vrste varijabli: kategoričku i kontinuiranu .

  • U opisnoj statistici za kategorijske varijable u R vrijednost je ograničena i obično se temelji na određenoj konačnoj skupini. Na primjer, kategorijska varijabla u R može biti država, godina, spol, zanimanje.
  • Kontinuirana varijabla, međutim, može poprimiti bilo koje vrijednosti, od cijelih do decimalnih. Na primjer, možemo imati prihod, cijenu dionice itd.…

Kategorijske varijable

Kategoričke varijable u R pohranjene su u faktor. Provjerimo donji kod za pretvaranje varijable znaka u varijablu faktora u R. Znakovi nisu podržani u algoritmu strojnog učenja, a jedini način je pretvaranje niza u cijeli broj.

Sintaksa

factor(x = character(), levels, labels = levels, ordered = is.ordered(x))

Argumenti:

  • x : Vektor kategorijskih podataka u R. Treba biti niz ili cijeli broj, a ne decimalni.
  • Razine : vektor mogućih vrijednosti koje uzima x. Ovaj argument nije obvezan. Zadana vrijednost je jedinstveni popis stavki vektora x.
  • Oznake : Dodajte oznaku x kategorijskim podacima u R. Na primjer, 1 može uzeti oznaku `muški`, dok 0, oznaka` ženski`.
  • naređeno : U kategorijskim podacima u R. odredite treba li razine poredati.

Primjer:

Stvorimo okvir podataka faktora.

# Create gender vectorgender_vector <- c("Male", "Female", "Female", "Male", "Male")class(gender_vector)# Convert gender_vector to a factorfactor_gender_vector <-factor(gender_vector)class(factor_gender_vector)

Izlaz:

## [1] "character"## [1] "factor"

Važno je transformirati niz u faktor varijablu u R kada izvršavamo zadatak strojnog učenja.

Kategorijska varijabla u R može se podijeliti na nominalnu kategorijsku varijablu i rednu kategorijsku varijablu .

Nominalna kategorička varijabla

Kategorijska varijabla ima nekoliko vrijednosti, ali redoslijed nije važan. Na primjer, muško ili žensko. Kategorijske varijable u R nemaju poredak.

# Create a color vectorcolor_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')# Convert the vector to factorfactor_color <- factor(color_vector)factor_color

Izlaz:

## [1] blue red green white black yellow## Levels: black blue green red white yellow

Iz faktora_boja ne možemo utvrditi nijednu narudžbu.

Redna kategorička varijabla

Redovne kategorijalne varijable imaju prirodni poredak. Možemo odrediti redoslijed, od najnižeg do najvišeg s redoslijedom = TRUE i najvišeg do najnižeg s redoslijedom = FALSE.

Primjer:

Sažetak možemo koristiti za brojanje vrijednosti za svaku varijablu faktora u R.

# Create Ordinal categorical vectorday_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')# Convert `day_vector` to a factor with ordered levelfactor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))# Print the new variablefactor_day

Izlaz:

## [1] evening morning afternoon middaymidnight evening 

Primjer:

## Levels: morning < midday < afternoon < evening < midnight# Append the line to above code# Count the number of occurence of each levelsummary(factor_day)

Izlaz:

## morning midday afternoon evening midnight## 1 1 1 2 1

R je naredio razinu od "jutra" do "ponoći" kako je navedeno u zagradama nivoa.

Neprekidne varijable

Neprekidne varijable klase zadana su vrijednost u R. Spremljene su kao numeričke ili cjelobrojne. To možemo vidjeti iz donjeg skupa podataka. mtcars je ugrađeni skup podataka. Prikuplja informacije o različitim vrstama automobila. Možemo ga uvesti pomoću mtcara i provjeriti klasu varijable mpg, milja po galonu. Vraća numeričku vrijednost koja označava kontinuiranu varijablu.

dataset <- mtcarsclass(dataset$mpg)

Izlaz

## [1] "numeric"