Što je programski jezik R? Uvod & Osnove R.

Sadržaj:

Anonim

Što je R softver?

R je programski jezik i besplatni softver koji su razvili Ross Ihaka i Robert Gentleman 1993. godine. R posjeduje opsežni katalog statističkih i grafičkih metoda. Uključuje algoritme strojnog učenja, linearnu regresiju, vremenske serije, statističke zaključke da nabrojimo samo neke. Većina R knjižnica napisana je na R, ali za teške računske zadatke preferiraju se C, C ++ i Fortran kodovi.

R ne povjeravaju samo akademici, već mnoge velike tvrtke također koriste programski jezik R, uključujući Uber, Google, Airbnb, Facebook i tako dalje.

Analiza podataka s R vrši se u nizu koraka; programiranje, transformiranje, otkrivanje, modeliranje i komuniciranje rezultata

  • Program : R je jasan i dostupan programski alat
  • Transform : R se sastoji od zbirke knjižnica dizajniranih posebno za znanost o podacima
  • Otkrijte : Istražite podatke, pročistite svoju hipotezu i analizirajte ih
  • Model : R nudi širok spektar alata za hvatanje pravog modela za vaše podatke
  • Komunicirajte : integrirajte kodove, grafikone i izlaze u izvješće pomoću R Markdown ili izradite sjajne aplikacije za dijeljenje sa svijetom

U ovom uvodnom uputstvu naučit ćete R

  • Za što se koristi R?
  • R prema industriji
  • R paket
  • Komunicirajte s R
  • Zašto koristiti R?
  • Trebate li odabrati R?
  • Je li R teško?

Za što se koristi R?

  • Statističko zaključivanje
  • Analiza podataka
  • Algoritam strojnog učenja

R prema industriji

Ako raščlanimo upotrebu R-a po djelatnostima, vidimo da su akademici na prvom mjestu. R je jezik za statistiku. R je prvi izbor u zdravstvenoj industriji, a slijede ga vlada i savjetovanje.

R paket

Primarna uporaba R je i uvijek će biti, statistika, vizualizacija i strojno učenje. Slika ispod prikazuje koji je R paket dobio najviše pitanja u Stack Overflowu. U prvih 10, većina ih je vezana uz tijek rada znanstvenika podataka: priprema podataka i priopćavanje rezultata.

Sve biblioteke R, gotovo 12k, pohranjene su u CRAN-u. CRAN je besplatan i otvoren izvor. Brojne knjižnice možete preuzeti i koristiti za izvođenje strojnog učenja ili analize vremenskih serija.

Komunicirajte s R

R ima više načina za predstavljanje i dijeljenje posla, bilo kroz dokument o umanjenju ili sjajnu aplikaciju. Sve se može hostirati na Rpub, GitHub ili web mjestu tvrtke.

Ispod je primjer prezentacije hostirane na Rpub-u

Rstudio prihvaća umanjenje za pisanje dokumenta. Dokumente možete izvesti u različite formate:

  • Dokument:
    • HTML
    • PDF / Latex
    • Riječ
  • Prezentacija
    • HTML
    • PDF snop

Rstudio ima izvrstan alat za jednostavno stvaranje aplikacije. Ispod je primjer aplikacije s podacima Svjetske banke.

Zašto koristiti R?

Znanost o podacima oblikuje način na koji tvrtke vode svoje poslovanje. Bez sumnje, držanje podalje od umjetne inteligencije i stroja dovest će tvrtku do neuspjeha. Veliko je pitanje koji biste alat / jezik trebali koristiti?

Na tržištu je dostupno puno alata za obavljanje analize podataka. Učenje novog jezika zahtijeva određeno vrijeme. Slika dolje prikazuje krivulju učenja u usporedbi s poslovnom sposobnošću koju jezik nudi. Negativni odnos implicira da nema besplatnog ručka. Ako želite dati najbolji uvid iz podataka, tada trebate potrošiti neko vrijeme učeći odgovarajući alat, a to je R.

U gornjem lijevom dijelu grafikona možete vidjeti Excel i PowerBI. Ova dva alata je jednostavno naučiti, ali ne nude izvanredne poslovne sposobnosti, posebno u smislu modeliranja. U sredini možete vidjeti Python i SAS. SAS je namjenski alat za vođenje statističke analize za poslovanje, ali nije besplatan. SAS je softver za klikanje i pokretanje. Python je, međutim, jezik s monotonom krivuljom učenja. Python je fantastičan alat za primjenu Strojnog učenja i AI-a, ali mu nedostaju komunikacijske značajke. S identičnom krivuljom učenja, R je dobar kompromis između implementacije i analize podataka.

Što se tiče vizualizacije podataka (DataViz), vjerojatno ste čuli za Tableau. Tableau je, bez sumnje, izvrstan alat za otkrivanje obrazaca putem grafikona i grafikona. Osim toga, učenje Tableau-a nije dugotrajno. Jedan od velikih problema s vizualizacijom podataka je da možda nikada nećete pronaći obrazac ili jednostavno stvoriti mnoštvo beskorisnih grafikona. Tableau je dobar alat za brzu vizualizaciju podataka ili Business Intelligence. Što se tiče statistike i alata za donošenje odluka, R je prikladniji.

Stack Overflow velika je zajednica za programske jezike. Ako imate problema s kodiranjem ili trebate razumjeti model, Stack Overflow je tu da vam pomogne. Tijekom godine postotak pregleda pitanja naglo se povećao za R u usporedbi s ostalim jezicima. Ovaj je trend, naravno, u visokoj korelaciji s naraslim dobom znanosti o podacima, ali odražava potražnju R jezika za znanošću o podacima.

U znanosti o podacima postoje dva alata koja se međusobno natječu. R i Python su vjerojatno programski jezik koji definira znanost o podacima.

Trebate li odabrati R?

Znanstvenik podataka može koristiti dva izvrsna alata: R i Python. Možda nećete imati vremena naučiti ih oboje, pogotovo ako započnete učiti znanost o podacima. Učenje statističkog modeliranja i algoritmaje mnogo važnije od učenja programskog jezika. Programski jezik alat je za izračunavanje i priopćavanje vašeg otkrića. Najvažniji zadatak u znanosti o podacima jest način na koji radite s podacima: uvoz, čišćenje, priprema, inženjering značajki, odabir značajki. Ovo bi trebao biti vaš primarni fokus. Ako istodobno pokušavate naučiti R i Python bez solidne pozadine statistike, to je jednostavno glupo. Znanstvenici podataka nisu programeri. Njihov je posao razumjeti podatke, manipulirati njima i izložiti najbolji pristup. Ako razmišljate o tome koji jezik naučiti, provjerimo koji je jezik za vas najprikladniji.

Glavna publika za znanost o podacima je poslovno profesionalno. U poslu je jedna velika implikacija komunikacija. Postoji mnogo načina komunikacije: izvješće, web aplikacija, nadzorna ploča. Treba vam alat koji sve to čini zajedno.

Je li R teško?

Prije godina, R je bilo teško savladati jezik. Jezik je bio zbunjujući i nije bio tako strukturiran kao drugi programski alati. Kako bi prevladao ovaj glavni problem, Hadley Wickham razvio je kolekciju paketa nazvanu tidyverse. Pravilo igre promijenilo se nabolje. Manipulacija podacima postaje trivijalna i intuitivna. Stvaranje grafa više nije bilo tako teško.

Najbolji algoritmi za strojno učenje mogu se implementirati s R. Paketi poput Keras i TensorFlow omogućuju stvaranje vrhunske tehnike strojnog učenja. R također ima paket za izvođenje Xgboost-a, jednog od najboljih algoritama za Kaggle natjecanje.

R može komunicirati s drugim jezikom. U R. je moguće nazvati Python, Java, C ++. Svijet velikih podataka također je dostupan i R. Možete povezati R s različitim bazama podataka poput Spark ili Hadoop.

Konačno, R je evoluirao i omogućio operaciju paraleliziranja da ubrza računanje. Zapravo, R je kritiziran zbog istodobnog korištenja samo jednog CPU-a. Paralelni paket omogućuje vam izvršavanje zadataka u različitim jezgrama stroja.

Sažetak

Ukratko, R je izvrstan alat za istraživanje i istraživanje podataka. Razrađena analiza poput grupiranja, korelacije i smanjenja podataka vrši se s R. To je najvažniji dio, bez dobrog inženjeringa značajki i modela, primjena strojnog učenja neće dati značajne rezultate.