Nadzirano strojno učenje: što je, algoritmi, primjer

Sadržaj:

Anonim

Što je nadzirano strojno učenje?

U učenju pod nadzorom, vi trenirate stroj koristeći podatke koji su dobro "označeni ". To znači da su neki podaci već označeni točnim odgovorom. Može se usporediti s učenjem koje se odvija u prisutnosti supervizora ili učitelja.

Nadzirani algoritam učenja uči iz označenih podataka o treningu, pomaže vam predvidjeti ishode za nepredviđene podatke.

Za uspješnu izgradnju, skaliranje i primjenu točnih nadziranih modela strojnog učenja potrebno je vrijeme i tehnička stručnost tima visoko kvalificiranih znanstvenika podataka. Štoviše, podatkovni znanstvenik mora obnoviti modele kako bi osigurao da dani uvidi ostanu istiniti sve dok se podaci ne promijene.

U ovom vodiču naučit ćete:

  • Što je nadzirano strojno učenje?
  • Kako funkcionira nadzirano učenje
  • Vrste nadziranih algoritama strojnog učenja
  • Tehnike strojnog učenja pod nadzorom i bez nadzora
  • Izazovi u nadgledanom strojnom učenju
  • Prednosti nadziranog učenja:
  • Mane nadziranog učenja
  • Najbolji primjeri za nadzirano učenje

Kako funkcionira nadzirano učenje

Na primjer, želite osposobiti stroj kako bi vam pomogao predvidjeti koliko će vam trebati vožnja kući sa svog radnog mjesta. Ovdje započinjete sa stvaranjem niza označenih podataka. Ovi podaci uključuju

  • Vremenski uvjeti
  • Doba dana
  • Praznici

Svi ovi detalji su vaši unosi. Rezultat je vrijeme potrebno za povratak kući tog određenog dana.

Instinktivno znate da će vam vani trebati više vremena ako vozite vani. Ali stroj treba podatke i statistiku.

Pogledajmo sada kako možete razviti model učenja pod nadzorom iz ovog primjera koji pomaže korisniku da odredi vrijeme putovanja na posao. Prvo što trebate za stvaranje je set za trening. Ovaj set treninga sadržavat će ukupno vrijeme putovanja na posao i odgovarajuće čimbenike kao što su vrijeme, vrijeme itd. Na temelju ovog kompleta treninga, vaš bi stroj mogao primijetiti da postoji izravna veza između količine kiše i vremena koje ćete trebati za povratak kući.

Dakle, utvrđuje da što više kiše, to ćete duže voziti do svog doma. Mogla bi vidjeti i vezu između vremena napuštanja posla i vremena na putu.

Što ste bliže 18 sati, treba vam više vremena da se vratite kući. Vaš će uređaj možda pronaći neke veze s vašim označenim podacima.

Ovo je početak vašeg podatkovnog modela. Počinje utjecati na to kako kiša utječe na način vožnje. Također se uočava da više ljudi putuje u određeno doba dana.

Vrste nadziranih algoritama strojnog učenja

Regresija:

Tehnika regresije predviđa jednu izlaznu vrijednost pomoću podataka treninga.

Primjer : Pomoću regresije možete predvidjeti cijenu kuće iz podataka s treninga. Ulazne varijable bit će mjesto, veličina kuće itd.

Prednosti : Izlazi uvijek imaju vjerojatnosnu interpretaciju, a algoritam se može regulirati kako bi se izbjeglo prekomjerno prilagođavanje.

Slabosti : Logistička regresija može biti loša kad postoje višestruke ili nelinearne granice odlučivanja. Ova metoda nije fleksibilna pa ne obuhvaća složenije odnose.

Logistička regresija:

Metoda logističke regresije korištena za procjenu diskretnih vrijednosti na temelju zadanog skupa neovisnih varijabli. Pomaže vam predvidjeti vjerojatnost pojave događaja prilagođavanjem podataka logit funkciji. Stoga je poznata i kao logistička regresija. Dok predviđa vjerojatnost, njegova izlazna vrijednost leži između 0 i 1.

Evo nekoliko vrsta regresijskih algoritama

Klasifikacija:

Klasifikacija znači grupiranje rezultata unutar klase. Ako algoritam pokušava označiti ulaz u dvije različite klase, to se naziva binarna klasifikacija. Odabir između više od dvije klase naziva se klasifikacija više klasa.

Primjer : Utvrđivanje hoće li netko neplatiti zajam.

Snage : Klasifikacijsko stablo vrlo dobro djeluje u praksi

Slabosti : Neograničena pojedinačna stabla sklona su prekomjernoj opremi.

Evo nekoliko vrsta klasifikacijskih algoritama

Naivni Bayesovi klasifikatori

Naivni Bayesov model (NBN) lako je izraditi i vrlo je koristan za velike skupove podataka. Ova metoda sastoji se od izravnih acikličkih grafikona s jednim roditeljem i nekoliko djece. Pretpostavlja neovisnost među podređenim čvorovima odvojenim od roditelja.

Stabla odlučivanja

Stabla odluka klasificiraju instance sortiranjem na temelju vrijednosti značajke. U ovoj je metodi svaki način značajka instance. Treba ga klasificirati, a svaka grana predstavlja vrijednost koju čvor može pretpostaviti. To je široko korištena tehnika za klasifikaciju. U ovoj metodi klasifikacija je stablo koje je poznato kao stablo odlučivanja.

Pomaže vam u procjeni stvarnih vrijednosti (trošak kupnje automobila, broj poziva, ukupna mjesečna prodaja itd.).

Podrška Vector Machine

Stroj za vektorske potpore (SVM) vrsta je algoritma učenja razvijenog 1990. Ova metoda temelji se na rezultatima statističke teorije učenja koju je uveo Vap Nik.

SVM strojevi su također usko povezani s funkcijama jezgre što je središnji koncept za većinu zadataka učenja. Okvir jezgre i SVM koriste se u raznim poljima. Uključuje pronalazak multimedijskih informacija, bioinformatiku i prepoznavanje uzoraka.

Tehnike strojnog učenja pod nadzorom i bez nadzora

Na temelju Nadzirana tehnika strojnog učenja Tehnika strojnog učenja bez nadzora
Ulazni podaci Algoritmi se treniraju pomoću označenih podataka. Algoritmi se koriste protiv podataka koji nisu označeni
Računalna složenost Učenje pod nadzorom jednostavnija je metoda. Učenje bez nadzora je računski složeno
Točnost Izuzetno točna i pouzdana metoda. Manje precizna i pouzdana metoda.

Izazovi u nadgledanom strojnom učenju

Evo izazova s ​​kojima se suočava nadzirano strojno učenje:

  • Nebitne značajke unosa koje sadrže prisutni podaci o treningu mogu dati netočne rezultate
  • Priprema i obrada podataka uvijek je izazov.
  • Točnost pati kad je nemoguće, malo vjerojatno, a kao podaci o treningu unesene su nepotpune vrijednosti
  • Ako dotični stručnjak nije dostupan, tada je drugi pristup "gruba sila". To znači da morate misliti da su ispravne značajke (ulazne varijable) za osposobljavanje stroja. Moglo bi biti netočno.

Prednosti nadziranog učenja:

  • Nadzirano učenje omogućuje vam prikupljanje podataka ili dobivanje podataka iz prethodnog iskustva
  • Pomaže vam u optimizaciji kriterija izvedbe koristeći iskustvo
  • Nadzirano strojno učenje pomaže vam u rješavanju različitih vrsta računalnih problema u stvarnom svijetu.

Mane nadziranog učenja

  • Granica odluke može biti pretjerana ako vaš set treninga nema primjere koje želite imati u nastavi
  • Tijekom treninga klasifikatora iz svakog razreda morate odabrati puno dobrih primjera.
  • Klasifikacija velikih podataka može biti pravi izazov.
  • Za osposobljavanje za učenje pod nadzorom potrebno je puno računanja.

Najbolji primjeri za nadzirano učenje

  • Prije nego što napravite bilo što drugo, morate odlučiti koje ćete podatke koristiti kao set treninga
  • Morate odlučiti o strukturi naučene funkcije i algoritmu učenja.
  • Skupite odgovarajuće izlaze ili od ljudskih stručnjaka ili od mjerenja

Sažetak

  • U učenju pod nadzorom, vi trenirate stroj koristeći podatke koji su dobro "označeni".
  • Želite osposobiti stroj koji vam pomaže predvidjeti koliko će vam trebati vožnja kući sa radnog mjesta primjer je nadzora pod nadzorom
  • Regresija i klasifikacija dvije su vrste nadziranih tehnika strojnog učenja.
  • Učenje pod nadzorom jednostavnija je metoda, dok je učenje pod nadzorom složena metoda.
  • Najveći izazov u učenju pod nadzorom je taj što nebitna značajka unosa koja sadrži podatke o treningu može dati netočne rezultate.
  • Glavna prednost nadziranog učenja je što vam omogućuje prikupljanje podataka ili dobivanje podataka iz prethodnog iskustva.
  • Nedostatak ovog modela je taj što bi granice odlučivanja mogle biti prenapete ako vaš set treninga nema primjere koje želite imati u nastavi.
  • Kao najbolja praksa nadgledanja učenja, prvo trebate odlučiti kakve podatke treba koristiti kao set obuke.