Strojno učenje bez nadzora: što je, algoritmi, primjer

Sadržaj:

Anonim

Učenje bez nadzora

Učenje bez nadzora je tehnika strojnog učenja u kojoj korisnici ne trebaju nadzirati model. Umjesto toga, omogućuje modelu da samostalno radi na otkrivanju obrazaca i informacija koje prije nisu bile otkrivene. Uglavnom se bavi neobilježenim podacima.

Algoritmi učenja bez nadzora

Algoritmi učenja bez nadzora omogućuju korisnicima izvršavanje složenijih zadataka obrade u odnosu na nadzirano učenje. Iako, nenadzirano učenje može biti nepredvidljivije u usporedbi s drugim prirodnim metodama učenja. Algoritmi učenja bez nadzora uključuju grupiranje, otkrivanje anomalija, neuronske mreže itd.

U ovom vodiču naučit ćete:

  • Primjer strojnog učenja bez nadzora
  • Zašto učenje bez nadzora?
  • Vrste učenja bez nadzora
  • Skupljanje
  • Vrste klastera
  • Udruživanje
  • Nadzirano ili nenadzirano strojno učenje
  • Primjene strojnog učenja bez nadzora
  • Nedostaci učenja bez nadzora

Primjer strojnog učenja bez nadzora

Uzmimo slučaj bebe i njezina obiteljskog psa.

Ona zna i identificira ovog psa. Nekoliko tjedana kasnije obiteljski prijatelj dovodi psa i pokušava se igrati s bebom.

Beba ovog psa nije vidjela ranije. Ali prepoznaje mnoge osobine (2 uha, oči, hodanje na 4 noge) poput njenog psa ljubimca. Novu životinju identificira kao psa. Ovo je učenje bez nadzora, gdje vas ne uče, ali učite iz podataka (u ovom slučaju podataka o psu.) Da je to bilo pod nadzorom, obiteljski bi prijatelj rekao bebi da je to pas.

Zašto učenje bez nadzora?

Evo glavnih razloga za upotrebu učenja bez nadzora:

  • Strojno učenje bez nadzora pronalazi sve vrste nepoznatih obrazaca u podacima.
  • Nenadgledane metode pomažu vam u pronalaženju značajki koje mogu biti korisne za kategorizaciju.
  • Održava se u stvarnom vremenu, tako da se svi ulazni podaci analiziraju i označavaju u prisutnosti učenika.
  • Lakše je dobiti neoznačene podatke s računala nego etiketirane podatke koji trebaju ručnu intervenciju.

Vrste učenja bez nadzora

Problemi učenja bez nadzora nadalje se grupiraju u probleme klasterizacije i udruživanja.

Skupljanje

Grupiranje je važan koncept kada je u pitanju učenje bez nadzora. Uglavnom se bavi pronalaženjem strukture ili uzorka u zbirci nekategoriziranih podataka. Algoritmi klasteriranja obradit će vaše podatke i pronaći prirodne klastere (grupe) ako oni postoje u podacima. Također možete izmijeniti koliko klastera vaši algoritmi trebaju prepoznati. Omogućuje vam podešavanje granularnosti ovih grupa.

Postoje različite vrste klastera koje možete koristiti:

Ekskluzivno (particioniranje)

U ovoj metodi klasteriranja podaci su grupirani na takav način da jedan podatak može pripadati samo jednom klasteru.

Primjer: K-znači

Aglomerativni

U ovoj tehnici klasteriranja, svaki je podatak klaster. Iterativne unije između dva najbliža klastera smanjuju broj klastera.

Primjer: Hijerarhijsko grupiranje

Preklapanje

U ovoj se tehnici nejasni skupovi koriste za grupiranje podataka. Svaka točka može pripadati dvjema ili više skupina s odvojenim stupnjevima članstva.

Ovdje će podaci biti povezani s odgovarajućom vrijednošću članstva. Primjer: Nejasna C-sredstva

Vjerojatnosni

Ova tehnika koristi raspodjelu vjerojatnosti za stvaranje klastera

Primjer: slijeđenje ključnih riječi

  • "muška cipela".
  • "ženska cipela".
  • "ženska rukavica".
  • "muška rukavica".

mogu se grupirati u dvije kategorije "cipela" i "rukavica" ili "muškarac" i "žene".

Vrste klastera

  • Hijerarhijsko grupiranje
  • K-znači grupiranje
  • K-NN (k najbližih susjeda)
  • Analiza glavne komponente
  • Dekompozicija singularne vrijednosti
  • Neovisna analiza komponenata

Hijerarhijsko klasteriranje:

Hijerarhijsko klasteriranje algoritam je koji gradi hijerarhiju klastera. Počinje sa svim podacima koji su dodijeljeni njihovom klasteru. Ovdje će dva bliska klastera biti u istom klasteru. Ovaj algoritam završava kada je preostala samo jedna skupina.

K-znači grozd

K znači da je to iterativni algoritam grupiranja koji vam pomaže pronaći najveću vrijednost za svaku iteraciju. U početku se odabire željeni broj klastera. U ovoj metodi klasteriranja trebate grupirati točke podataka u k grupa. Veći k na isti način znači manje skupine s više granularnosti. Niži k znači veće skupine s manje zrnatosti.

Izlaz algoritma je skupina "oznaka". Točku podataka dodjeljuje jednoj od k grupa. U k-znači klasteriranju, svaka se skupina definira stvaranjem centroida za svaku skupinu. Centroidi su poput srca nakupine, koja bilježi najbliže točke i dodaje ih u nakupinu.

K-srednje grupiranje nadalje definira dvije podskupine:

  • Aglomerativno grupiranje
  • Dendrogram

Aglomerativno grupiranje:

Ova vrsta K-znači klasteriranje započinje s fiksnim brojem klastera. Sve podatke raspoređuje u točan broj klastera. Ova metoda klasteriranja ne zahtijeva broj klastera K kao ulaz. Proces aglomeracije započinje formiranjem svakog podatka kao jedinstvene skupine.

Ova metoda koristi neku mjeru udaljenosti, smanjuje broj klastera (po jedan u svakoj iteraciji) postupkom spajanja. Na kraju, imamo jednu veliku skupinu koja sadrži sve objekte.

Dendrogram:

U metodi klasteriziranja Dendrograma, svaka će razina predstavljati mogući klaster. Visina dendrograma pokazuje razinu sličnosti između dviju nakupinskih skupina. Što su dnu procesa bliže, to je sličniji klaster, a to je nalaz grupe iz dendrograma koji nije prirodan i uglavnom subjektivan.

K- Najbliži susjedi

K- najbliži susjed je najjednostavniji od svih klasifikatora strojnog učenja. Razlikuje se od ostalih tehnika strojnog učenja po tome što ne daje model. To je jednostavan algoritam koji pohranjuje sve dostupne slučajeve i klasificira nove instance na temelju mjere sličnosti.

Vrlo dobro funkcionira kad postoji razdaljina između primjera. Brzina učenja je spora kad je set treninga velik, a proračun udaljenosti nije trivijalan.

Analiza glavnih komponenata:

U slučaju da želite prostor veće dimenzije. Morate odabrati osnovu za taj prostor i samo 200 najvažnijih ocjena te osnove. Ova je baza poznata kao glavna komponenta. Podskup koji odaberete čine novi prostor koji je male veličine u usporedbi s izvornim prostorom. Održava što je više moguće složenosti podataka.

Udruživanje

Pravila pridruživanja omogućuju vam uspostavljanje povezivanja među objektima podataka unutar velikih baza podataka. Ova nenadgledana tehnika odnosi se na otkrivanje zanimljivih odnosa između varijabli u velikim bazama podataka. Na primjer, ljudi koji kupuju novi dom najvjerojatnije će kupiti novi namještaj.

Ostali primjeri:

  • Podskupina oboljelih od raka grupirana prema mjerenjima ekspresije gena
  • Grupe kupaca na temelju njihove povijesti pregledavanja i kupnje
  • Filmska grupa prema ocjeni koju su dali gledatelji filmova

Nadzirano ili nenadzirano strojno učenje

Parametri Nadzirana tehnika strojnog učenja Tehnika strojnog učenja bez nadzora
Ulazni podaci Algoritmi se treniraju pomoću označenih podataka. Algoritmi se koriste protiv podataka koji nisu označeni
Računalna složenost Učenje pod nadzorom jednostavnija je metoda. Učenje bez nadzora je računski složeno
Točnost Izuzetno točna i pouzdana metoda. Manje precizna i pouzdana metoda.

Primjene strojnog učenja bez nadzora

Neke su primjene tehnika nadzora strojnog učenja bez nadzora:

  • Klasteriranje automatski dijeli skup podataka u grupe na temelju njihovih sličnosti
  • Otkrivanje anomalija može otkriti neobične podatkovne točke u vašem skupu podataka. Korisno je za pronalaženje lažnih transakcija
  • Udruženo rudarstvo identificira skupove stavki koji se često javljaju zajedno u vašem skupu podataka
  • Latentni varijabilni modeli široko se koriste za predobradu podataka. Kao što je smanjenje broja značajki u skupu podataka ili razlaganje skupa podataka na više komponenata

Nedostaci učenja bez nadzora

  • Ne možete dobiti precizne informacije u vezi sa sortiranjem podataka, a izlaz kao podaci korišteni u nenadgledanom učenju označen je i nepoznat
  • Manja je točnost rezultata jer ulazni podaci nisu poznati i nisu unaprijed označeni od strane ljudi. To znači da stroj to mora učiniti sam.
  • Spektralne klase ne odgovaraju uvijek informacijskim klasama.
  • Korisnik mora potrošiti vrijeme tumačeći i označavajući klase koje slijede tu klasifikaciju.
  • Spektralna svojstva klasa također se mogu mijenjati s vremenom pa ne možete imati iste podatke o klasi dok se prebacujete s jedne slike na drugu.

Sažetak

  • Učenje bez nadzora je tehnika strojnog učenja, gdje ne trebate nadgledati model.
  • Strojno učenje bez nadzora pomaže vam u pronalaženju svih vrsta nepoznatih obrazaca u podacima.
  • Grupiranje i udruživanje dvije su vrste učenja bez nadzora.
  • Četiri vrste metoda klasterizacije su 1) Ekskluzivne 2) Aglomerativne 3) Preklapajuće 4) Vjerovatnosne.
  • Važne vrste klasterizacije su: 1) Hijerarhijska klasterizacija 2) K-znači klasterizacija 3) K-NN 4) Analiza glavnih komponenata 5) Dekompozicija singularne vrijednosti 6) Neovisna analiza komponenata.
  • Pravila pridruživanja omogućuju vam uspostavljanje povezivanja među objektima podataka unutar velikih baza podataka.
  • U učenju pod nadzorom, algoritmi se treniraju pomoću označenih podataka, dok se u učenju bez nadzora algoritmi koriste protiv podataka koji nisu označeni.
  • Otkrivanje anomalija može otkriti važne podatkovne točke u vašem skupu podataka, što je korisno za pronalaženje lažnih transakcija.
  • Najveći nedostatak učenja bez nadzora je taj što ne možete dobiti precizne informacije u vezi sa sortiranjem podataka.