Top 50 pitanja i odgovora za intervju za znanost o podacima

Anonim

Slijede često postavljana pitanja na razgovorima za posao kako za svježe tako i za iskusne znanstvenike podataka.

1. Što je znanost o podacima?

Data Science kombinacija je algoritama, alata i tehnike strojnog učenja koja vam pomaže pronaći zajedničke skrivene uzorke iz danih sirovih podataka.

2. Što je logistička regresija u znanosti znanosti?

Logistička regresija naziva se i logit modelom. To je metoda za predviđanje binarnog ishoda iz linearne kombinacije prediktorskih varijabli.

3. Navedi tri vrste pristranosti koje se mogu pojaviti tijekom uzorkovanja

U postupku uzorkovanja postoje tri vrste pristranosti, a to su:

  • Pristranost odabira
  • Pod pristranosti pokrivenosti
  • Predrasuda prema preživljavanju

4. Raspravite o algoritmu stabla odlučivanja

Stablo odluka popularan je nadzirani algoritam strojnog učenja. Uglavnom se koristi za regresiju i klasifikaciju. Omogućuje rastavljanje skupa podataka na manje podskupove. Stablo odluke može obrađivati ​​i kategoričke i numeričke podatke.

5. Što je prioritetna vjerojatnost i vjerojatnost?

Prethodna vjerojatnost je udio ovisne varijable u skupu podataka, dok je vjerojatnost vjerojatnost klasificiranja određenog promatrača u prisutnosti neke druge varijable.

6. Objasniti sustave koji preporučuju?

To je podrazred tehnika filtriranja informacija. Pomaže vam predvidjeti preferencije ili ocjene koje će korisnici vjerojatno dati proizvodu.

7. Navedi tri nedostatka korištenja linearnog modela

Tri su nedostatka linearnog modela:

  • Pretpostavka linearnosti pogrešaka.
  • Ovaj model ne možete koristiti za binarne rezultate ili računati ishode
  • Puno je problema s prekomjernom opremom koje on ne može riješiti

8. Zašto trebate izvršiti ponovno uzorkovanje?

Ponovno uzorkovanje vrši se u dolje navedenim slučajevima:

  • Procjena točnosti statistike uzorka nasumičnim crtanjem uz zamjenu iz skupa podataka ili pomoću podskupova dostupnih podataka
  • Zamjena naljepnica na podatkovnim točkama prilikom izvođenja potrebnih ispitivanja
  • Provjera valjanosti modela pomoću slučajnih podskupova

9. Navedite knjižnice u Pythonu koje se koriste za analizu podataka i znanstvena izračunavanja.

  • SciPy
  • Pande
  • Matplotlib
  • NumPy
  • SciKit
  • Pomorski

10. Što je analiza snage?

Analiza snage sastavni je dio eksperimentalnog dizajna. Pomaže vam u određivanju veličine uzorka koja je potrebna da biste saznali učinak određene veličine iz uzroka s određenom razinom sigurnosti. Omogućuje vam i postavljanje određene vjerojatnosti u ograničenje veličine uzorka.

11. Objasnite filtriranje u suradnji

Suradničko filtriranje koje se koristi za traženje ispravnih obrazaca suradnjom gledišta, više izvora podataka i različitih agenata.

12. Što je pristranost?

Predrasuda je pogreška koja je u vašem modelu uvedena zbog pretjerano pojednostavljenog algoritma strojnog učenja. "To može dovesti do nedostatka opreme.

13. Raspravljati o 'naivnom' u naivnom Bayesovom algoritmu?

Model naivnog Bayesova algoritma temelji se na Bayesovom teoremu. Opisuje vjerojatnost događaja. Temelji se na predznanju o uvjetima koji bi mogli biti povezani s tim određenim događajem.

14. Što je linearna regresija?

Linearna regresija je metoda statističkog programiranja gdje se rezultat varijable 'A' predviđa iz rezultata druge varijable 'B'. B se naziva prediktorskom varijablom, a A kao kriterijskom varijablom.

15. Navedite razliku između očekivane i srednje vrijednosti

Nisu velike razlike, ali se oba ova pojma koriste u različitim kontekstima. Na srednju vrijednost obično se govori kada raspravljate o raspodjeli vjerojatnosti, dok se na očekivanu vrijednost govori u kontekstu slučajne varijable.

16. Koji je cilj provođenja A / B testiranja?

AB testiranje korišteno za provođenje slučajnih eksperimenata s dvije varijable, A i B. Cilj ove metode ispitivanja je otkriti promjene na web stranici kako bi se maksimalizirao ili povećao ishod strategije.

17. Što je ansambl učenje?

Ansambl je metoda kombiniranja raznolikog skupa učenika kako bi se improviziralo na stabilnosti i prediktivnoj snazi ​​modela. Dvije vrste metoda učenja u ansamblu su:

Pakiranje

Metoda vrećica pomaže vam da primijenite slične učenike na malim uzorcima populacija. Pomaže vam u bližim predviđanjima.

Povećavanje

Pojačavanje je iterativna metoda koja vam omogućuje podešavanje težine promatranja, ovisno o posljednjoj klasifikaciji. Pojačanje smanjuje pogrešku pristranosti i pomaže vam u izgradnji snažnih prediktivnih modela.

18. Objasnite vlastite vrijednosti i vlastite vektore

Vlastiti vektori služe za razumijevanje linearnih transformacija. Znanstvenik podataka mora izračunati vlastite vektore za kovarijantnu matricu ili korelaciju. Vlastite vrijednosti su upute uz korištenje specifičnih linearnih transformacijskih djela sabijanjem, prevrtanjem ili istezanjem.

19. Definirajte pojam unakrsne provjere valjanosti

Unakrsna provjera valjanosti je tehnika vrednovanja kako će se generalizirati ishodi statističke analize za neovisni skup podataka. Ova se metoda koristi u pozadinama u kojima se predviđa cilj i treba procijeniti koliko će točno model postići.

20. Objasnite korake za projekt Analitike podataka

Sljedeći su važni koraci uključeni u analitički projekt:

  • Razumjeti poslovni problem
  • Istražite podatke i pažljivo ih proučite.
  • Pripremite podatke za modeliranje pronalaženjem vrijednosti koje nedostaju i transformiranjem varijabli.
  • Počnite izvoditi model i analizirajte rezultat velikih podataka.
  • Potvrdite model novim skupom podataka.
  • Primijenite model i pratite rezultat kako biste analizirali izvedbu modela za određeno razdoblje.

21. Raspravite o umjetnim neuronskim mrežama

Umjetne neuronske mreže (ANN) poseban su skup algoritama koji su revolucionirali strojno učenje. Pomaže vam u prilagodbi prema promjeni unosa. Tako mreža generira najbolji mogući rezultat bez redizajniranja izlaznih kriterija.

22. Što je razmnožavanje leđa?

Povratno širenje je suština treninga neuronske mreže. To je metoda podešavanja težina neuronske mreže koja ovisi o stopi pogreške dobivenoj u prethodnoj epohi. Ispravno podešavanje pomagala pomaže vam da smanjite stope pogrešaka i učinite model pouzdanim povećavanjem njegove generalizacije.

23. Što je slučajna šuma?

Slučajna šuma metoda je strojnog učenja koja vam pomaže u izvršavanju svih vrsta zadataka regresije i klasifikacije. Također se koristi za liječenje vrijednosti koje nedostaju i vrijednosti koje nisu.

24. Koja je važnost pristranosti prema odabiru?

Nepristranost odabiru javlja se kada nije postignuta posebna randomizacija tijekom odabira pojedinaca ili grupa ili podataka koji će se analizirati. Sugerira da dati uzorak ne predstavlja točno populaciju koja je trebala biti analizirana.

25. Što je metoda grupiranja K-znači?

Grupiranje K-značenja važna je metoda nadzora bez nadzora. Tehnika klasificiranja podataka pomoću određenog skupa klastera naziva se K klasteri. Primjenjuje se za grupiranje kako bi se utvrdila sličnost podataka.

26. Objasnite razliku između Data Science i Data Analytics

Znanstvenici podataka trebaju razvrstati podatke kako bi izvukli vrijedne uvide koje analitičar podataka može primijeniti na stvarne poslovne scenarije. Glavna razlika između njih dvojice je u tome što znanstvenici podataka imaju više tehničkog znanja od poslovnog analitičara. Štoviše, ne treba im razumijevanje posla potrebnog za vizualizaciju podataka.

27. Objasnite vrijednost p?

Kada provodite test hipoteze u statistici, vrijednost p omogućuje vam utvrđivanje snage vaših rezultata. To je numerički broj između 0 i 1. Na temelju vrijednosti pomoći će vam da označite snagu određenog rezultata.

28. Definirajte pojam dubokog učenja

Dubinsko učenje je podvrsta strojnog učenja. Bavi se algoritmima nadahnutima strukturom koja se naziva umjetne neuronske mreže (ANN).

29. Objasnite metodu prikupljanja i analize podataka za korištenje društvenih mreža za predviđanje vremenskih prilika.

Podatke na društvenim mrežama možete prikupljati koristeći Facebook, Twitter, Instagram-ove API-je. Na primjer, za visokotonac možemo iz svakog tweeta konstruirati značajku poput tweetiranog datuma, retweeta, popisa sljedbenika itd. Tada možete koristiti multivarijacijski model vremenskih serija za predviđanje vremenskih prilika.

30. Kada trebate ažurirati algoritam u znanosti o podacima?

Morate ažurirati algoritam u sljedećoj situaciji:

  • Želite da se vaš podatkovni model razvija kao prijenos podataka koristeći infrastrukturu
  • Izvor podataka se mijenja

    Ako je to nestacionarnost

31. Što je normalna raspodjela

Normalna raspodjela je skup kontinuirane varijable koja se širi preko normalne krivulje ili u obliku zvonaste krivulje. Možete ga smatrati kontinuiranom raspodjelom vjerojatnosti koja je korisna u statistici. Korisno je analizirati varijable i njihove odnose kada koristimo normalnu krivulju raspodjele.

32. Koji je jezik najbolji za analitiku teksta? R ili Python?

Python će biti prikladniji za analitiku teksta jer se sastoji od bogate biblioteke poznate kao pande. Omogućuje vam upotrebu alata i struktura podataka na visokoj razini, dok R ne nudi ovu značajku.

33. Objasnite prednosti korištenja statistike znanstvenika podataka

Statistika pomaže znanstveniku podataka da stekne bolju predodžbu o očekivanjima kupca. Korištenjem statističke metode Znanstvenici podataka mogu dobiti znanje o interesu potrošača, ponašanju, angažmanu, zadržavanju itd. Također vam pomaže u izgradnji moćnih modela podataka za potvrđivanje određenih zaključaka i predviđanja.

34. Navedi razne vrste okvira za duboko učenje

  • Pytorch
  • Microsoftov kognitivni alat
  • TensorFlow
  • Caffe
  • Lančić
  • Keras

35. Objasnite automatsko kodiranje

Autokoderi su mreže za učenje. Pomaže vam pretvoriti ulaze u izlaze s manje broja pogrešaka. To znači da ćete dobiti izlaz što bliže ulazu.

36. Definirajte Boltzmannov stroj

Boltzmannovi strojevi jednostavan su algoritam učenja. Pomaže vam otkriti one značajke koje predstavljaju složene pravilnosti u podacima o treningu. Ovaj algoritam omogućuje vam optimizaciju težine i količine za zadani problem.

37. Objasnite zašto je čišćenje podataka neophodno i koju metodu koristite za održavanje čistih podataka

Prljavi podaci često dovode do netočnih podataka, što može oštetiti perspektivu bilo koje organizacije. Na primjer, ako želite voditi ciljanu marketinšku kampanju. Međutim, naši vam podaci pogrešno govore da će određeni proizvod biti tražen kod vaše ciljne publike; kampanja neće uspjeti.

38. Što je iskrivljena raspodjela i jednolična raspodjela?

Iskrivljena raspodjela događa se kada se podaci distribuiraju na bilo kojoj strani crteža, dok se jedinstvena raspodjela identificira kada se podaci šire, u opsegu je jednako.

39. Kada se u statičnom modelu javlja nedovoljna opremljenost?

Nedovoljno prilagođavanje događa se kada statistički model ili algoritam strojnog učenja nisu u stanju uhvatiti temeljni trend podataka.

40. Što je učvršćivanje?

Pojačano učenje je mehanizam učenja o tome kako mapirati situacije u akcije. Krajnji rezultat trebao bi vam pomoći da povećate binarni signal nagrade. U ovoj metodi učeniku se ne govori koju radnju poduzeti, već mora otkriti koja akcija nudi maksimalnu nagradu. Kao i ova metoda koja se temelji na mehanizmu nagrade / kazne.

41. Navedi najčešće korištene algoritme.

Četiri najčešće korištena algoritma Data science-a su:

  • Linearna regresija
  • Logistička regresija
  • Slučajna šuma
  • KNN

42. Što je preciznost?

Preciznost je najčešće korištena metrika pogrešaka n mehanizam klasifikacije. Njegov je raspon od 0 do 1, gdje 1 predstavlja 100%

43. Što je univarijantna analiza?

Analiza koja se primjenjuje ni na jedan atribut odjednom poznata je kao univarijatna analiza. Boxplot je široko korišten, univarijatni model.

44. Kako prevladavate izazove u svojim nalazima?

Da bi se prevladali izazovi mog pronalaska, potrebno je potaknuti raspravu, pokazati vodstvo i poštujući različite mogućnosti.

45. Objasnite tehniku ​​uzorkovanja klastera u znanosti o podacima

Klaster metoda uzorkovanja koristi se kada je izazov proučavati širenje ciljne populacije, a ne može se primijeniti jednostavno slučajno uzorkovanje.

46. ​​Navedite razliku između skupa za provjeru i testa

Skup provjere valjanosti uglavnom se smatra dijelom skupa treninga jer se koristi za odabir parametara koji vam pomaže da izbjegnete prekomjerno prilagođavanje izgrađenog modela.

Dok se testni set koristi za testiranje ili procjenu izvedbe obučenog modela strojnog učenja.

47. Objasnite pojam Binomna formula vjerojatnosti?

"Binomna raspodjela sadrži vjerojatnosti svakog mogućeg uspjeha na N pokusima za neovisne događaje koji imaju vjerojatnost da će se dogoditi π."

48. Što je opoziv?

Opoziv je omjer stvarne pozitivne stope i stvarne pozitivne stope. Kreće se od 0 do 1.

49. Razgovarajte o normalnoj raspodjeli

Normalna raspodjela jednako raspodijeljena kao takva srednja vrijednost, medijan i način su jednaki.

50. Kako tijekom odabira skupa podataka možete odabrati važne varijable? Objasniti

Možete koristiti sljedeće metode odabira varijabli:

  • Uklonite korelirane varijable prije odabira važnih varijabli
  • Koristite linearnu regresiju i odaberite varijable koje ovise o toj vrijednosti p.
  • Koristite odabir unatrag, naprijed i korak po korak
  • Upotrijebite Xgboost, Random Forest i zacrtajte grafikon promjenjive važnosti.
  • Izmjerite dobitak informacija za zadani skup značajki i u skladu s tim odaberite prvih n značajki.

51. Je li moguće uhvatiti korelaciju između kontinuirane i kategorijalne varijable?

Da, možemo koristiti analizu tehnike kovarijance kako bismo uhvatili povezanost između kontinuiranih i kategorijskih varijabli.

52. Tretiranje kategorijalne varijable kao kontinuirane varijable rezultiralo bi boljim modelom predviđanja?

Da, kategoričku vrijednost treba smatrati kontinuiranom varijablom samo kada je varijabla redne naravi. Dakle, to je bolji prediktivni model.