NLTK Tokenize: Riječ i rečenica Tokenizer s primjerom

Sadržaj:

Anonim

Što je tokenizacija?

Tokenizacija je postupak kojim se velika količina teksta dijeli na manje dijelove koji se nazivaju žetoni. Ovi su znakovi vrlo korisni za pronalaženje uzoraka i smatraju se osnovnim korakom za rezanje i lematizaciju. Tokenizacija također pomaže zamjeni osjetljivih podataka s neosjetljivim elementima podataka.

Obrada prirodnog jezika koristi se za izgradnju aplikacija kao što su klasifikacija teksta, inteligentni chatbot, sentimentalna analiza, prijevod jezika itd. Za postizanje gore navedene svrhe postaje vitalno razumjeti obrazac u tekstu.

Zasad ne brinite o rezultiranju i lematizaciji već ih tretirajte kao korake za čišćenje tekstualnih podataka pomoću NLP-a (obrada na prirodnom jeziku). O temama i lematizaciji razgovarat ćemo kasnije u vodiču. Zadaci poput klasifikacije teksta ili filtriranja neželjene pošte koriste se NLP-om zajedno s knjižnicama dubokog učenja kao što su Keras i Tensorflow.

Natural Language Toolkit je vrlo važan modul NLTK tokenize rečenice što se dodatno sastoji od pod-modula

  1. riječ tokenizirati
  2. rečenica tokenize

Tokenizacija riječi

Koristimo metodu word_tokenize () da podijelimo rečenicu u riječi. Izlaz tokenizacije riječi može se pretvoriti u Data Frame za bolje razumijevanje teksta u programima strojnog učenja. Može se pružiti i kao ulaz za daljnje korake čišćenja teksta, poput uklanjanja interpunkcije, uklanjanja numeričkih znakova ili rezanja. Modeli strojnog učenja trebaju numeričke podatke da bi se obučili i napravili predviđanje. Tokenizacija riječi postaje presudni dio pretvorbe teksta (niza) u numeričku. Molimo pročitajte o Bag of Words ili CountVectorizeru. Molimo pogledajte donju riječ za označavanje primjera NLTK kako biste bolje razumjeli teoriju.

from nltk.tokenize import word_tokenizetext = "God is Great! I won a lottery."print(word_tokenize(text))Output: ['God', 'is', 'Great', '!', 'I', 'won', 'a', 'lottery', '.']

Objašnjenje koda

  1. modul word_tokenize uvozi se iz knjižnice NLTK.
  2. Varijabla "tekst" inicijalizira se s dvije rečenice.
  3. Tekstualna varijabla prenosi se u modul word_tokenize i ispisuje rezultat. Ovaj modul razbija svaku riječ interpunkcijom što možete vidjeti u izlazu.

Tokenizacija rečenica

Podmodul dostupan za gore navedeno je sent_tokenize. Očito pitanje u vašem umu bilo bi zašto je tokenizacija rečenica potrebna kada imamo mogućnost tokenizacije riječi . Zamislite da trebate izbrojati prosječne riječi po rečenici, kako ćete izračunati? Za ostvarenje takvog zadatka potreban vam je i NLTK tokenizer rečenica kao i NLTK tokenizer riječi da biste izračunali omjer. Takav izlaz služi kao važna značajka za strojno vježbanje jer bi odgovor bio numerički.

Pogledajte donji primjer tokenizera NLTK da biste saznali kako se tokenizacija rečenica razlikuje od tokenizacije riječi.

from nltk.tokenize import sent_tokenizetext = "God is Great! I won a lottery."print(sent_tokenize(text))Output: ['God is Great!', 'I won a lottery ']

Imamo 12 riječi i dvije rečenice za isti unos.

Objašnjenje programa:

  1. U redak kao prethodni program, uvezao je modul sent_tokenize.
  2. Zauzeli smo istu rečenicu. Daljnji tokenizer rečenica u modulu NLTK raščlanio je te rečenice i pokazao izlaz. Jasno je da ova funkcija razbija svaku rečenicu.

Primjeri tokenizera riječi Python dobri su kamenčići za postavljanje za razumijevanje mehanike tokenizacije riječi i rečenica.

Sažetak

  • Tokenizacija u NLP-u postupak je kojim se velika količina teksta dijeli na manje dijelove koji se nazivaju žetoni.
  • Obrada prirodnog jezika koristi se za izgradnju aplikacija kao što su klasifikacija teksta, inteligentni chatbot, sentimentalna analiza, prijevod jezika itd.
  • Alat za prirodni jezik ima vrlo važan modul NLTK za označavanje rečenice koji se dalje sastoji od podmodula
  • Koristimo metodu word_tokenize () da podijelimo rečenicu u riječi. Izlaz tokenizera riječi u NLTK-u može se pretvoriti u Data Frame za bolje razumijevanje teksta u programima strojnog učenja.
  • Podmodul dostupan za gore navedeno je sent_tokenize. Tokenizator rečenice u Pythonu NLTK važna je značajka za strojno vježbanje.