U ovom vodiču naučit ćete -
- Instaliranje NLTK u sustavu Windows
- Instaliranje Pythona u sustavu Windows
- Instaliranje NLTK u Mac / Linux
- Instaliranje NLTK-a putem Anaconde
- NLTK skup podataka
- Kako preuzeti sve pakete NLTK-a
- Pokretanje NLP skripte
- Kako pokrenuti NLTK skriptu
Instaliranje NLTK u sustavu Windows
U ovom ćemo dijelu naučiti kako izvršiti postavljanje NLTK putem terminala (naredbeni redak u prozorima).
Upute date u nastavku temelje se na pretpostavci da nemate instaliran python. Dakle, prvi korak je instalacija pythona.
Instaliranje Pythona u sustavu Windows:
Korak 1) Idi povezati https://www.python.org/downloads/ , odaberite najnoviju verziju za Windows.
Napomena : Ako ne želite preuzeti najnoviju verziju, posjetite karticu za preuzimanje i pogledajte sva izdanja.
Korak 2) Kliknite preuzetu datoteku
Korak 3) Odaberite Prilagodi instalaciju
Korak 4) Kliknite DALJE
Korak 5) Na sljedećem zaslonu
- Odaberite napredne opcije
- Dajte mjesto prilagođene instalacije. U mom slučaju mapa na C pogonu odabrana je radi lakšeg rada
- Kliknite Instaliraj
Korak 6) Nakon završetka instalacije kliknite gumb Zatvori.
Korak 7) Kopirajte put do mape Scripts.
Korak 8) U naredbenom retku sustava Windows
- Dođite do mjesta mape pip
- Unesite naredbu za instaliranje NLTK
pip3 install nltk
- Instalaciju treba obaviti uspješno
NAPOMENA : Za Python2 koristite naredbupip2 install nltk
Korak 9) U izborniku Start sustava Windows pretražite i otvorite PythonShell
Korak 10) Možete provjeriti je li instalacija točna pružajući donju naredbu
import nltk
Ako ne vidite pogrešku, instalacija je dovršena.
Instaliranje NLTK u Mac / Linux
Instalacija NLTK u Mac / Unix zahtijeva python manager paketa pip da instalira nltk. Ako pip nije instaliran, slijedite upute u nastavku da biste dovršili postupak
Korak1) Ažurirajte indeks paketa upisivanjem naredbe u nastavku
sudo apt update
Korak2) Instaliranje pipa za Python 3:
sudo apt install python3-pip
Također možete instalirati pip koristeći easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Sada je instaliran easy_install. Pokrenite naredbu ispod kako biste instalirali pip
sudo easy_install pip
Korak 3) Koristite sljedeću naredbu za instaliranje NLTK
sudo pip install -U nltksudo pip3 install -U nltk
Instaliranje NLTK-a putem Anaconde
Korak1) Instalirajte anacondu (koja se također može koristiti za instaliranje različitih paketa) posjetom https://www.anaconda.com/products/individual i odaberite koju verziju pythona trebate instalirati za anacondu.
Napomena: Pogledajte ovaj vodič za detaljne korake za instaliranje anaconde
Korak 2) U odzivu Anaconda,
- Unesite naredbu
conda install -c anaconda nltk
- Pregledajte nadogradnju paketa, pređite na stariju verziju, instalirajte podatke i unesite da
- NLTK se preuzima i instalira
NLTK skup podataka
NLTK modul ima na raspolaganju mnogo skupova podataka koje trebate preuzeti da biste ih koristili. Tehnički se naziva korpusom . Neki od primjera su stop-riječi , Gutenberg , framenet_v15 , large_grammars i tako dalje.
Kako preuzeti sve pakete NLTK-a
Korak 1) Pokrenite Python interpreter u sustavu Windows ili Linux
Korak 2)
- Unesite naredbe
import nltknltk.download ()
- Otvorio se prozor preuzetog s NLTK-a. Kliknite gumb Preuzmi za preuzimanje skupa podataka. Ovaj će postupak potrajati, na temelju vaše internetske veze
NAPOMENA: Mjesto preuzimanja možete promijeniti tako da kliknete Datoteka> Promijeni direktorij preuzimanja
Korak 3) Za testiranje instaliranih podataka upotrijebite sljedeći kod
>>> from nltk.corpus import brown>>>brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]
Pokretanje NLP skripte
Razgovarat ćemo o tome kako će se NLP skripta izvršavati na našem lokalnom računalu. Na tržištu su prisutne mnoge knjižnice za obradu prirodnog jezika. Dakle, odabir knjižnice ovisi o vašim potrebama. Evo popisa NLP knjižnica.
Kako pokrenuti NLTK skriptu
1. korak) U omiljenom uređivaču koda kopirajte kôd i spremite datoteku kao " NLTKsample.py "
from nltk.tokenize import RegexpTokenizertokenizer = RegexpTokenizer(r'\w+')filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')print(filterdText)
Objašnjenje koda:
- Cilj ovog programa bio je ukloniti sve vrste interpunkcija iz zadanog teksta. Uvezli smo "RegexpTokenizer" koji je modul NLTK-a. Uklanja sve izraze, simbole, znakove, brojke ili bilo što drugo što želite.
- Upravo ste proslijedili redoviti izraz modulu "RegexpTokenizer".
- Dalje, tokenizirali smo riječ pomoću modula "tokenize". Izlaz se pohranjuje u varijablu "filterdText".
- I ispisali ih pomoću "print ()."
Korak2) U naredbenom retku
- Dođite do mjesta na kojem ste spremili datoteku
- Pokrenite naredbu Python NLTKsample.py
Ovo će prikazati izlaz kao:
[„Pozdrav“, „Guru99“, „Ti“, „imaš“, „gradiš“, „a“, „vrlo“, „dobro“, „web mjesto“, „i„, „Ja“, „volim“, „ posjetite ',' vaše ',' web mjesto ']