Označavanje problema i skriveni Markov model

Sadržaj:

Anonim

Označavanje rečenica

Označavanje rečenice u širem smislu odnosi se na dodavanje oznaka glagola, imenice itd. Kontekstom rečenice. Identifikacija POS oznaka složen je postupak. Stoga generičko označavanje POS-a ručno nije moguće, jer neke riječi mogu imati različita (dvosmislena) značenja prema strukturi rečenice. Pretvorba teksta u oblik popisa važan je korak prije označavanja jer se svaka riječ s popisa petlja i broji za određenu oznaku. Molimo pogledajte donji kod da biste ga bolje razumjeli

import nltktext = "Hello Guru99, You have to build a very good site, and I love visiting your site."sentence = nltk.sent_tokenize(text)for sent in sentence:print(nltk.pos_tag(nltk.word_tokenize(sent)))

IZLAZ

[('Hello', 'NNP'), ('Guru99', 'NNP'), (',', ','), ('You', 'PRP'), ('have', 'VBP'), ('build', 'VBN'), ('a', 'DT'), ('very', 'RB'), ('good', 'JJ'), ('site', 'NN'), ('and', 'CC'), ('I', 'PRP'), ('love', 'VBP'), ('visiting', 'VBG'), ('your', 'PRP$'), ('site', 'NN'), ('.', '.')]

Objašnjenje koda

  1. Kôd za uvoz nltk (Alat za prirodni jezik koji sadrži podmodule kao što su tokenize rečenice i tokenize riječi.)
  2. Tekst čije se oznake trebaju ispisati.
  3. Tokenizacija rečenice
  4. Primjenjuje se petlja For, gdje se riječi označavaju iz rečenice, a oznaka svake riječi ispisuje se kao izlaz.

U Corpusu postoje dvije vrste POS označivača:

  • Na temelju pravila
  • Stohastički POS označivači

1. Oznaka POS -a na temelju pravila : Za riječi koje imaju dvosmisleno značenje primjenjuje se pristup zasnovan na pravilima na temelju kontekstualnih informacija. To se postiže provjerom ili analizom značenja prethodne ili sljedeće riječi. Informacije se analiziraju iz okruženja riječi ili unutar njega samog. Stoga su riječi označene gramatičkim pravilima određenog jezika kao što su velika i interpunkcija. npr. Brillov tagger.

2. Stohastički POS označivač: Pod ovom metodom primjenjuju se različiti pristupi poput frekvencije ili vjerojatnosti. Ako je riječ uglavnom označena određenom oznakom u treningu, tada se u testnoj rečenici daje ta određena oznaka. Riječ oznaka ovisi ne samo o vlastitoj oznaci već i o prethodnoj oznaci. Ova metoda nije uvijek točna. Drugi je način izračunati vjerojatnost pojavljivanja određene oznake u rečenici. Tako se konačna oznaka izračunava provjerom najveće vjerojatnosti riječi s određenom oznakom.

Skriveni Markov model:

Problemi s označavanjem mogu se modelirati i pomoću HMM-a. Ulazne tokene tretira kao vidljivu sekvencu, dok se oznake smatraju skrivenim stanjima, a cilj je odrediti sekvencu skrivenih stanja. Na primjer x = x 1 , x 2 ,…, x n gdje je x slijed tokena, dok je y = y 1 , y 2 , y 3 , y 4 … y n skriveni niz.

Kako radi HMM model?

HMM koristi distribuciju pridruživanja koja je P (x, y) gdje je x ulazni slijed / slijed tokena, a y slijed oznaka.

Slijed oznaka za x bit će argmax y1 ... .yn p (x1, x2, ... .xn, y1, y2, y3, ...). Oznake smo kategorizirali iz teksta, ali statistika takvih oznaka je vitalna. Dakle, sljedeći dio je brojanje ovih oznaka za statističku studiju.