Vysvětlení statistických technik pro NLP

Dokončeno

Mezi dvě důležité statistické techniky, které tvoří základ zpracování přirozeného jazyka (NLP), patří: Naïve Bayes a Term Frequency - Inverse Document Frequency (TF-IDF).

Porozumění Naïve Bayes

Naïve Bayes je statistická technika, která byla poprvé použita pro filtrování e-mailů. Pokud chcete zjistit rozdíl mezi spamem a ne spamem, porovnají se dva dokumenty. Klasifikátory Naïve Bayes identifikují, které tokeny korelují s e-maily označenými jako spam. Jinými slovy technika zjistí, která skupina slov se vyskytuje pouze v jednom typu dokumentu, a ne v druhém. Skupina slov se často označuje jako funkce typu bag-of-words .

Například slova miracle cure, lose weight fasta anti-aging může se objevit častěji v spamových e-mailech o pochybných zdravotních produktech než běžné e-maily.

I když se Naïve Bayes ukázal jako efektivnější než jednoduché modely založené na pravidlech pro klasifikaci textu, byl stále poměrně základní, protože zohledňoval pouze přítomnost (a nikoli pozici) slova nebo tokenu.

Porozumění TF-IDF

Metoda Term Frequency - Inverzní frekvence dokumentů (TF-IDF) měla podobný přístup v tom, že porovnávala frekvenci slova v jednom dokumentu s frekvencí slova v celém souboru dokumentů. Když pochopíte, v jakém kontextu se slovo používá, lze dokumenty klasifikovat na základě určitých témat. TF-IDF se často používá k vyhledávání informací, aby se zjistilo, která příbuzná slova nebo tokeny je potřeba hledat.

Poznámka:

V kontextu NLP se korpus vztahuje na rozsáhlou a strukturovanou kolekci textových dokumentů, které se používají pro úlohy strojového učení. Korpora (množné číslo korpusu) slouží jako základní zdroje pro trénování, testování a vyhodnocování různých modelů NLP.

Například po tokenizaci slov "we choose to go to the moon"můžete provést určitou analýzu, abyste spočítali počet výskytů každého tokenu. Nejčastěji používaná slova (kromě stop slov, jako "a", "the" atd.) mohou často poskytnout vodítko k hlavnímu tématu textového korpusu. Například nejběžnější slova v celém textu řeči "go to the moon", kterou jsme předtím zvažovali, zahrnují "new", "go", "space"a "moon". Pokud bychom chtěli text tokenizovat jako bi-grams (dvojice slov), nejběžnější bi-gram v řeči je "the moon". Z těchto informací můžeme snadno usoudit, že text se primárně zabývá cestováním do vesmíru a na Měsíc.

Jednoduchá analýza četnosti, ve které jednoduše spočítáte počet výskytů jednotlivých tokenů, může být efektivní způsob analýzy jednoho dokumentu, ale když potřebujete rozlišovat mezi více dokumenty ve stejném korpusu, potřebujete způsob, jak určit, které tokeny jsou v každém dokumentu nejrelevantní. TF-IDF vypočítá skóre na základě toho, jak často se slovo nebo termín vyskytuje v jednom dokumentu v porovnání s jeho obecnější frekvencí v celé kolekci dokumentů. Při použití této techniky se u slov, která se často objevují v určitém dokumentu, se předpokládá vysoká míra relevance, ale relativně zřídka v celé řadě dalších dokumentů.

Teď se podíváme na techniky hlubokého učení, které se používají k vytváření dnešních sémantických modelů.