Wprowadzenie

Ukończone

Analiza tekstu to proces, w którym oceniasz różne aspekty dokumentu lub frazy w celu uzyskania wglądu w zawartość tego tekstu. W większości przypadków ludzie po przeczytaniu jakiegoś tekstu rozumieją jego znaczenie. Nawet bez brania pod uwagę reguł gramatycznych języka, w którym tekst jest napisany, można w nim zidentyfikować szczegółowe informacje.

Przykładowo możesz przeczytać jakiś tekst i zidentyfikować kluczowe frazy wskazujące główne zagadnienia. Możesz też rozpoznać nazwiska osób lub nazwy znanych miejsc takich jak wieża Eiffla. Chociaż czasami jest to trudne, może być również możliwe określenie, jak czuła się osoba podczas pisania tekstu (powszechnie jest to nazywane tonacją).

Techniki analizy tekstu

Analiza tekstu to proces, w którym algorytm sztucznej inteligencji (AI, artificial intelligence) uruchomiony na komputerze ocenia te atrybuty tekstu, aby określić szczegółowe informacje. Ludzie zwykle opierają się na swoich doświadczeniach i wiedzy w celu przeprowadzenia analizy. Komputerowi trzeba zapewnić podobną wiedzę, aby mógł on wykonać to zadanie. Istnieje kilka powszechnie używanych technik, które można stosować w celu tworzenia oprogramowania do analizy tekstu, w tym:

  • Analiza statystyczna terminów używanych w tekście. Na przykład usuwanie typowych słów umieszczanych na stop listach (takich jak angielskie słowa „the” lub „a”, które nie przekazują prawie żadnych informacji semantycznych w tekście) oraz wykonywanie analizy częstotliwości dla pozostałych słów (zliczanie liczby wystąpień poszczególnych słów) może zapewniać wskazówki dotyczące głównego tematu tekstu.
  • Rozszerzanie analizy częstotliwości na frazy składające się z wielu terminów, często nazywane N-gramami (fraza obejmująca dwa słowa to bigram, trzy — trigram itd.).
  • Stosowanie algorytmów służących do określania tematów słów lub lematyzacji w celu znormalizowania słów przed ich zliczeniem. Tę operację przeprowadza się po to, aby słowa takie jak „moc”, „mocny” i „mocniejszy” były interpretowane jako to samo słowo.
  • Stosowanie reguł struktury językowej do analizowania zdań. Na przykład przekształcanie zdań w struktury podobne do drzew takie jak frazy nominalne, które z kolei zawierają rzeczowniki, czasowniki, przymiotniki itd.
  • Kodowanie słów lub terminów jako cech liczbowych, których można używać do trenowania modeli uczenia maszynowego. Na przykład na potrzeby sklasyfikowania dokumentu tekstowego na podstawie znajdujących się w nim terminów. Ta technika jest często używana do analizy tonacji, która klasyfikuje dokument jako pozytywny lub negatywny.
  • Tworzenie modeli wektoryzowanych, które przechwytują relacje semantyczne między słowami, przypisując je do lokalizacji w przestrzeni n-wymiarowej. Ta technika modelowania może na przykład przypisywać wartości do wyrazów "kwiat" i "roślina", które lokalizują je blisko siebie, podczas gdy "deskorolka" może mieć wartość, która umieszcza je znacznie dalej.

Chociaż te techniki mogą być bardzo skuteczne, ich programowanie często jest złożone. W Microsoft Azure usługa Poznawcza języka może pomóc uprościć tworzenie aplikacji przy użyciu wstępnie wytrenowanych modeli, które mogą:

  • Określanie języka dokumentu lub tekstu (na przykład francuski lub angielski).
  • Przeprowadzanie analizy tonacji tekstu, aby określić, czy tonacja jest pozytywna, czy negatywna.
  • Wyodrębnianie z tekstu kluczowych fraz, które mogą wskazywać główne zagadnienia.
  • Identyfikowanie i kategoryzowanie jednostek w tekście. Jednostkami mogą być osoby, miejsca i organizacje, a nawet powszechnie używane dane takie jak daty, godziny, ilości itd.

W tym module zapoznasz się z niektórymi z tych możliwości i dowiesz się, jak można je zastosować w aplikacjach takich jak:

  • Analizator kanału mediów społecznościowych, który wykrywa tonację wpisów dotyczących kampanii politycznej lub produktu na rynku.
  • Aplikacja do wyszukiwania dokumentów, która wyodrębnia kluczowe frazy, aby ułatwić podsumowanie głównego tematu dokumentów w katalogu.
  • Narzędzie do wyodrębniania informacji o marce lub nazw firm z dokumentów lub innego tekstu w celach identyfikacyjnych.

Te przykłady to tylko niewielka próbka wielu obszarów, które usługa językowa może pomóc w analizie tekstu.