Wzbogacanie sztucznej inteligencji przy użyciu przetwarzania obrazów i tekstu

Azure App Service
Azure Blob Storage
Azure AI Search
Azure Functions

Pomysły dotyczące rozwiązań

Ten artykuł jest pomysłem na rozwiązanie. Jeśli chcesz, abyśmy rozszerzyli zawartość o więcej informacji, takich jak potencjalne przypadki użycia, alternatywne usługi, zagadnienia dotyczące implementacji lub wskazówki dotyczące cen, daj nam znać, przekazując opinię w usłudze GitHub.

W tym artykule przedstawiono rozwiązanie, które wzbogaca dokumenty tekstowe i obrazy przy użyciu przetwarzania obrazów, przetwarzania języka naturalnego i umiejętności niestandardowych do przechwytywania danych specyficznych dla domeny. Usługa Azure Cognitive Search z wzbogacaniem sztucznej inteligencji może ułatwić identyfikowanie i eksplorowanie odpowiedniej zawartości na dużą skalę. To rozwiązanie używa wzbogacania sztucznej inteligencji do wyodrębniania znaczenia z oryginalnego złożonego, nieustrukturyzowanego zestawu danych JFK Assassination Records (JFK Files).

Architektura

Diagram przedstawiający architekturę usługi Azure Cognitive Search w celu konwertowania nieustrukturyzowanych na dane ustrukturyzowane.

Pobierz plik programu Visio z tą architekturą.

Przepływ danych

Na powyższym diagramie przedstawiono proces przekazywania zestawu danych plików JFK bez struktury za pośrednictwem potoku umiejętności usługi Azure Cognitive Search w celu utworzenia ustrukturyzowanych, indeksowanych danych:

  1. Dane bez struktury w usłudze Azure Blob Storage, takie jak dokumenty i obrazy, pozyskiwane do usługi Azure Cognitive Search.
  2. Krok łamania dokumentu inicjuje proces indeksowania, wyodrębniając obrazy i tekst z danych, a następnie wzbogacając zawartość. Kroki wzbogacania wykonywane w tym procesie zależą od danych i wybranego typu umiejętności.
  3. Wbudowane umiejętności oparte na przetwarzanie obrazów i interfejsach API usługi językowej umożliwiają wzbogacanie sztucznej inteligencji, w tym optyczne rozpoznawanie znaków obrazu (OCR), analizę obrazu, tłumaczenie tekstu, rozpoznawanie jednostek i wyszukiwanie pełnotekstowe.
  4. Niestandardowe scenariusze obsługi umiejętności , które wymagają bardziej złożonych modeli lub usług sztucznej inteligencji. Przykłady obejmują rozpoznawanie formularzy, modele usługi Azure Machine Edukacja i usługi Azure Functions.
  5. Po procesie wzbogacania indeksator zapisuje dane wyjściowe w indeksie wyszukiwania zawierającym wzbogacone i indeksowane dokumenty. Wyszukiwanie pełnotekstowe i inne formularze zapytań mogą używać tego indeksu.
  6. Wzbogacone dokumenty mogą również być projektowane w magazynie wiedzy, z którego mogą korzystać aplikacje podrzędne, takie jak wyszukiwanie wiedzy lub nauka o danych.
  7. Zapytania uzyskują dostęp do wzbogaconej zawartości w indeksie wyszukiwania. Indeks obsługuje analizatory niestandardowe, rozmyte zapytania wyszukiwania, filtry i profil oceniania w celu dostosowania istotności wyszukiwania.
  8. Każda aplikacja łącząca się z usługą Blob Storage lub Azure Table Storage może uzyskiwać dostęp do magazynu wiedzy.

Składniki

Usługa Azure Cognitive Search współpracuje z innymi składnikami platformy Azure, aby zapewnić to rozwiązanie.

Usługa Azure Cognitive Search indeksuje zawartość i obsługuje środowisko użytkownika w tym rozwiązaniu. Usługa Azure Cognitive Search może stosować wstępnie utworzone umiejętności poznawcze do zawartości, a mechanizm rozszerzalności może dodawać niestandardowe umiejętności do konkretnych przekształceń wzbogacania.

Przetwarzanie obrazów na platformie Azure

Usługa Azure przetwarzanie obrazów używa rozpoznawania tekstu do wyodrębniania i rozpoznawania informacji tekstowych z obrazów. Interfejs API odczytu używa najnowszych modeli rozpoznawania OCR i jest zoptymalizowany pod kątem dużych dokumentów z dużą ilością tekstu i hałaśliwych obrazów.

Starszy interfejs API OCR nie jest zoptymalizowany pod kątem dużych dokumentów, ale obsługuje więcej języków. Wyniki OCR mogą się różnić w zależności od jakości skanowania i obrazu. Bieżący pomysł rozwiązania używa OCR do tworzenia danych w formacie hOCR.

Azure Cognitive Service for Language

Usługa Azure Cognitive Service for Language wyodrębnia informacje tekstowe z dokumentów bez struktury przy użyciu funkcji analizy tekstu, takich jak rozpoznawanie jednostek nazwanych (NER), wyodrębnianie kluczowych fraz i wyszukiwanie pełnotekstowe.

Azure Storage

Usługa Azure Blob Storage to magazyn obiektów oparty na protokole REST na potrzeby danych, do których można uzyskać dostęp z dowolnego miejsca na świecie za pośrednictwem protokołu HTTPS. Za pomocą usługi Blob Storage można ujawniać dane publicznie na świecie lub prywatnie przechowywać dane aplikacji. Usługa Blob Storage jest idealna w przypadku dużych ilości danych bez struktury, takich jak tekst lub grafika.

Usługa Azure Table Storage przechowuje wysoce dostępne, skalowalne, ustrukturyzowane lub częściowo ustrukturyzowane dane NoSQL w chmurze.

Azure Functions

Azure Functions to bezserwerowa usługa obliczeniowa, która umożliwia uruchamianie małych fragmentów kodu wyzwalanego przez zdarzenia bez konieczności jawnego aprowizowania infrastruktury ani zarządzania nią. To rozwiązanie używa metody usługi Azure Functions do zastosowania listy CIA Cryptonyms do rekordów JFK Assassination Records jako umiejętności niestandardowej.

Azure App Service

Ten pomysł rozwiązania tworzy również autonomiczną aplikację internetową w usłudze aplikacja systemu Azure, aby przetestować, przetestować, przeszukać indeks i eksplorować połączenia w wzbogaconych i indeksowanych dokumentach.

Szczegóły scenariusza

Duże, nieustrukturyzowane zestawy danych mogą zawierać notatki odręczne i odręczne, zdjęcia i diagramy oraz inne dane bez struktury, których standardowe rozwiązania wyszukiwania nie mogą analizować. JFK Assassination Records zawiera ponad 34.000 stron dokumentów na temat dochodzenia CIA w 1963 roku zabójstwa JFK.

Przykładowy projekt JFK Files i pokaz online przedstawiają konkretny przypadek użycia usługi Azure Cognitive Search. Ten pomysł rozwiązania nie jest przeznaczony do bycia strukturą ani skalowalną architekturą dla wszystkich scenariuszy, ale w celu udostępnienia ogólnych wytycznych i przykładów. Projekt kodu i pokaz tworzą publiczną witrynę internetową i publicznie czytelny kontener magazynu na potrzeby wyodrębnionych obrazów, więc nie należy używać tego rozwiązania z danymi niepubalnymi.

Wzbogacanie sztucznej inteligencji w usłudze Azure Cognitive Search może wyodrębniać i ulepszać wyszukiwanie, indeksowany tekst z obrazów, obiektów blob i innych źródeł danych bez struktury, takich jak pliki JFK. Wzbogacanie sztucznej inteligencji używa wstępnie wytrenowanych zestawów umiejętności uczenia maszynowego z usług Cognitive Services przetwarzanie obrazów i Cognitive Service for Language API. Możesz również tworzyć i dołączać niestandardowe umiejętności , aby dodać specjalne przetwarzanie dla danych specyficznych dla domeny, takich jak CIA Cryptonyms. Usługa Azure Cognitive Search może następnie indeksować i przeszukiwać ten kontekst.

Umiejętności usługi Azure Cognitive Search w tym rozwiązaniu należą do następujących kategorii:

  • Przetwarzanie obrazów. Wbudowane umiejętności wyodrębniania tekstu i analizy obrazów obejmują wykrywanie obiektów i twarzy, tagowanie i podpis generowanie oraz identyfikację osobistości i punktów orientacyjnych. Te umiejętności tworzą tekstowe reprezentacje zawartości obrazu, które można przeszukiwać przy użyciu funkcji zapytań usługi Azure Cognitive Search. Pękanie dokumentów to proces wyodrębniania lub tworzenia zawartości tekstowej ze źródeł nietekstowych.

  • Przetwarzanie języka naturalnego. Wbudowane umiejętności, takie jak rozpoznawanie jednostek, wykrywanie języka i wyodrębnianie kluczowych fraz mapuje tekst bez struktury, aby wyszukiwać i filtrować pola w indeksie.

  • Niestandardowe umiejętności rozszerzają usługę Azure Cognitive Search, aby zastosować określone przekształcenia wzbogacania do zawartości. Interfejs można określić dla umiejętności niestandardowych za pomocą umiejętności niestandardowego interfejsu API sieci Web.

Potencjalne przypadki użycia

  • Zwiększ wartość i użyteczność nieustrukturyzowanego tekstu i zawartości obrazu w aplikacjach wyszukiwania i nauki o danych.
  • Użyj niestandardowych umiejętności, aby zintegrować kod typu open source, innej firmy lub innej firmy z potokami indeksowania.
  • Umożliwia skanowanie dokumentów JPG, PNG lub map bitowych w postaci pełnotekstowej.
  • Generowanie lepszych wyników niż standardowe wyodrębnianie tekstu PDF dla plików PDF z połączonym obrazem i tekstem. Niektóre zeskanowane i natywne formaty PDF mogą nie być poprawnie analizowane w usłudze Azure Cognitive Search.
  • Utwórz nowe informacje na podstawie z natury istotnej zawartości pierwotnej lub kontekstu ukrytego w większych dokumentach bez struktury lub częściowo ustrukturyzowanych.

Współautorzy

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następującego współautora.

Główny autor:

Aby wyświetlić niepubalne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.

Następne kroki

Dowiedz się więcej o tym rozwiązaniu:

Przeczytaj dokumentację produktu:

Wypróbuj ścieżkę szkoleniową:

Zapoznaj się z powiązanymi architekturami i wskazówkami: