Używanie wzbogacania sztucznej inteligencji z przetwarzaniem obrazów i tekstu

Azure App Service
Azure Blob Storage
Azure AI Search
Azure Functions

Pomysły dotyczące rozwiązań

W tym artykule opisano pomysł rozwiązania. Architekt chmury może użyć tych wskazówek, aby ułatwić wizualizowanie głównych składników dla typowej implementacji tej architektury. Skorzystaj z tego artykułu jako punktu wyjścia, aby zaprojektować dobrze zaprojektowane rozwiązanie zgodne z konkretnymi wymaganiami obciążenia.

W tym artykule opisano sposób używania przetwarzania obrazów, przetwarzania języka naturalnego i umiejętności niestandardowych do przechwytywania danych specyficznych dla domeny. Tych danych można użyć do wzbogacania dokumentów tekstowych i obrazów. Uwzględnij usługę Azure AI Search z wzbogacaniem sztucznej inteligencji, aby ułatwić identyfikowanie i eksplorowanie odpowiedniej zawartości na dużą skalę. To rozwiązanie używa wzbogacania sztucznej inteligencji do wyodrębniania znaczenia z oryginalnego złożonego, nieustrukturyzowanego zestawu danych JFK Assassination Records (JFK Files).

Architektura

Diagram przedstawiający architekturę wyszukiwania sztucznej inteligencji w celu konwertowania danych bez struktury na dane ustrukturyzowane.

Pobierz plik programu Visio z tą architekturą.

Przepływ danych

Poniższy przepływ danych odpowiada powyższemu diagramowi. Przepływ danych opisuje sposób, w jaki zestaw danych plików JFK bez struktury przechodzi przez potok umiejętności wyszukiwania sztucznej inteligencji w celu tworzenia danych ustrukturyzowanych i indeksowalnych.

  1. Dane bez struktury w usłudze Azure Blob Storage, takie jak dokumenty i obrazy, są pozyskiwane do wyszukiwania sztucznej inteligencji.

  2. Aby zainicjować proces indeksowania, krok łamania dokumentu wyodrębnia obrazy i tekst z danych, a następnie wzbogaca zawartość. Kroki wzbogacania w tym procesie zależą od danych i typu wybranych umiejętności.

  3. Wbudowane umiejętności oparte na interfejsach API usługi Azure AI Vision i Azure AI Language zapewniają wzbogacanie sztucznej inteligencji, takie jak optyczne rozpoznawanie znaków obrazu (OCR), analiza obrazów, tłumaczenie tekstu, rozpoznawanie jednostek i wyszukiwanie pełnotekstowe.

  4. Niestandardowe scenariusze obsługi umiejętności , które wymagają bardziej złożonych modeli lub usług sztucznej inteligencji. Przykłady obejmują analizę dokumentów sztucznej inteligencji platformy Azure, modele usługi Azure Machine Learning i usługę Azure Functions.

  5. Po zakończeniu procesu wzbogacania indeksator zapisuje wzbogacone i indeksowane dokumenty w indeksie wyszukiwania. Wyszukiwanie pełnotekstowe i inne formularze zapytań mogą używać tego indeksu.

  6. Wzbogacone dokumenty mogą również być projektowane w magazynie wiedzy, którego mogą używać aplikacje podrzędne, takie jak aplikacje do wyszukiwania wiedzy lub aplikacje do nauki o danych.

  7. Zapytania uzyskują dostęp do wzbogaconej zawartości w indeksie wyszukiwania. Indeks obsługuje analizatory niestandardowe, rozmyte zapytania wyszukiwania, filtry i profil oceniania w celu dostosowania istotności wyszukiwania.

  8. Aplikacje łączące się z usługą Blob Storage lub Azure Table Storage mogą uzyskiwać dostęp do magazynu wiedzy.

Składniki

To rozwiązanie używa następujących składników platformy Azure.

Usługa AI Search indeksuje zawartość i obsługuje środowisko użytkownika w tym rozwiązaniu. Wyszukiwanie sztucznej inteligencji umożliwia stosowanie wstępnie utworzonych umiejętności sztucznej inteligencji do zawartości. Możesz również użyć mechanizmu rozszerzalności, aby dodać niestandardowe umiejętności, które zapewniają konkretne przekształcenia wzbogacania.

Wizja platformy Azure AI

Funkcja vision używa rozpoznawania tekstu do wyodrębniania i rozpoznawania informacji tekstowych z obrazów. Interfejs API odczytu używa najnowszych modeli rozpoznawania OCR i jest zoptymalizowany pod kątem dużych dokumentów z dużą ilością tekstu i hałaśliwych obrazów.

Starszy interfejs API OCR nie jest zoptymalizowany pod kątem dużych dokumentów, ale obsługuje więcej języków. Dokładność wyników OCR może się różnić w zależności od jakości skanowania i obrazu. To rozwiązanie używa protokołu OCR do tworzenia danych w formacie hOCR.

Język

Język używa funkcji analizy tekstu, takich jak rozpoznawanie jednostek nazwanych i wyodrębnianie kluczowych fraz w celu wyodrębniania informacji tekstowych z dokumentów bez struktury.

Azure Storage

Usługa Blob Storage to magazyn obiektów oparty na protokole REST na potrzeby danych, do których można uzyskiwać dostęp z dowolnego miejsca na świecie za pośrednictwem protokołu HTTPS. Za pomocą usługi Blob Storage można ujawniać dane publicznie na świecie lub prywatnie przechowywać dane aplikacji. Usługa Blob Storage jest idealna w przypadku dużych ilości danych bez struktury, takich jak tekst lub grafika.

Usługa Table Storage przechowuje wysoce dostępne, skalowalne, ustrukturyzowane i częściowo ustrukturyzowane dane NoSQL w chmurze.

Azure Functions

Funkcje to bezserwerowa usługa obliczeniowa, której można użyć do uruchamiania małych fragmentów kodu wyzwalanego przez zdarzenia bez konieczności jawnego aprowizowania infrastruktury ani zarządzania nią. To rozwiązanie używa metody Functions w celu zastosowania listy kryptograficznych Agencji Wywiadu Centralnego (CIA) do plików JFK jako umiejętności niestandardowej.

Azure App Service

To rozwiązanie tworzy autonomiczną aplikację internetową w usłudze aplikacja systemu Azure, aby testować, demonstrować i przeszukiwać indeks oraz eksplorować połączenia w wzbogaconych i indeksowanych dokumentach.

Szczegóły scenariusza

Duże, nieustrukturyzowane zestawy danych mogą zawierać notatki odręczne i odręczne, zdjęcia, diagramy i inne dane bez struktury, których standardowe rozwiązania wyszukiwania nie mogą analizować. Pliki JFK zawierają ponad 34.000 stron dokumentów na temat dochodzenia CIA w 1963 roku zabójstwa JFK.

Wzbogacanie sztucznej inteligencji w wyszukiwaniu sztucznej inteligencji umożliwia wyodrębnianie i ulepszanie wyszukiwania, indeksowalnego tekstu z obrazów, obiektów blob i innych źródeł danych bez struktury, takich jak pliki JFK. Wzbogacanie sztucznej inteligencji korzysta ze wstępnie wytrenowanych zestawów umiejętności uczenia maszynowego z poziomu interfejsów API przetwarzania obrazów i języka platformy Azure. Możesz również tworzyć i dołączać niestandardowe umiejętności , aby dodać specjalne przetwarzanie dla danych specyficznych dla domeny, takich jak kryptografia CIA. Wyszukiwanie sztucznej inteligencji może następnie indeksować i przeszukiwać ten kontekst.

Umiejętności wyszukiwania sztucznej inteligencji w tym rozwiązaniu można podzielić na następujące grupy:

  • Przetwarzanie obrazów: to rozwiązanie korzysta z wbudowanych umiejętności wyodrębniania tekstu i analizy obrazów, w tym wykrywania obiektów i twarzy, generowania tagów i podpisów oraz identyfikacji osobistości i punktów orientacyjnych. Te umiejętności tworzą tekstowe reprezentacje zawartości obrazu, które można wyszukiwać przy użyciu funkcji zapytania wyszukiwania sztucznej inteligencji. Pękanie dokumentów to proces wyodrębniania lub tworzenia zawartości tekstowej ze źródeł nietekstowych.

  • Przetwarzanie języka naturalnego: to rozwiązanie używa wbudowanych umiejętności, takich jak rozpoznawanie jednostek, wykrywanie języka i wyodrębnianie kluczowych fraz, które mapuje tekst nieustrukturyzowany na pola z możliwością wyszukiwania i filtrowania w indeksie.

  • Umiejętności niestandardowe: to rozwiązanie korzysta z niestandardowych umiejętności, które rozszerzają wyszukiwanie sztucznej inteligencji w celu zastosowania określonych przekształceń wzbogacania do zawartości. Interfejs dla umiejętności niestandardowych można określić za pomocą niestandardowej umiejętności internetowego interfejsu API.

Potencjalne przypadki użycia

Przykładowy projekt JFK Files i pokaz online przedstawia konkretny przypadek użycia wyszukiwania sztucznej inteligencji. Ten pomysł rozwiązania nie ma być strukturą ani skalowalną architekturą dla wszystkich scenariuszy. Zamiast tego ten pomysł rozwiązania zawiera ogólne wytyczne i przykład. Projekt kodu i pokaz tworzą publiczną witrynę internetową i publicznie czytelny kontener magazynu dla wyodrębnionych obrazów, więc nie należy używać tego rozwiązania z danymi niepublikalnymi.

Możesz również użyć tej architektury do:

  • Zwiększ wartość i użyteczność nieustrukturyzowanego tekstu i zawartości obrazu w aplikacjach wyszukiwania i aplikacjach nauki o danych.

  • Skorzystaj z niestandardowych umiejętności, aby zintegrować kod open source, kod innej firmy niż Microsoft lub kod firmy Microsoft z potokami indeksowania.

  • Umożliwia skanowanie dokumentów JPG, PNG lub map bitowych w postaci pełnotekstowej.

  • Generowanie lepszych wyników niż standardowe wyodrębnianie tekstu PDF dla plików PDF z połączonym obrazem i tekstem. Niektóre zeskanowane i natywne formaty PDF mogą nie być poprawnie analizowane w wyszukiwaniu sztucznej inteligencji.

  • Utwórz nowe informacje na podstawie z natury istotnej nieprzetworzonej zawartości lub kontekstu ukrytego w dużych dokumentach bez struktury lub częściowo ustrukturyzowanych dokumentach.

Współautorzy

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następującego współautora.

Główny autor:

Aby wyświetlić niepubalne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.

Następne kroki

Dowiedz się więcej o tym rozwiązaniu:

Przeczytaj dokumentację produktu:

Wypróbuj ścieżkę szkoleniową: