Rozšiřování AI pomocí zpracování obrázků a textu

Azure App Service
Azure Blob Storage
Azure AI Search
Azure Functions

Nápady na řešení

Tento článek je myšlenkou řešení. Pokud chcete, abychom obsah rozšířili o další informace, jako jsou potenciální případy použití, alternativní služby, aspekty implementace nebo pokyny k cenám, dejte nám vědět tím, že nám poskytnete zpětnou vazbu k GitHubu.

Tento článek představuje řešení, které rozšiřuje textové a obrazové dokumenty pomocí zpracování obrázků, zpracování přirozeného jazyka a vlastních dovedností k zachycení dat specifických pro doménu. Azure Cognitive Search s rozšiřováním AI vám může pomoct identifikovat a prozkoumat relevantní obsah ve velkém měřítku. Toto řešení využívá rozšiřování AI k extrakci významu z původní komplexní nestrukturované datové sady JFK Assassination Records (JFK Files).

Architektura

Diagram znázorňující architekturu služby Azure Cognitive Search pro převod nestrukturovaných dat na strukturovaná data

Stáhněte si soubor aplikace Visio s touto architekturou.

Tok dat

Výše uvedený diagram znázorňuje proces předávání nestrukturované datové sady JFK Files prostřednictvím kanálu dovedností služby Azure Cognitive Search za účelem vytvoření strukturovaných indexovatelných dat:

  1. Nestrukturovaná data ve službě Azure Blob Storage, jako jsou dokumenty a obrázky, ingestují do služby Azure Cognitive Search.
  2. Krok prolomení dokumentu zahájí proces indexování extrahováním obrázků a textu z dat a následným rozšiřováním obsahu. Kroky rozšiřování, ke kterým dochází v tomto procesu, závisí na datech a typu vybraných dovedností.
  3. Integrované dovednosti založené na rozhraních API služby Počítačové zpracování obrazu a jazykových služeb umožňují rozšiřování AI, včetně optického rozpoznávání obrazových znaků (OCR), analýzy obrázků, překladu textu, rozpoznávání entit a fulltextového vyhledávání.
  4. Scénáře podpory vlastních dovedností , které vyžadují složitější modely nebo služby umělé inteligence. Mezi příklady patří rozpoznávání formulářů, modely azure machine Učení a Azure Functions.
  5. Po procesu rozšiřování indexer uloží výstupy do indexu vyhledávání, který obsahuje rozšířené a indexované dokumenty. Tento index může používat fulltextové vyhledávání a další formuláře dotazů.
  6. Rozšířené dokumenty mohou také projektovat do úložiště znalostí, které podřízené aplikace, jako je dolování znalostí nebo datové vědy, mohou používat.
  7. Dotazy přistupují k rozšířenému obsahu v indexu vyhledávání. Index podporuje vlastní analyzátory, přibližné vyhledávací dotazy, filtry a profil bodování pro vyladění relevance vyhledávání.
  8. Každá aplikace, která se připojuje ke službě Blob Storage nebo ke službě Azure Table Storage, má přístup k úložišti znalostí.

Komponenty

Azure Cognitive Search spolupracuje s dalšími komponentami Azure a poskytuje toto řešení.

Azure Cognitive Search indexuje obsah a využívá uživatelské prostředí v tomto řešení. Azure Cognitive Search může na obsah použít předem vytvořené kognitivní dovednosti a mechanismus rozšiřitelnosti může přidávat vlastní dovednosti pro konkrétní transformace rozšiřování.

Azure Computer Vision

Azure Počítačové zpracování obrazu používá k extrakci a rozpoznávání textových informací z obrázků rozpoznávání textu. Rozhraní API pro čtení používá nejnovější modely rozpoznávání OCR a je optimalizované pro velké dokumenty náročné na text a hlučné obrázky.

Starší rozhraní API OCR není optimalizované pro velké dokumenty, ale podporuje více jazyků. Výsledky OCR se můžou lišit v závislosti na kvalitě skenování a obrázku. Aktuální myšlenka řešení používá technologii OCR k vytváření dat ve formátu hOCR.

Azure Cognitive Service for Language

Azure Cognitive Service pro jazyk extrahuje textové informace z nestrukturovaných dokumentů pomocí funkcí analýzy textu, jako je pojmenované rozpoznávání entit (NER), extrakce klíčových frází a fulltextové vyhledávání.

Azure Storage

Azure Blob Storage je úložiště objektů založené na REST pro data, ke kterým máte přístup odkudkoli na světě prostřednictvím protokolu HTTPS. Pomocí služby Blob Storage můžete veřejně zpřístupnit data světu nebo soukromě ukládat data aplikací. Blob Storage je ideální pro velké objemy nestrukturovaných dat, jako je text nebo grafika.

Azure Table Storage ukládá vysoce dostupná, škálovatelná, strukturovaná nebo částečně strukturovaná data NoSQL v cloudu.

Azure Functions

Azure Functions je bezserverová výpočetní služba, která umožňuje spouštět malé části kódu aktivovaného událostí, aniž byste museli explicitně zřizovat nebo spravovat infrastrukturu. Toto řešení používá metodu Azure Functions k použití seznamu cryptonyms CIA pro JFK Assassination Records jako vlastní dovednosti.

Azure App Service

Tento nápad řešení také vytvoří samostatnou webovou aplikaci ve službě Aplikace Azure Service, která bude testovat, předvádět, prohledávat index a zkoumat připojení v obohacených a indexovaných dokumentech.

Podrobnosti scénáře

Velké, nestrukturované datové sady můžou obsahovat psané a ručně psané poznámky, fotky a diagramy a další nestrukturovaná data, která standardní vyhledávací řešení nemohou analyzovat. JFK Assassination Records obsahuje více než 34 000 stránek dokumentů o vyšetřování CIA 1963 JFK vraždy.

Ukázkový projekt JFK Files a online ukázka předvádějí konkrétní případ použití služby Azure Cognitive Search. Cílem tohoto řešení není architektura nebo škálovatelná architektura pro všechny scénáře, ale poskytnout obecné pokyny a příklad. Projekt kódu a ukázka vytvoří veřejný web a veřejně čitelný kontejner úložiště pro extrahované obrázky, takže toto řešení byste neměli používat s neveřejnými daty.

Rozšíření AI ve službě Azure Cognitive Search může extrahovat a vylepšit prohledávatelný, indexovatelný text z obrázků, objektů blob a dalších nestrukturovaných zdrojů dat, jako jsou soubory JFK. Obohacení umělé inteligence využívá předem natrénované sady dovedností strojového učení ze služeb Cognitive Services Počítačové zpracování obrazu a Cognitive Service pro rozhraní API jazyka. Můžete také vytvořit a připojit vlastní dovednosti pro přidání speciálního zpracování pro data specifická pro doménu, jako je CIA Cryptonyms. Azure Cognitive Search pak může tento kontext indexovat a prohledávat.

Dovednosti služby Azure Cognitive Search v tomto řešení spadají do následujících kategorií:

  • Zpracování obrazu. Mezi předdefinované dovednosti extrakce textu a analýzy obrázků patří rozpoznávání objektů a tváří, označování a popis generování a identifikace celebrit a orientačních bodů. Tyto dovednosti vytvářejí textové reprezentace obsahu obrázků, které je možné prohledávat pomocí možností dotazů služby Azure Cognitive Search. Prolomení dokumentu je proces extrakce nebo vytváření textového obsahu z netextových zdrojů.

  • Zpracování přirozeného jazyka. Integrované dovednosti, jako je rozpoznávání entit, rozpoznávání jazyka a extrakce klíčových frází , mapuje nestrukturovaný text na prohledávatelná a filtrovatelná pole v indexu.

  • Vlastní dovednosti rozšiřují službu Azure Cognitive Search, aby na obsah použily specifické transformace rozšiřování. Rozhraní pro vlastní dovednost zadáte prostřednictvím dovednosti vlastního webového rozhraní API.

Potenciální případy použití

  • Zvyšte hodnotu a nástroj nestrukturovaného textu a obsahu obrázků v aplikacích pro vyhledávání a datové vědy.
  • Využijte vlastní dovednosti k integraci opensourcového kódu, třetí strany nebo kódu první strany do kanálů indexování.
  • Naskenované dokumenty JPG, PNG nebo bitmapy umožňují fulltextové vyhledávání.
  • Vygenerujte lepší výsledky než standardní extrakce textu PDF pro soubory PDF s kombinovaným obrázkem a textem. Některé naskenované a nativní formáty PDF nemusí ve službě Azure Cognitive Search správně parsovat.
  • Vytvářejte nové informace ze ze své podstaty smysluplného nezpracovaného obsahu nebo kontextu, který je skrytý ve větších nestrukturovaných nebo částečně strukturovaných dokumentech.

Přispěvatelé

Tento článek spravuje Microsoft. Původně byl napsán následujícím přispěvatelem.

Hlavní autor:

Pokud chcete zobrazit neveřejné profily LinkedIn, přihlaste se na LinkedIn.

Další kroky

Další informace o tomto řešení:

Přečtěte si dokumentaci k produktu:

Vyzkoušejte studijní program:

Projděte si související architektury a pokyny: