Tipy pro rozšiřování AI ve službě Azure AI Search

Článek
09/01/2024

Tento článek obsahuje tipy, které vám pomůžou začít s rozšiřováním AI a sadami dovedností používaných při indexování.

Tip 1: Začněte jednoduše a začněte malé

Průvodce importem dat i průvodce importem a vektorizací dat na webu Azure Portal podporuje rozšiřování AI. Bez psaní kódu můžete vytvořit a prozkoumat všechny objekty používané v kanálu rozšiřování: index, indexer, zdroj dat a sadu dovedností.

Dalším způsobem, jak jednoduše začít, je vytvoření zdroje dat s pouhými několika dokumenty nebo řádky v tabulce, které představují dokumenty, které budou indexovány. Malá datová sada je nejlepší způsob, jak zvýšit rychlost hledání a řešení problémů. Spusťte ukázku prostřednictvím kompletního kanálu a zkontrolujte, jestli výsledky vyhovují vašim potřebám. Jakmile budete s výsledky spokojeni, můžete do zdroje dat přidat další soubory.

Tip 2: Podívejte se, co funguje, i když dojde k nějakým chybám

V některých případech malé selhání zastaví indexer v jeho stopách. To je v pořádku, pokud plánujete vyřešit problémy jeden po druhém. Můžete ale chtít ignorovat konkrétní typ chyby, což indexeru umožní pokračovat, abyste viděli, které toky skutečně fungují.

Pokud chcete ignorovat chyby během vývoje, nastavte maxFailedItems hodnotu maxFailedItemsPerBatch -1 jako součást definice indexeru.

{
  // rest of your indexer definition
   "parameters":
   {
      "maxFailedItems":-1,
      "maxFailedItemsPerBatch":-1
   }
}

Poznámka:

Osvědčeným postupem je nastavit maxFailedItems hodnotu a maxFailedItemsPerBatch hodnotu 0 pro produkční úlohy.

Tip 3: Řešení potíží pomocí relace ladění

Ladicí relace je vizuální editor, který zobrazuje graf závislostí sady dovedností, vstupy a výstupy a definice. Funguje to načtením jednoho dokumentu z indexu vyhledávání s aktuální konfigurací indexeru a sady dovedností. Pak můžete spustit celou sadu dovedností, která je vymezená na jeden dokument. V rámci ladicí relace můžete identifikovat a vyřešit chyby, ověřit změny a potvrdit změny v nadřazené sadě dovedností. Návod najdete v tématu Kurz: Ladicí relace.

Tip 4: Očekávaný obsah se nezobrazuje

Pokud vám chybí obsah, na webu Azure Portal vyhledejte vyřazené dokumenty. Na stránce vyhledávací služby otevřete Indexery a podívejte se na sloupec Docs, který byl úspěšný . Kliknutím na historii provádění indexeru zkontrolujte konkrétní chyby.

Pokud problém souvisí s velikostí souboru, může se zobrazit chyba typu "Název souboru objektu blob<" má velikost <bajtů velikosti> souboru, které překračují maximální velikost pro extrakci dokumentů pro vaši aktuální úroveň služby.> Další informace o limitech indexeru najdete v tématu Omezení služby.

Druhým důvodem, proč se obsah nezobrazuje, může být související chyby mapování vstupu a výstupu. Například název cílového výstupu je "Lidé", ale název pole indexu je malé písmeno "people". Systém by mohl vrátit zprávy o úspěchu 201 pro celý kanál, takže si myslíte, že indexování bylo úspěšné, když je ve skutečnosti pole prázdné.

Tip 5: Rozšíření zpracování nad rámec maximální doby běhu

Analýza obrázků je pro i jednoduché případy výpočetně náročná, takže pokud jsou obrázky obzvláště velké nebo složité, doba zpracování může překročit maximální povolenou dobu.

U indexerů, které mají sady dovedností, je provádění sady dovedností u většiny vrstev omezené na 2 hodiny. Pokud se zpracování sady dovedností v daném období nedokončí, můžete indexer umístit na 2hodinový opakovaný plán, aby indexer zvednul zpracování tam, kde skončil.

Naplánované indexování bude pokračovat v posledním známém dobrém dokumentu. Při opakovaném plánu může indexer procházet backlogem obrázků po celou řadu hodin nebo dnů, dokud nebudou zpracovány všechny nezpracované image. Další informace o syntaxi plánu najdete v tématu Plánování indexeru.

Poznámka:

Pokud je indexer nastavený na určitý plán, ale opakovaně selže ve stejném dokumentu a znovu pokaždé, když se spustí, indexer začne běžet v méně častém intervalu (až do maximálního počtu alespoň jednou každých 24 hodin), dokud nebude úspěšně pokračovat. = Pokud se domníváte, že jste opravili jakýkoli problém, který způsoboval zablokování indexeru v určitém okamžiku, můžete provést spuštění indexeru na vyžádání a pokud se tento postup úspěšně dokončí, indexer se vrátí do nastaveného intervalu plánu znovu.

Tip 6: Zvýšení propustnosti indexování

Pro paralelní indexování distribuujte data do více kontejnerů nebo více virtuálních složek uvnitř stejného kontejneru. Pak vytvořte několik dvojic zdrojů dat a indexeru. Všechny indexery můžou používat stejnou sadu dovedností a zapisovat do stejného cílového vyhledávacího indexu, takže vaše vyhledávací aplikace nemusí o tomto dělení vědět.

Sdílet prostřednictvím