Tipps für die KI-Anreicherung in Azure KI Search

Artikel
02/22/2024

Dieser Artikel enthält Tipps, die Ihnen bei den ersten Schritten mit KI-Anreicherung und den Skillsets helfen, die während der Indizierung verwendet werden.

Tipp 1: Beginnen Sie einfach, und beginnen Sie klein.

Sowohl der Assistent zum Importieren von Daten als auch Assistent zum Importieren und Vektorisieren von Daten im Azure-Portal unterstützen KI-Anreicherung. Ohne Code schreiben zu müssen, können Sie alle in einer Anreicherungspipeline verwendeten Objekte erstellen und untersuchen: Index, Indexer, Datenquelle und Skillset.

Ein anderer leichter Einstieg ist das Erstellen einer Datenquelle mit nur wenigen Dokumenten oder Zeilen in einer Tabelle, die repräsentativ für die Dokumente sind, die indiziert werden sollen. Ein kleines Dataset ist die beste Methode, um die Geschwindigkeit bei der Suche nach Problemen und deren Behebung zu steigern. Führen Sie Ihr Beispiel über die End-to-End-Pipeline aus, und überprüfen Sie, ob die Ergebnisse Ihren Anforderungen entsprechen. Wenn Sie mit den Ergebnissen zufrieden sind, können Sie der Datenquelle weitere Dateien hinzufügen.

Tipp 2: Ermitteln Sie, was funktioniert, auch wenn Fehler auftreten.

Manchmal wird ein Indexer durch einen kleinen Fehler an der Ausführung gehindert. Das ist in Ordnung, wenn Sie beabsichtigen, ein Problem nach dem anderen zu beheben. Möglicherweise möchten Sie aber auch einen bestimmten Fehlertyp ignorieren, damit der Indexer fortfahren kann, sodass Sie sehen können, welche Flows tatsächlich funktionieren.

Um Fehler während der Entwicklung zu ignorieren, legen Sie maxFailedItems und maxFailedItemsPerBatch als -1 in der Indexerdefinition fest.

{
  // rest of your indexer definition
   "parameters":
   {
      "maxFailedItems":-1,
      "maxFailedItemsPerBatch":-1
   }
}

Hinweis

Legen Sie als bewährte Methode maxFailedItems und maxFailedItemsPerBatch für Produktionsworkloads auf 0 fest.

Tipp 3: Verwenden Sie die Debugsitzung zur Problembehandlung.

Debugsitzung ist ein visueller Editor, der das Abhängigkeitsdiagramm, Eingaben und Ausgaben sowie Definitionen eines Skillsets anzeigt. Hierfür wird ein einzelnes Dokument aus Ihrem Suchindex mit der aktuellen Indexer- und Skillsetkonfiguration geladen. Anschließend können Sie das gesamte Skillset für ein einzelnes Dokument ausführen. In einer Debugsitzung können Sie Fehler identifizieren und beheben sowie Änderungen überprüfen und Änderungen an übergeordneten Skillsets committen. Eine exemplarische Vorgehensweise finden Sie unter Tutorial: Debugsitzungen.

Tipp 4: Erwarteter Inhalt wird nicht angezeigt.

Wenn Inhalte fehlen, können Sie im Azure-Portal nach verworfenen Dokumenten suchen. Öffnen Sie auf der Suchdienstseite Indexer, und sehen Sie sich die Spalte Dokumente erfolgreich an. Klicken Sie, bis Sie den Ausführungsverlauf des Indexers erreicht haben, um bestimmte Fehler zu überprüfen.

Wenn das Problem mit der Dateigröße zusammenhängt, wird möglicherweise ein Fehler wie dieser angezeigt: „Der Blob <Dateiname> ist <Dateigröße> Bytes groß und überschreitet daher das Größenlimit für die Dokumentenextrahierung für Ihre aktuelle Dienstebene.“ Weitere Informationen zu Indexergrenzwerten finden Sie unter Diensteinschränkungen.

Ein zweiter Grund dafür, dass Inhalte nicht angezeigt werden, können Zuordnungsfehler bei der Eingabe/Ausgabe sein, die zusammenhängen. Ein Beispiel hierfür wäre, wenn ein Ausgabezielname „Personen“ lautet, aber der Indexfeldname kleingeschrieben ist („personen“). Das System könnte 201 Erfolgsmeldungen für die gesamte Pipeline zurückgeben, sodass der Eindruck entsteht, dass die Indizierung erfolgreich war, obwohl tatsächlich ein Feld leer ist.

Tipp 5: Erweitern Sie die Verarbeitung über die maximale Laufzeit hinaus.

Die Bildanalyse ist selbst für einfache Fälle rechenintensiv, sodass die Verarbeitungsdauer bei besonders großen oder komplexen Bildern die maximal zulässige Zeit überschreiten kann.

Bei Indexern mit Skillsets wird die Skillsetausführung für die meisten Ebenen auf 2 Stunden begrenzt. Wenn die Verarbeitung des Skillsets nicht innerhalb dieses Zeitraums abgeschlossen werden kann, können Sie für den Indexer einen wiederholten 2-Stunden-Zeitplan festlegen, damit der Indexer die Verarbeitung dort fortsetzt, wo sie unterbrochen wurde.

Die geplante Indizierung wird beim letzten erfolgreich verarbeiteten Dokument fortgesetzt. Durch die Verwendung eines wiederkehrenden Zeitplans kann sich der Indexer über eine Reihe von Stunden oder Tagen durch den Rückstand der Images arbeiten, bis schließlich alle verarbeitet wurden. Weitere Informationen zur Zeitplansyntax finden Sie unter Planen eines Indexers.

Hinweis

Wenn ein Indexer auf einen bestimmten Zeitplan festgelegt ist, im gleichen Dokument bei erneuter Ausführung aber immer wieder ein Fehler auftritt, wird der Indexer in selteneren Intervallen ausgeführt (bis hin zum Maximum von mindestens einmal in 24 Stunden), bis die Ausführung fehlerfrei verläuft. = Wenn Sie der Meinung sind, dass Sie das Problem behoben haben, das dafür gesorgt hat, dass der Indexer an einem bestimmten Punkt hängengeblieben ist, können Sie eine bedarfsgesteuerte Ausführung des Indexers veranlassen. Wenn diese Ausführung erfolgreich verläuft, wird der Indexer wieder im festgelegten Zeitplanintervall ausgeführt.

Tipp 6: Erhöhen Sie den Durchsatz der Indizierung.

Für eine parallele Indizierung verteilen Sie Ihre Daten auf mehrere Container oder mehrere virtuelle Ordner innerhalb desselben Containers. Erstellen Sie dann mehrere Datenquellen- und Indexerpaare. Alle Indexer können das gleiche Skillset verwenden und in den gleichen Zielsuchindex schreiben, sodass Ihre Such-App über diese Partitionierung nicht informiert sein muss.

Teilen über