Multimodale Suche in Azure KI-Suche

Die multimodale Suche bezieht sich auf die Möglichkeit, Informationen über mehrere Inhaltstypen hinweg aufzunehmen, zu verstehen und abzurufen, einschließlich Text, Bilder, Video und Audio. In Azure KI-Suche unterstützt die multimodale Suche nativ die Aufnahme von Dokumenten, die Text und Bilder enthalten, und das Abrufen ihrer Inhalte, sodass Sie Suchvorgänge durchführen können, die beide Modalitäten kombinieren.

Das Erstellen einer robusten multimodalen Pipeline umfasst in der Regel Folgendes:

Extrahieren von Inlinebildern und Seitentext aus Dokumenten.
Beschreiben von Bildern in natürlicher Sprache.
Einbetten von Text und Bildern in einen freigegebenen Vektorbereich.
Speichern der Bilder für die spätere Verwendung als Anmerkungen.

Die multimodale Suche erfordert auch die Beibehaltung der Reihenfolge der Informationen, wie sie in den Dokumenten angezeigt wird, und das Ausführen von Hybridabfragen , die Volltextsuche mit Vektorsuche und semantischer Rangfolge kombinieren.

In der Praxis kann eine Anwendung, die die multimodale Suche verwendet, Fragen wie "Was ist der Prozess, um ein HR-Formular genehmigt zu haben?" beantworten, auch wenn die einzige autoritative Beschreibung des Prozesses in einem eingebetteten Diagramm in einer PDF-Datei gespeichert ist.

Warum die multimodale Suche verwenden?

Die multimodale Suche erfordert traditionell separate Systeme für die Text- und Bildverarbeitung, die häufig benutzerdefinierten Code und Konfigurationen auf niedriger Ebene von Entwicklern erfordern. Die Aufrechterhaltung dieser Systeme führt zu höheren Kosten, Komplexität und Aufwand.

Azure KI-Suche behandelt diese Herausforderungen, indem Bilder in dieselbe Abrufpipeline wie Text integriert werden. Mit einer einzigen multimodalen Pipeline können Sie das Einrichten und Entsperren von Informationen vereinfachen, die sich in Diagrammen, Screenshots, Infografiken, gescannten Formularen und anderen komplexen Visuellen befinden.

Die multimodale Suche eignet sich ideal für Szenarien der durch Abruf erweiterten Generierung (RAG). Durch die Interpretation der strukturellen Logik von Bildern sorgt die multimodale Suche dafür, dass Ihre RAG-Anwendung oder Ihr KI-Agent wichtige visuelle Details weniger wahrscheinlich übersehen. Außerdem erhalten Ihre Benutzer detaillierte Antworten, die unabhängig von der Modalität der Quelle auf ihre ursprünglichen Quellen zurückverfolgt werden können.

Wie funktioniert die multimodale Suche?

Um die Erstellung einer multimodalen Pipeline zu vereinfachen, bietet Azure KI-Suche den Import-Daten-Assistenten im Azure-Portal an. Der Assistent hilft Ihnen, eine Datenquelle zu konfigurieren, Extraktions- und Anreicherungseinstellungen zu definieren und einen multimodalen Index zu generieren, der Text, eingebettete Bildverweise und Vektoreinbettungen enthält. Weitere Informationen finden Sie unter Quickstart: Multimodale Suche im Azure Portal.

Der Assistent führt die folgenden Schritte aus, um eine multimodale Pipeline zu erstellen:

Extract content: Wählen Sie aus den Fähigkeiten Document Extraction oder Azure Content Understanding skills aus, um Seitentext, Inlinebilder und Strukturmetadaten abzurufen. Jede Fähigkeit bietet unterschiedliche Funktionen für metadatenextraktion, Tabellenverarbeitung und Dateiformatunterstützung. Ausführliche Vergleiche finden Sie unter "Optionen für die multimodale Inhaltsextraktion".
Text-Chunk: Der Skill Text Split zerlegt den extrahierten Text in handhabbare Chunks zur Verwendung in der übrigen Pipeline, wie z. B. dem Skill Einbetten.
Generieren von Bildbeschreibungen: Die GenAI Prompt-Fähigkeit verbalisiert Bilder und erzeugt präzise Natursprachbeschreibungen für die Textsuche und Einbettung mit einem großen Sprachmodell (LLM).
Einbettungen generieren: Die Einbettungskompetenz erstellt Vektordarstellungen von Text und Bildern, wodurch Ähnlichkeit und Hybridabruf ermöglicht werden. Sie können Modelle von Azure OpenAI, Microsoft Foundry oder Azure Vision für Einbettungen nativ aufrufen.

Alternativ können Sie die Bildverbalisierung überspringen und den extrahierten Text und Bilder direkt an ein multimodales Einbettungsmodell über die AML-Fähigkeit oder Azure Vision multimodale Einbettungsfertigkeit übergeben. Weitere Informationen finden Sie unter "Optionen für das einbetten von multimodalen Inhalten".
Extrahierte Bilder speichern: Der Wissensspeicher enthält extrahierte Bilder, die direkt an Clientanwendungen zurückgegeben werden können. Wenn Sie den Assistenten verwenden, wird die Position eines Bilds direkt im multimodalen Index gespeichert und ermöglicht einen bequemen Abruf zur Abfragezeit.

Tipp

Um die multimodale Suche in Aktion zu sehen, schließen Sie Ihren vom Assistenten erstellten Index in die multimodale RAG-Beispielanwendung ein. Das Beispiel veranschaulicht, wie eine RAG-Anwendung einen multimodalen Index verwendet und sowohl Textzitate als auch zugehörige Bildausschnitte in der Antwort rendert. Das Beispiel zeigt auch den codebasierten Prozess der Erfassung und Indizierung von Daten.

Optionen für die multimodale Inhaltsextraktion

Eine multimodale Pipeline beginnt damit, jedes Quelldokument in Textblöcke, Inlinebilder und zugehörige Metadaten aufzuteilen. Für diesen Schritt bietet Azure KI-Suche zwei empfohlene integrierte Fähigkeiten:

Merkmal	Dokumentextraktionskompetenz	Azure Fähigkeit zum Verständnis von Inhalten
Extraktion von Metadaten zur Textposition (Seiten und Begrenzungspolygone)	Nein	Ja
Extraktion von Metadaten zur Position des Bildes (Seiten und begrenzende Polygone)	Ja	Ja
Tabellenextraktion und Tabellenerhaltung	Nein	Ja (einschließlich seitenübergreifender Tabellen)
Seitenübergreifende semantische Einheiten	Nicht zutreffend	Ja (überschreitet Seitengrenzen)
Speicherortmetadatenextraktion basierend auf dem Dateityp	Nur PDF-Dateien.	Mehrere unterstützte Dateitypen, einschließlich PDF, DOCX, XLSX und PPTX.
Abrechnung für die Datenextraktion	Die Bildextraktion wird gemäß Azure KI-Suche Pricing abgerechnet.	Berechnet gemäß Azure Content Understanding Pricing.
Integrierte Segmentierung	Nein (Skill Text Split verwenden)	Ja (Bildung semantischer Blöcke)
KI-generierte Bildbeschreibungen	Nein	Ja (wann `modelName` und `modelDeployment` konfiguriert sind, verfügbar ab der `2026-05-01-preview` REST-API)
Empfohlene Szenarien	Schnelle Prototyperstellung oder Produktionspipelinen, bei denen genaue Positions- oder detaillierte Layoutinformationen nicht erforderlich sind.	Erweiterte Dokumentanalyse, die seitenübergreifende Tabellenextraktion, semantische Blöcke und KI-generierte Bildbeschreibungen erfordert.

Der Document Layout Skill wird für bestehende Pipelines weiterhin unterstützt. Verwenden Sie für neue Fähigkeiten die Azure Fähigkeit zum Verständnis von Inhalten, die Inhaltsextraktion und Blöcke in einer einzigen Fähigkeit kombiniert und semantische Blöcke, KI-generierte Bildbeschreibungen und seitenübergreifende Tabellenextraktion unterstützt.

Optionen für das Einbetten von multimodalen Inhalten

In Azure KI-Suche kann das Abrufen von Wissen aus Bildern zwei ergänzende Pfade folgen: Bildverbalisierung oder direkte Einbettungen. Wenn Sie die Unterschiede verstehen, können Sie Kosten, Latenz und Qualität mit den Anforderungen Ihrer Anwendung abstimmen.

Bildverbalisierung gefolgt von Texteinbettungen

Bei dieser Methode ruft die GenAI Prompt-Fähigkeit während der Aufnahme ein LLM auf, um eine prägnante Beschreibung jedes extrahierten Bildes in natürlicher Sprache zu erstellen, z. B. „Fünfstufiger HR-Workflow, der mit der Genehmigung der vorgesetzten Person beginnt.“ Die Beschreibung wird als Text gespeichert und neben dem umgebenden Dokumenttext eingebettet, den Sie dann vektorisieren können, indem Sie Einbettungsmodelle für Azure OpenAI, Microsoft Foundry oder Azure Vision aufrufen.

Da das Bild jetzt in der Sprache ausgedrückt wird, können Azure KI-Suche:

Interpretieren sie die Beziehungen und Entitäten, die in einem Diagramm angezeigt werden.
Stellen Sie vorgefertigte Beschriftungen bereit, die ein LLM in einer Antwort zitieren kann.
Gibt relevante Codeausschnitte für RAG-Anwendungen oder KI-Agent-Szenarien mit geerdeten Daten zurück.

Die hinzugefügte semantische Tiefe beinhaltet einen LLM-Aufruf für jedes Bild und eine geringfügige Zunahme der Indizierungszeit.

Direkte multimodale Einbettungen

Eine zweite Option besteht darin, die von dokumenten extrahierten Bilder und Text an ein multimodales Einbettungsmodell zu übergeben, das Vektordarstellungen im selben Vektorraum erzeugt. Die Konfiguration ist einfach, und zur Indizierungszeit ist kein LLM erforderlich. Direkte Einbettungen eignen sich gut für visuelle Ähnlichkeiten und "find-me-something-that-looks-like-this"-Szenarien.

Da die Darstellung rein mathematisch ist, vermittelt sie nicht, warum zwei Bilder miteinander verknüpft sind, und es bietet keinen bereiten LLM-Kontext für Zitate oder detaillierte Erläuterungen.

Kombinieren beider Ansätze

Viele Lösungen benötigen beide Codierungspfade. Diagramme, Flussdiagramme und andere visuelle Elemente mit hohem Erklärungswert werden verbalisiert, sodass semantische Informationen für die Grundlage von RAG- und KI-Agenten zur Verfügung stehen. Screenshots, Produktfotos oder Grafiken werden direkt für eine effiziente Ähnlichkeitssuche eingebettet. Sie können Ihre Azure KI-Suche Index- und Indexer-Skillsetpipeline anpassen, damit sie die beiden Vektorgruppen speichern und nebeneinander abrufen kann.

Optionen zum Abfragen von multimodalen Inhalten

Wenn Ihre multimodale Pipeline von der GenAI Prompt-Fähigkeit unterstützt wird, können Sie Hybridabfragen sowohl über Nur-Text- als auch verbalisierte Bilder in Ihrem Suchindex ausführen. Sie können auch Filter verwenden, um die Suchergebnisse auf bestimmte Inhaltstypen einzugrenzen, z. B. nur Text oder nur Bilder.

Obwohl die GenAI Prompt-Fähigkeit Text-zu-Vektor-Abfragen über die Hybridsuche unterstützt, unterstützt sie keine Bild-zu-Vektor-Abfragen. Nur die multimodalen Einbettungsmodelle stellen die Vektorisierer bereit, die Bilder zur Abfragezeit in Vektoren konvertieren.

Um Bilder als Abfrageeingaben für Ihren multimodalen Index zu verwenden, müssen Sie die fähigkeiten AML oder Azure Vision multimodale Einbettungen mit einem entsprechenden Vektorizer verwenden. Weitere Informationen finden Sie unter Konfigurieren eines Vektorizers in einem Suchindex.

Lernprogramme und Beispiele

Um Ihnen bei den ersten Schritten mit der multimodalen Suche in Azure KI-Suche zu helfen, finden Sie hier eine Sammlung von Inhalten, die veranschaulicht, wie sie mit Azure Funktionalität multimodale Indizes erstellen und optimieren.

Inhalt	Beschreibung
Quickstart: Multimodale Suche im Azure Portal	Erstellen und testen Sie einen multimodalen Index im Azure-Portal mithilfe des Assistenten und des Such-Explorers.
Multimodales Lernprogramm	Extrahieren Sie Text und Bilder, Datenblöcke und vektorisieren Sie die Blöcke für die Ähnlichkeitssuche und andere Abrufmuster.
Beispiel App: Multimodales RAG GitHub-Repository	Eine End-to-End-, codefertige RAG-Anwendung mit multimodalen Funktionen, die sowohl Textausschnitte als auch Bildanmerkungen darstellen. Ideal für den Start von Unternehmenscopiloten.

Feedback

War diese Seite hilfreich?

Last updated on 2026-06-03