Content Analyzers - Analyze Binary
Extrahiere Inhalte und Felder aus den Eingaben.
POST {endpoint}/contentunderstanding/analyzers/{analyzerId}:analyzeBinary?api-version=2025-11-01
POST {endpoint}/contentunderstanding/analyzers/{analyzerId}:analyzeBinary?api-version=2025-11-01&stringEncoding={stringEncoding}&processingLocation={processingLocation}&range={range}
URI-Parameter
| Name | In | Erforderlich | Typ | Beschreibung |
|---|---|---|---|---|
|
analyzer
|
path | True |
string minLength: 1maxLength: 64 pattern: ^[a-zA-Z0-9._-]{1,64}$ |
Die eindeutige Kennung des Analysators. |
|
endpoint
|
path | True |
string (uri) |
Inhaltsverständnis des Service-Endpunkts. |
|
api-version
|
query | True |
string minLength: 1 |
Hierbei handelt es sich um die für diesen Vorgang zu verwendende API-Version. |
|
processing
|
query |
Der Ort, an dem die Daten verarbeitet werden können. Standardmäßig steht es auf global. |
||
|
range
|
query |
string |
Bereich des zu analysierenden Inputs (z. B. |
|
|
string
|
query |
string |
Das String-Codierungsformat für Inhalte spannt sich in der Antwort.
Mögliche Werte sind 'codePoint', 'utf16' und |
Anforderungsheader
Media Types: "*/*"
| Name | Erforderlich | Typ | Beschreibung |
|---|---|---|---|
| x-ms-client-request-id |
string (uuid) |
Ein undurchsichtiger, global eindeutiger, clientgenerierter Zeichenfolgenbezeichner für die Anforderung. |
Anforderungstext
Media Types: "*/*"
| Name | Typ | Beschreibung |
|---|---|---|
| input |
string (binary) |
Der binäre Inhalt des Dokuments zu analysieren. |
Antworten
| Name | Typ | Beschreibung |
|---|---|---|
| 202 Accepted |
Die Anforderung wurde zur Verarbeitung akzeptiert, die Verarbeitung wurde jedoch noch nicht abgeschlossen. Header
|
|
| Other Status Codes |
Unerwartete Fehlerantwort. Header x-ms-error-code: string |
Sicherheit
Ocp-Apim-Subscription-Key
Schlüsselbasierte Authentifizierung mit dem Zugangsschlüssel der Azure-Ressource.
Typ:
apiKey
In:
header
EntraIdToken
Microsoft Entra ID OAuth2-Authentifizierung mit einem Zugangstoken.
Typ:
oauth2
Ablauf:
accessCode
Autorisierungs-URL:
https://login.microsoftonline.com/common/oauth2/authorize
Token-URL:
https://login.microsoftonline.com/common/oauth2/token
Bereiche
| Name | Beschreibung |
|---|---|
| https://cognitiveservices.azure.com/.default |
Beispiele
Analyze File
Beispielanforderung
POST {endpoint}/contentunderstanding/analyzers/myAnalyzer:analyzeBinary?api-version=2025-11-01
"RXhhbXBsZSBGaWxl"
Beispiel für eine Antwort
Operation-Location: https://myendpoint.cognitiveservices.azure.com/contentunderstanding/analyzerResults/3b31320d-8bab-4f88-b19c-2322a7f11034?api-version=2025-11-01
{
"id": "3b31320d-8bab-4f88-b19c-2322a7f11034",
"status": "NotStarted"
}
Definitionen
| Name | Beschreibung |
|---|---|
|
Analysis |
Eine Art Medieninhalt. |
|
Analysis |
Analyse des Vorgangsergebnisses. |
|
Array |
Array-Feld aus dem Inhalt extrahiert. |
|
Audio |
Audio-visuelle Inhalte. Zum Beispiel Audio/WAV, Video/MP4. |
|
Audio |
Erkanntes Audio-/Videoinhaltssegment. |
|
Azure. |
Das Fehlerobjekt. |
|
Azure. |
Eine Antwort, die Fehlerdetails enthält. |
|
Azure. |
Ein Objekt, das spezifischere Informationen zum Fehler enthält. Gemäß den Richtlinien der Azure-REST-API: . https://aka.ms/AzureRestApiGuidelines#handling-errors |
|
Boolean |
Boolesches Feld aus dem Inhalt extrahiert. |
|
Content |
Stellt Statusdetails zur Analyse der Operationen bereit. |
|
Content |
Semantischer Datentyp des Feldwerts. |
|
Content |
Position des Elements im Markdown, angegeben als Zeichenversatz und Länge. |
|
Date |
Datumsfeld aus dem Inhalt extrahiert. |
|
Document |
Anmerkung in einem Dokument, wie zum Beispiel ein Durchstreichen oder ein Kommentar. |
|
Document |
Kommentar im Zusammenhang mit einer Dokumentanmerkung. |
|
Document |
Dokumentenannotation. |
|
Document |
Barcode in einem Dokument. |
|
Document |
Barcodeart. |
|
Document |
Bildunterschrift einer Tabelle oder Figur. |
|
Document |
Abbildung mit einem Diagramm, wie zum Beispiel Balkendiagramm, Liniendiagramm oder Tortendiagramm. |
|
Document |
Dokumentinhalt. Zum Beispiel Text/Klartext, Anwendung/PDF, Bild/JPEG. |
|
Document |
Erkanntes Dokumenteninhaltssegment. |
|
Document |
Fußnote einer Tabelle oder Figur. |
|
Document |
Mathematische Formel in einem Dokument. |
|
Document |
Formeltyp. |
|
Document |
Hyperlink in einem Dokument, zum Beispiel ein Link zu einer Webseite oder einer E-Mail-Adresse. |
|
Document |
Zeile in einem Dokument, bestehend aus einer zusammenhängenden Wortfolge. |
|
Document |
Abbildung mit einem Diagramm, wie einem Flussdiagramm oder Netzwerkdiagramm. |
|
Document |
Inhalt von einer Dokumentseite. |
|
Document |
Absatz in einem Dokument, der in der Regel aus einer zusammenhängenden Zeilenfolge mit gemeinsamer Ausrichtung und Abstand besteht. |
|
Document |
Abschnitt in einem Dokument. |
|
Document |
Tabelle in einem Dokument, bestehend aus Tabellenzellen, die in einem rechteckigen Layout angeordnet sind. |
|
Document |
Tabellenzelle in einer Dokumententabelle. |
|
Document |
Tabellenzellentyp. |
|
Document |
Wort in einem Dokument, bestehend aus einer zusammenhängenden Zeichenfolge. Bei nicht leerzeichentrennten Sprachen, z. B. Chinesisch, Japanisch und Koreanisch, wird jedes Zeichen als eigenes Wort dargestellt. |
|
Integer |
Ganzzahlfeld aus dem Inhalt extrahiert. |
|
Json |
JSON-Feld aus dem Inhalt extrahiert. |
|
Length |
Längeneinheit, die durch Breite-, Höhen- und Quelleigenschaften verwendet wird. |
|
Number |
Zahlenfeld aus dem Inhalt extrahiert. |
|
Object |
Objektfeld aus dem Inhalt extrahiert. |
|
Operation |
den Status des Vorgangs |
|
Processing |
Der Ort, an dem die Daten verarbeitet werden können. Standardmäßig steht es auf global. |
|
Semantic |
Semantische Rolle des Absatzes. |
|
String |
String-Feld aus dem Inhalt extrahiert. |
|
Time |
Zeitfeld aus dem Inhalt extrahiert. |
|
Transcript |
Transkriptphrase. |
|
Transcript |
Transkript Wort. |
|
Usage |
Nutzungsdetails. |
AnalysisContentKind
Eine Art Medieninhalt.
| Wert | Beschreibung |
|---|---|
| document |
Dokumentinhalte wie PDF, Bild, SMS usw. |
| audioVisual |
Audiovisuelle Inhalte wie mp3, mp4 usw. |
AnalysisResult
Analyse des Vorgangsergebnisses.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| analyzerId |
string minLength: 1maxLength: 64 pattern: ^[a-zA-Z0-9._-]{1,64}$ |
Die eindeutige Kennung des Analysators. |
|
| apiVersion |
string |
Die Version der API, die zur Analyse des Dokuments verwendet wird. |
|
| contents | AnalysisContent[]: |
Der extrahierte Inhalt. |
|
| createdAt |
string (date-time) |
Das Datum und die Uhrzeit, an der das Ergebnis erstellt wurde. |
|
| stringEncoding |
string |
codePoint |
Das String-Codierungsformat für Inhalte spannt sich in der Antwort.
Mögliche Werte sind 'codePoint', 'utf16' und |
| warnings |
Warnungen, die bei der Analyse des Dokuments aufgetreten sind. |
ArrayField
Array-Feld aus dem Inhalt extrahiert.
| Name | Typ | Beschreibung |
|---|---|---|
| confidence |
number (float) minimum: 0maximum: 1 |
Zuversicht bei der Vorhersage des Feldwerts. |
| source |
string |
Codierte Quelle, die die Position des Feldwerts im Inhalt identifiziert. |
| spans |
Span(s), die mit dem Feldwert im Markdown-Inhalt verknüpft sind. |
|
| type |
string:
array |
Semantischer Datentyp des Feldwerts. |
| valueArray |
ContentField[]:
|
Array-Feldwert. |
AudioVisualContent
Audio-visuelle Inhalte. Zum Beispiel Audio/WAV, Video/MP4.
| Name | Typ | Beschreibung |
|---|---|---|
| analyzerId |
string minLength: 1maxLength: 64 pattern: ^[a-zA-Z0-9._-]{1,64}$ |
Der Analysator, der diesen Inhalt generiert hat. |
| cameraShotTimesMs |
integer[] (int64) |
Liste der Änderungen der Kameraaufnahme im Video, dargestellt durch den Zeitstempel in Millisekunden. Nur wenn returnDetails wahr sind. |
| category |
string |
Kategorie Klassifizierter Inhalt. |
| endTimeMs |
integer (int64) |
Endzeit des Inhalts in Millisekunden. |
| fields |
object |
Extrahierte Felder aus dem Inhalt. |
| height |
integer (int32) |
Höhe jedes Videobildes in Pixeln, falls zutreffend. |
| keyFrameTimesMs |
integer[] (int64) |
Liste der Keyframes im Video, dargestellt durch seinen Zeitstempel in Millisekunden. Nur wenn returnDetails wahr sind. |
| kind |
string:
audio |
Content-Typ. |
| markdown |
string |
Markdown-Darstellung des Inhalts. |
| mimeType |
string |
Erkannter MIME-Typ des Inhalts. Zum Beispiel Anwendungs/PDF, Bild/JPEG usw. |
| path |
string |
Der Pfad des Inhalts in der Eingabe. |
| segments |
Liste der erkannten Inhaltssegmente. Nur wenn enableSegment wahr ist. |
|
| startTimeMs |
integer (int64) |
Startzeit des Inhalts in Millisekunden. |
| transcriptPhrases |
Liste der Transkriptphrasen. Nur wenn returnDetails wahr sind. |
|
| width |
integer (int32) |
Breite jedes Videobildes in Pixeln, falls zutreffend. |
AudioVisualContentSegment
Erkanntes Audio-/Videoinhaltssegment.
| Name | Typ | Beschreibung |
|---|---|---|
| category |
string |
Kategorie Klassifizierter Inhalt. |
| endTimeMs |
integer (int64) |
Endzeit des Segments in Millisekunden. |
| segmentId |
string |
Segmentbezeichner |
| span |
Spannweite des Segments im Markdown-Inhalt. |
|
| startTimeMs |
integer (int64) |
Startzeit des Segments in Millisekunden. |
Azure.Core.Foundations.Error
Das Fehlerobjekt.
| Name | Typ | Beschreibung |
|---|---|---|
| code |
string |
Eine serverdefinierte Gruppe von Fehlercodes. |
| details |
Ein Array von Details zu bestimmten Fehlern, die zu diesem gemeldeten Fehler geführt haben. |
|
| innererror |
Ein Objekt, das spezifischere Informationen enthält als das aktuelle Objekt über den Fehler. |
|
| message |
string |
Eine lesbare Darstellung des Fehlers. |
| target |
string |
Das Ziel des Fehlers. |
Azure.Core.Foundations.ErrorResponse
Eine Antwort, die Fehlerdetails enthält.
| Name | Typ | Beschreibung |
|---|---|---|
| error |
Das Fehlerobjekt. |
Azure.Core.Foundations.InnerError
Ein Objekt, das spezifischere Informationen zum Fehler enthält. Gemäß den Richtlinien der Azure-REST-API: . https://aka.ms/AzureRestApiGuidelines#handling-errors
| Name | Typ | Beschreibung |
|---|---|---|
| code |
string |
Eine serverdefinierte Gruppe von Fehlercodes. |
| innererror |
Innerer Fehler. |
BooleanField
Boolesches Feld aus dem Inhalt extrahiert.
| Name | Typ | Beschreibung |
|---|---|---|
| confidence |
number (float) minimum: 0maximum: 1 |
Zuversicht bei der Vorhersage des Feldwerts. |
| source |
string |
Codierte Quelle, die die Position des Feldwerts im Inhalt identifiziert. |
| spans |
Span(s), die mit dem Feldwert im Markdown-Inhalt verknüpft sind. |
|
| type |
string:
boolean |
Semantischer Datentyp des Feldwerts. |
| valueBoolean |
boolean |
Boolesche Feldwert. |
ContentAnalyzerAnalyzeOperationStatus
Stellt Statusdetails zur Analyse der Operationen bereit.
| Name | Typ | Beschreibung |
|---|---|---|
| error |
Fehlerobjekt, das den Fehler beschreibt, wenn der Status "Fehlgeschlagen" lautet. |
|
| id |
string |
Die eindeutige ID des Vorgangs. |
| result |
Das Ergebnis des Vorgangs. |
|
| status |
den Status des Vorgangs |
|
| usage |
Nutzungsdetails der Analyseoperation. |
ContentFieldType
Semantischer Datentyp des Feldwerts.
| Wert | Beschreibung |
|---|---|
| string |
Nur-Text |
| date |
Datum, normalisiert auf ISO 8601 (YYYY-MM-DD) Format. |
| time |
Zeit, normalisiert auf ISO 8601 (hh:mm:ss) Format. |
| number |
Nummern als doppelte Präzisions-Gleitkomma. |
| integer |
Ganzzahl als 64-Bit-Zeichenzahl. |
| boolean |
Boolescher Wert |
| array |
Liste der Teilbereiche desselben Typs. |
| object |
Benannte Liste der Teilfelder. |
| json |
JSON-Objekt. |
ContentSpan
Position des Elements im Markdown, angegeben als Zeichenversatz und Länge.
| Name | Typ | Beschreibung |
|---|---|---|
| length |
integer (int32) |
Länge des Elements im Markdown, angegeben in Zeichen. |
| offset |
integer (int32) |
Startposition (0-indexiert) des Elements im Markdown, in Zeichen angegeben. |
DateField
Datumsfeld aus dem Inhalt extrahiert.
| Name | Typ | Beschreibung |
|---|---|---|
| confidence |
number (float) minimum: 0maximum: 1 |
Zuversicht bei der Vorhersage des Feldwerts. |
| source |
string |
Codierte Quelle, die die Position des Feldwerts im Inhalt identifiziert. |
| spans |
Span(s), die mit dem Feldwert im Markdown-Inhalt verknüpft sind. |
|
| type |
string:
date |
Semantischer Datentyp des Feldwerts. |
| valueDate |
string (date) |
Datumsfeldwert im ISO 8601 (YYYYY-MM-DD) Format. |
DocumentAnnotation
Anmerkung in einem Dokument, wie zum Beispiel ein Durchstreichen oder ein Kommentar.
| Name | Typ | Beschreibung |
|---|---|---|
| author |
string |
Anmerkungsautor. |
| comments |
Kommentare, die mit der Anmerkung verbunden sind. |
|
| createdAt |
string (date-time) |
Datum und Uhrzeit, wann die Annotation erstellt wurde. |
| id |
string |
Annotationskennung. |
| kind |
Anmerkungen. |
|
| lastModifiedAt |
string (date-time) |
Datum und Uhrzeit, wann die Anmerkung zuletzt geändert wurde. |
| source |
string |
Position der Annotation. |
| spans |
Bereiche des Inhalts, der mit der Annotation verbunden ist. |
|
| tags |
string[] |
Tags, die mit der Annotation verbunden sind. |
DocumentAnnotationComment
Kommentar im Zusammenhang mit einer Dokumentanmerkung.
| Name | Typ | Beschreibung |
|---|---|---|
| author |
string |
Autor des Kommentars. |
| createdAt |
string (date-time) |
Datum und Uhrzeit der Erstellung des Kommentars. |
| lastModifiedAt |
string (date-time) |
Datum und Uhrzeit, wann der Kommentar zuletzt geändert wurde. |
| message |
string |
Kommentarnachricht in Markdown. |
| tags |
string[] |
Tags, die mit dem Kommentar verknüpft sind. |
DocumentAnnotationKind
Dokumentenannotation.
| Wert | Beschreibung |
|---|---|
| highlight |
Markiere die Anmerkung. |
| strikethrough |
Durchgestrichene Anmerkung. |
| underline |
Unterstreiche die Anmerkung. |
| italic |
Kursiv Anmerkung. |
| bold |
Fette Anmerkung. |
| circle |
Kreisanmerkung. |
| note |
Anmerkung zur Anmerkung. |
DocumentBarcode
Barcode in einem Dokument.
| Name | Typ | Beschreibung |
|---|---|---|
| confidence |
number (float) minimum: 0maximum: 1 |
Vertrauen in die Vorhersage des Barcodes. |
| kind |
Barcodeart. |
|
| source |
string |
Kodierte Quelle, die die Position des Barcodes im Inhalt identifiziert. |
| span |
Spannweite des Barcodes im Markdown-Inhalt. |
|
| value |
string |
Barcode-Wert. |
DocumentBarcodeKind
Barcodeart.
| Wert | Beschreibung |
|---|---|
| QRCode |
QR-Code, wie in ISO/IEC 18004:2015 definiert. |
| PDF417 |
PDF417, wie in ISO 15438 definiert. |
| UPCA |
GS1 12-stelliger Universal-Produktcode. |
| UPCE |
GS1 sechsstelliger universeller Produktcode. |
| Code39 |
Code 39 Barcode, wie in ISO/IEC 16388:2007 definiert. |
| Code128 |
Code 128 Barcode, wie in ISO/IEC 15417:2007 definiert. |
| EAN8 |
GS1 8-stellige Internationale Artikelnummer (Europäische Artikelnummer). |
| EAN13 |
GS1 13-stellige Internationale Artikelnummer (Europäische Artikelnummer). |
| DataBar |
GS1 DataBar-Barcode. |
| Code93 |
Code 93 Barcode, wie in ANSI/AIM BC5-1995 definiert. |
| Codabar |
Codabar-Barcode, wie in ANSI/AIM BC3-1995 definiert. |
| DataBarExpanded |
GS1 DataBar erweiterter Barcode. |
| ITF |
Zwischen 2 von 5 Barcodes verwebt, wie in ANSI/AIM BC2-1995 definiert. |
| MicroQRCode |
Mikro-QR-Code, wie in ISO/IEC 23941:2022 definiert. |
| Aztec |
Aztekischer Code, wie in ISO/IEC 24778:2008 definiert. |
| DataMatrix |
Datenmatrixcode, wie in ISO/IEC 16022:2006 definiert. |
| MaxiCode |
MaxiCode, wie in ISO/IEC 16023:2000 definiert. |
DocumentCaption
Bildunterschrift einer Tabelle oder Figur.
| Name | Typ | Beschreibung |
|---|---|---|
| content |
string |
Inhalt der Bildunterschrift. |
| elements |
string[] |
Kinderelemente der Bildunterschrift. |
| source |
string |
Codierte Quelle, die die Position der Bildunterschrift im Inhalt identifiziert. |
| span |
Umfang der Bildunterschrift im Markdown-Inhalt. |
DocumentChartFigure
Abbildung mit einem Diagramm, wie zum Beispiel Balkendiagramm, Liniendiagramm oder Tortendiagramm.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| caption |
Bildunterschrift. |
||
| content |
Diagramminhalte mit Chart.js Konfiguration dargestellt. |
||
| description |
string |
Beschreibung der Figur. |
|
| elements |
string[] |
Untergeordnete Elemente der Abbildung, mit Ausnahme von Beschriftungen oder Fußnoten. |
|
| footnotes |
Liste der Fußnoten der Figur. |
||
| id |
string |
Figurenkennung. |
|
| kind |
string:
chart |
unknown |
Finde ich das Gefühl. |
| role |
Semantische Rolle der Figur. |
||
| source |
string |
Codierte Quelle, die die Position der Abbildung im Inhalt angibt. |
|
| span |
Spannweite der Figur im Markdown-Inhalt. |
DocumentContent
Dokumentinhalt. Zum Beispiel Text/Klartext, Anwendung/PDF, Bild/JPEG.
| Name | Typ | Beschreibung |
|---|---|---|
| analyzerId |
string minLength: 1maxLength: 64 pattern: ^[a-zA-Z0-9._-]{1,64}$ |
Der Analysator, der diesen Inhalt generiert hat. |
| annotations |
Liste der Anmerkungen im Dokument. Nur wenn aktivierenAnnotations und returnDetails wahr sind. |
|
| category |
string |
Kategorie Klassifizierter Inhalt. |
| endPageNumber |
integer (int32) |
Endseitennummer (1-indexiert) des Inhalts. |
| fields |
object |
Extrahierte Felder aus dem Inhalt. |
| figures | DocumentFigure[]: |
Liste der Figuren im Dokument. Nur wenn enableLayout und returnDetails wahr sind. |
| hyperlinks |
Liste der Hyperlinks im Dokument. Nur wenn die Rückgabe der Angaben stimmt. |
|
| kind |
string:
document |
Content-Typ. |
| markdown |
string |
Markdown-Darstellung des Inhalts. |
| mimeType |
string |
Erkannter MIME-Typ des Inhalts. Zum Beispiel Anwendungs/PDF, Bild/JPEG usw. |
| pages |
Liste der Seiten im Dokument. |
|
| paragraphs |
Liste der Absätze im Dokument. Nur wenn enableOcr und returnDetails wahr sind. |
|
| path |
string |
Der Pfad des Inhalts in der Eingabe. |
| sections |
Liste der Abschnitte im Dokument. Nur wenn enableLayout und returnDetails wahr sind. |
|
| segments |
Liste der erkannten Inhaltssegmente. Nur wenn enableSegment wahr ist. |
|
| startPageNumber |
integer (int32) |
Startseitennummer (1-indexiert) des Inhalts. |
| tables |
Liste der Tabellen im Dokument. Nur wenn enableLayout und returnDetails wahr sind. |
|
| unit |
Längeneinheit, die durch Breite-, Höhen- und Quelleigenschaften verwendet wird. Für Bilder/TIFF ist die Standardeinheit Pixel. Für PDF ist die Standardeinheit Zoll. |
DocumentContentSegment
Erkanntes Dokumenteninhaltssegment.
| Name | Typ | Beschreibung |
|---|---|---|
| category |
string |
Kategorie Klassifizierter Inhalt. |
| endPageNumber |
integer (int32) |
Endseitennummer (1-indexiert) des Segments. |
| segmentId |
string |
Segmentbezeichner |
| span |
Spannweite des Segments im Markdown-Inhalt. |
|
| startPageNumber |
integer (int32) |
Startseitennummer (1-indexiert) des Segments. |
DocumentFootnote
Fußnote einer Tabelle oder Figur.
| Name | Typ | Beschreibung |
|---|---|---|
| content |
string |
Inhalt der Fußnote. |
| elements |
string[] |
Kindliche Elemente der Fußnote. |
| source |
string |
Codierte Quelle, die die Position der Fußnote im Inhalt identifiziert. |
| span |
Spannweite der Fußnote im Markdown-Inhalt. |
DocumentFormula
Mathematische Formel in einem Dokument.
| Name | Typ | Beschreibung |
|---|---|---|
| confidence |
number (float) minimum: 0maximum: 1 |
Vertrauen bei der Vorhersage der Formel. |
| kind |
Formeltyp. |
|
| source |
string |
Codierte Quelle, die die Position der Formel im Inhalt identifiziert. |
| span |
Spannweite der Formel im Inhalt des Markdowns. |
|
| value |
string |
LaTex-Ausdruck, der die Formel beschreibt. |
DocumentFormulaKind
Formeltyp.
| Wert | Beschreibung |
|---|---|
| inline |
Eine Formel, die im Inhalt eines Absatzes eingebettet ist. |
| display |
Eine Formel im Display-Modus, die eine ganze Reihe einnimmt. |
DocumentHyperlink
Hyperlink in einem Dokument, zum Beispiel ein Link zu einer Webseite oder einer E-Mail-Adresse.
| Name | Typ | Beschreibung |
|---|---|---|
| content |
string |
Verlinkte Inhalte. |
| source |
string |
Position des Links. |
| span |
Umfang des Links im Markdown-Inhalt. |
|
| url |
string |
URL des Hyperlinks. |
DocumentLine
Zeile in einem Dokument, bestehend aus einer zusammenhängenden Wortfolge.
| Name | Typ | Beschreibung |
|---|---|---|
| content |
string |
Zeilentext. |
| source |
string |
Codierte Quelle, die die Position der Zeile im Inhalt angibt. |
| span |
Die Länge der Linie im Markdown-Inhalt. |
DocumentMermaidFigure
Abbildung mit einem Diagramm, wie einem Flussdiagramm oder Netzwerkdiagramm.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| caption |
Bildunterschrift. |
||
| content |
string |
Diagramminhalt wird mit Meerjungfrauensyntax dargestellt. |
|
| description |
string |
Beschreibung der Figur. |
|
| elements |
string[] |
Untergeordnete Elemente der Abbildung, mit Ausnahme von Beschriftungen oder Fußnoten. |
|
| footnotes |
Liste der Fußnoten der Figur. |
||
| id |
string |
Figurenkennung. |
|
| kind |
string:
mermaid |
unknown |
Finde ich das Gefühl. |
| role |
Semantische Rolle der Figur. |
||
| source |
string |
Codierte Quelle, die die Position der Abbildung im Inhalt angibt. |
|
| span |
Spannweite der Figur im Markdown-Inhalt. |
DocumentPage
Inhalt von einer Dokumentseite.
| Name | Typ | Beschreibung |
|---|---|---|
| angle |
number (float) maximum: 180 |
Die allgemeine Ausrichtung des Inhalts im Uhrzeigersinn, gemessen in Grad zwischen (-180, 180]. Nur wenn enableOcr wahr ist. |
| barcodes |
Liste der Barcodes auf der Seite. Nur wenn enableBarcode und returnDetails stimmen. |
|
| formulas |
Liste mathematischer Formeln auf der Seite. Nur wenn enableFormula und returnDetails wahr sind. |
|
| height |
number (float) |
Höhe der Seite. |
| lines |
Liste der Zeilen auf der Seite. Nur wenn enableOcr und returnDetails wahr sind. |
|
| pageNumber |
integer (int32) minimum: 1 |
Seitenzahl (1-basiert). |
| spans |
Spannweite(n), die der Seite im Markdown-Inhalt zugeordnet sind. |
|
| width |
number (float) |
Breite der Seite. |
| words |
Liste der Wörter auf der Seite. Nur wenn enableOcr und returnDetails wahr sind. |
DocumentParagraph
Absatz in einem Dokument, der in der Regel aus einer zusammenhängenden Zeilenfolge mit gemeinsamer Ausrichtung und Abstand besteht.
| Name | Typ | Beschreibung |
|---|---|---|
| content |
string |
Absatztext. |
| role |
Semantische Rolle des Absatzes. |
|
| source |
string |
Kodierte Quelle, die die Position des Absatzes im Inhalt angibt. |
| span |
Umfang des Absatzes im Markdown-Inhalt. |
DocumentSection
Abschnitt in einem Dokument.
| Name | Typ | Beschreibung |
|---|---|---|
| elements |
string[] |
Untergeordnete Elemente des Abschnitts. |
| span |
Umfang des Abschnitts im Markdown-Inhalt. |
DocumentTable
Tabelle in einem Dokument, bestehend aus Tabellenzellen, die in einem rechteckigen Layout angeordnet sind.
| Name | Typ | Beschreibung |
|---|---|---|
| caption |
Tischbildunterschrift. |
|
| cells |
Zellen, die in der Tabelle enthalten sind. |
|
| columnCount |
integer (int32) minimum: 1 |
Anzahl der Spalten in der Tabelle. |
| footnotes |
Liste der Tisch-Fußnoten. |
|
| role |
Semantische Rolle des Tisches. |
|
| rowCount |
integer (int32) minimum: 1 |
Anzahl der Zeilen in der Tabelle. |
| source |
string |
Codierte Quelle, die die Position der Tabelle im Inhalt identifiziert. |
| span |
Spannweite der Tabelle im Inhalt des Markdowns. |
DocumentTableCell
Tabellenzelle in einer Dokumententabelle.
| Name | Typ | Standardwert | Beschreibung |
|---|---|---|---|
| columnIndex |
integer (int32) |
Spaltenindex der Zelle. |
|
| columnSpan |
integer (int32) minimum: 1 |
1 |
Die Anzahl der Spalten, die von dieser Zelle überspannt sind. |
| content |
string |
Inhalt der Tabellenzelle. |
|
| elements |
string[] |
Kindelemente der Tabellenzelle. |
|
| kind | content |
Tabellenzellentyp. |
|
| rowIndex |
integer (int32) |
Zeilenindex der Zelle. |
|
| rowSpan |
integer (int32) minimum: 1 |
1 |
Die Anzahl der Zeilen, die von dieser Zelle überspannt sind. |
| source |
string |
Codierte Quelle, die die Position der Tabellenzelle im Inhalt identifiziert. |
|
| span |
Spannweite der Tabellenzelle im Markdown-Inhalt. |
DocumentTableCellKind
Tabellenzellentyp.
| Wert | Beschreibung |
|---|---|
| content |
Hauptinhalt/Daten. |
| rowHeader |
Beschreibung des Inhalts der Zeile. |
| columnHeader |
Beschreibe den Inhalt der Spalte. |
| stubHead |
Beschreibung der Zeilenüberschriften, die sich üblicherweise oben links in einer Tabelle befinden. |
| description |
Beschreibung des Inhalts in (Teilen von) der Tabelle. |
DocumentWord
Wort in einem Dokument, bestehend aus einer zusammenhängenden Zeichenfolge. Bei nicht leerzeichentrennten Sprachen, z. B. Chinesisch, Japanisch und Koreanisch, wird jedes Zeichen als eigenes Wort dargestellt.
| Name | Typ | Beschreibung |
|---|---|---|
| confidence |
number (float) minimum: 0maximum: 1 |
Selbstvertrauen, das Wort vorherzusagen. |
| content |
string |
Worttext. |
| source |
string |
Codierte Quelle, die die Position des Wortes im Inhalt identifiziert. |
| span |
Umfang des Wortes im Markdown-Inhalt. |
IntegerField
Ganzzahlfeld aus dem Inhalt extrahiert.
| Name | Typ | Beschreibung |
|---|---|---|
| confidence |
number (float) minimum: 0maximum: 1 |
Zuversicht bei der Vorhersage des Feldwerts. |
| source |
string |
Codierte Quelle, die die Position des Feldwerts im Inhalt identifiziert. |
| spans |
Span(s), die mit dem Feldwert im Markdown-Inhalt verknüpft sind. |
|
| type |
string:
integer |
Semantischer Datentyp des Feldwerts. |
| valueInteger |
integer (int64) |
Ganzzahliger Feldwert. |
JsonField
JSON-Feld aus dem Inhalt extrahiert.
| Name | Typ | Beschreibung |
|---|---|---|
| confidence |
number (float) minimum: 0maximum: 1 |
Zuversicht bei der Vorhersage des Feldwerts. |
| source |
string |
Codierte Quelle, die die Position des Feldwerts im Inhalt identifiziert. |
| spans |
Span(s), die mit dem Feldwert im Markdown-Inhalt verknüpft sind. |
|
| type |
string:
json |
Semantischer Datentyp des Feldwerts. |
| valueJson |
JSON-Feldwert. |
LengthUnit
Längeneinheit, die durch Breite-, Höhen- und Quelleigenschaften verwendet wird.
| Wert | Beschreibung |
|---|---|
| pixel |
Pixel-Einheit. |
| inch |
Zoll-Einheit. |
NumberField
Zahlenfeld aus dem Inhalt extrahiert.
| Name | Typ | Beschreibung |
|---|---|---|
| confidence |
number (float) minimum: 0maximum: 1 |
Zuversicht bei der Vorhersage des Feldwerts. |
| source |
string |
Codierte Quelle, die die Position des Feldwerts im Inhalt identifiziert. |
| spans |
Span(s), die mit dem Feldwert im Markdown-Inhalt verknüpft sind. |
|
| type |
string:
number |
Semantischer Datentyp des Feldwerts. |
| valueNumber |
number (double) |
Zahlenfeldwert. |
ObjectField
Objektfeld aus dem Inhalt extrahiert.
| Name | Typ | Beschreibung |
|---|---|---|
| confidence |
number (float) minimum: 0maximum: 1 |
Zuversicht bei der Vorhersage des Feldwerts. |
| source |
string |
Codierte Quelle, die die Position des Feldwerts im Inhalt identifiziert. |
| spans |
Span(s), die mit dem Feldwert im Markdown-Inhalt verknüpft sind. |
|
| type |
string:
object |
Semantischer Datentyp des Feldwerts. |
| valueObject |
object |
Objektfeldwert. |
OperationState
den Status des Vorgangs
| Wert | Beschreibung |
|---|---|
| NotStarted |
Der Vorgang wurde noch nicht gestartet. |
| Running |
Der Vorgang wird ausgeführt. |
| Succeeded |
Der Vorgang wurde erfolgreich abgeschlossen. |
| Failed |
Fehler beim Vorgang. |
| Canceled |
Der Vorgang wurde vom Benutzer abgebrochen. |
ProcessingLocation
Der Ort, an dem die Daten verarbeitet werden können. Standardmäßig steht es auf global.
| Wert | Beschreibung |
|---|---|
| geography |
Daten können in derselben Geografie wie die Ressource verarbeitet werden. |
| dataZone |
Daten können in derselben Datenzone wie die Ressource verarbeitet werden. |
| global |
Daten können in jedem Azure-Rechenzentrum weltweit verarbeitet werden. |
SemanticRole
Semantische Rolle des Absatzes.
| Wert | Beschreibung |
|---|---|
| pageHeader |
Text am oberen Rand der Seite. |
| pageFooter |
Text am unteren Rand der Seite. |
| pageNumber |
Seitennummer. |
| title |
Top-Level-Titel, der das gesamte Dokument beschreibt. |
| sectionHeading |
Unterüberschrift, die einen Abschnitt des Dokuments beschreibt. |
| footnote |
Die Notiz wird üblicherweise nach dem Hauptinhalt auf einer Seite platziert. |
| formulaBlock |
Block von Formeln, oft mit gemeinsamer Ausrichtung. |
StringField
String-Feld aus dem Inhalt extrahiert.
| Name | Typ | Beschreibung |
|---|---|---|
| confidence |
number (float) minimum: 0maximum: 1 |
Zuversicht bei der Vorhersage des Feldwerts. |
| source |
string |
Codierte Quelle, die die Position des Feldwerts im Inhalt identifiziert. |
| spans |
Span(s), die mit dem Feldwert im Markdown-Inhalt verknüpft sind. |
|
| type |
string:
string |
Semantischer Datentyp des Feldwerts. |
| valueString |
string |
Zeichenkettenfeldwert. |
TimeField
Zeitfeld aus dem Inhalt extrahiert.
| Name | Typ | Beschreibung |
|---|---|---|
| confidence |
number (float) minimum: 0maximum: 1 |
Zuversicht bei der Vorhersage des Feldwerts. |
| source |
string |
Codierte Quelle, die die Position des Feldwerts im Inhalt identifiziert. |
| spans |
Span(s), die mit dem Feldwert im Markdown-Inhalt verknüpft sind. |
|
| type |
string:
time |
Semantischer Datentyp des Feldwerts. |
| valueTime |
string (time) |
Zeitfeldwert im ISO 8601 (hh:mm:ss) Format. |
TranscriptPhrase
Transkriptphrase.
| Name | Typ | Beschreibung |
|---|---|---|
| confidence |
number (float) minimum: 0maximum: 1 |
Selbstvertrauen bei der Vorhersage der Phrase. |
| endTimeMs |
integer (int64) |
Endzeit der Phrase in Millisekunden. |
| locale |
string |
Ort des Satzes erkannt. Zum Beispiel en-US. |
| span |
Spannweite des Satzes im Markdown-Inhalt. |
|
| speaker |
string |
Sprecherindex oder Name. |
| startTimeMs |
integer (int64) |
Startzeit der Phrase in Millisekunden. |
| text |
string |
Text des Transkripts. |
| words |
Liste der Wörter in der Phrase. |
TranscriptWord
Transkript Wort.
| Name | Typ | Beschreibung |
|---|---|---|
| endTimeMs |
integer (int64) |
Endzeit des Wortes in Millisekunden. |
| span |
Umfang des Wortes im Markdown-Inhalt. |
|
| startTimeMs |
integer (int64) |
Startzeit des Wortes in Millisekunden. |
| text |
string |
Text des Transkripts. |
UsageDetails
Nutzungsdetails.
| Name | Typ | Beschreibung |
|---|---|---|
| audioHours |
number (float) |
Die Stunden an Audio wurden verarbeitet. |
| contextualizationTokens |
integer (int32) |
Die Anzahl der Kontextualisierungstoken, die zur Kontextvorbereitung, zur Erzeugung von Konfidenzwerten, Quellfundierung und Ausgabeformatierung verbraucht werden. |
| documentPagesBasic |
integer (int32) |
Die Anzahl der Dokumentseiten, die auf der Grundebene verarbeitet werden. Für Dokumente ohne explizite Seiten (ex. txt, HTML) werden alle 3000 UTF-16-Zeichen als eine Seite gezählt. |
| documentPagesMinimal |
integer (int32) |
Die Anzahl der Dokumentseiten, die auf minimaler Ebene verarbeitet werden. Für Dokumente ohne explizite Seiten (ex. txt, HTML) werden alle 3000 UTF-16-Zeichen als eine Seite gezählt. |
| documentPagesStandard |
integer (int32) |
Die Anzahl der auf Standardebene verarbeiteten Dokumentseiten. Für Dokumente ohne explizite Seiten (ex. txt, HTML) werden alle 3000 UTF-16-Zeichen als eine Seite gezählt. |
| tokens |
object |
Die Anzahl der verbrauchten LLM- und Embedding-Tokens, gruppiert nach Modell (z. B. GTP 4.1) und Typ (z. B. Eingabe, zwischengespeicherte Eingabe, Ausgabe). |
| videoHours |
number (float) |
Die Stunden an Video, die verarbeitet wurden. |