ComputerVisionClientOperationsMixin Klasse

Vererbung
builtins.object
ComputerVisionClientOperationsMixin

Konstruktor

ComputerVisionClientOperationsMixin()

Methoden

analyze_image

Durch diesen Vorgang wird ein umfangreicher Satz von Visualfeatures basierend auf dem Bildinhalt extrahiert. Zwei Eingabemethoden werden unterstützt: (1) Hochladen eines Bilds oder (2) Angeben einer Bild-URL. Innerhalb Ihrer Anforderung gibt es einen optionalen Parameter, mit dem Sie auswählen können, welche Features zurückgegeben werden sollen. Standardmäßig werden Bildkategorien in der Antwort zurückgegeben. Eine erfolgreiche Antwort wird in JSON zurückgegeben. Wenn bei der Anforderung ein Fehler aufgetreten ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu verstehen, was schief gelaufen ist.

analyze_image_by_domain

Dieser Vorgang erkennt Inhalte in einem Bild durch Anwenden eines domänenspezifischen Modells. Die Liste domänenspezifischer Modelle, die von der Maschinelles Sehen-API unterstützt werden, kann über die /models-GET-Anforderung abgerufen werden. Zurzeit bietet die API folgende domänenspezifische Modelle: celebrities (Prominente), landmarks (Sehenswürdigkeiten). Zwei Eingabemethoden werden unterstützt: (1) Hochladen eines Bilds oder (2) Angeben einer Bild-URL. Eine erfolgreiche Antwort wird in JSON zurückgegeben. Wenn bei der Anforderung ein Fehler aufgetreten ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu verstehen, was schief gelaufen ist.

analyze_image_by_domain_in_stream

Dieser Vorgang erkennt Inhalte in einem Bild durch Anwenden eines domänenspezifischen Modells. Die Liste domänenspezifischer Modelle, die von der Maschinelles Sehen-API unterstützt werden, kann über die /models-GET-Anforderung abgerufen werden. Zurzeit bietet die API folgende domänenspezifische Modelle: celebrities (Prominente), landmarks (Sehenswürdigkeiten). Zwei Eingabemethoden werden unterstützt: (1) Hochladen eines Bilds oder (2) Angeben einer Bild-URL. Eine erfolgreiche Antwort wird in JSON zurückgegeben. Wenn bei der Anforderung ein Fehler aufgetreten ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu verstehen, was schief gelaufen ist.

analyze_image_in_stream

Durch diesen Vorgang wird ein umfangreicher Satz von Visualfeatures basierend auf dem Bildinhalt extrahiert. Zwei Eingabemethoden werden unterstützt: (1) Hochladen eines Bilds oder (2) Angeben einer Bild-URL. In Ihrer Anforderung gibt es einen optionalen Parameter, mit dem Sie auswählen können, welche Features zurückgegeben werden sollen. Standardmäßig werden Bildkategorien in der Antwort zurückgegeben. Eine erfolgreiche Antwort wird in JSON zurückgegeben. Wenn die Anforderung fehlgeschlagen ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu verstehen, was falsch gelaufen ist.

describe_image

Durch diesen Vorgang wird eine Beschreibung eines Bilds mit vollständigen Sätzen in verständlicher Sprache generiert. Die Beschreibung basiert auf einer Sammlung von Inhaltstags, die ebenfalls vom Vorgang zurückgegeben werden. Für jedes Bild können mehrere Beschreibungen generiert werden. Beschreibungen werden nach Zuverlässigkeitsbewertung sortiert. Beschreibungen können ggf. Ergebnisse von Prominenten- und Landmark-Domänenmodellen enthalten. Zwei Eingabemethoden werden unterstützt: (1) Hochladen eines Bilds oder (2) Angeben einer Bild-URL. Eine erfolgreiche Antwort wird in JSON zurückgegeben. Wenn die Anforderung fehlgeschlagen ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu verstehen, was falsch gelaufen ist.

describe_image_in_stream

Durch diesen Vorgang wird eine Beschreibung eines Bilds mit vollständigen Sätzen in verständlicher Sprache generiert. Die Beschreibung basiert auf einer Sammlung von Inhaltstags, die ebenfalls vom Vorgang zurückgegeben werden. Für jedes Bild können mehrere Beschreibungen generiert werden. Beschreibungen werden nach Zuverlässigkeitsbewertung sortiert. Beschreibungen können ggf. Ergebnisse von Prominenten- und Landmark-Domänenmodellen enthalten. Zwei Eingabemethoden werden unterstützt: (1) Hochladen eines Bilds oder (2) Angeben einer Bild-URL. Eine erfolgreiche Antwort wird in JSON zurückgegeben. Wenn die Anforderung fehlgeschlagen ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu verstehen, was falsch gelaufen ist.

detect_objects

Führt die Objekterkennung für das angegebene Bild aus. Zwei Eingabemethoden werden unterstützt: (1) Hochladen eines Bilds oder (2) Angeben einer Bild-URL. Eine erfolgreiche Antwort wird in JSON zurückgegeben. Wenn die Anforderung fehlgeschlagen ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu verstehen, was falsch gelaufen ist.

detect_objects_in_stream

Führt die Objekterkennung für das angegebene Bild aus. Zwei Eingabemethoden werden unterstützt: (1) Hochladen eines Bilds oder (2) Angeben einer Bild-URL. Eine erfolgreiche Antwort wird in JSON zurückgegeben. Wenn die Anforderung fehlgeschlagen ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu verstehen, was falsch gelaufen ist.

generate_thumbnail

Dieser Vorgang generiert eine Miniaturansicht mit der vom Benutzer angegebenen Breite und Höhe. Standardmäßig analysiert der Dienst das Bild, identifiziert den Bereich, der von Interesse ist (Region of Interest, ROI), und generiert basierend auf dem ROI intelligente Koordinaten für den Zuschnitt. Intelligentes Zuschneiden hilft, wenn Sie ein Seitenverhältnis angeben, das sich von dem des Eingabebilds unterscheidet. Eine erfolgreiche Antwort enthält die Binärdaten zur Miniaturansicht. Wenn bei der Anforderung ein Fehler aufgetreten ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu ermitteln, was falsch gelaufen ist. Bei einem Fehler werden der Fehlercode und eine Fehlermeldung zurückgegeben. Der Fehlercode kann invalidImageUrl, InvalidImageFormat, InvalidImageSize, InvalidThumbnailSize, NotSupportedImage, FailedToProcess, Timeout oder InternalServerError sein.

generate_thumbnail_in_stream

Dieser Vorgang generiert eine Miniaturansicht mit der vom Benutzer angegebenen Breite und Höhe. Standardmäßig analysiert der Dienst das Bild, identifiziert den Bereich, der von Interesse ist (Region of Interest, ROI), und generiert basierend auf dem ROI intelligente Koordinaten für den Zuschnitt. Intelligentes Zuschneiden hilft, wenn Sie ein Seitenverhältnis angeben, das sich von dem des Eingabebilds unterscheidet. Eine erfolgreiche Antwort enthält die Binärdaten zur Miniaturansicht. Wenn bei der Anforderung ein Fehler aufgetreten ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu ermitteln, was falsch gelaufen ist. Bei einem Fehler werden der Fehlercode und eine Fehlermeldung zurückgegeben. Der Fehlercode kann invalidImageUrl, InvalidImageFormat, InvalidImageSize, InvalidThumbnailSize, NotSupportedImage, FailedToProcess, Timeout oder InternalServerError sein.

get_area_of_interest

Dieser Vorgang gibt einen Begrenzungsrahmen um den wichtigsten Bereich des Bilds zurück. Eine erfolgreiche Antwort wird in JSON zurückgegeben. Wenn bei der Anforderung ein Fehler aufgetreten ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu ermitteln, was falsch gelaufen ist. Bei einem Fehler werden der Fehlercode und eine Fehlermeldung zurückgegeben. Der Fehlercode kann invalidImageUrl, InvalidImageFormat, InvalidImageSize, NotSupportedImage, FailedToProcess, Timeout oder InternalServerError sein.

get_area_of_interest_in_stream

Dieser Vorgang gibt einen Begrenzungsrahmen um den wichtigsten Bereich des Bilds zurück. Eine erfolgreiche Antwort wird in JSON zurückgegeben. Wenn bei der Anforderung ein Fehler aufgetreten ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu ermitteln, was falsch gelaufen ist. Bei einem Fehler werden der Fehlercode und eine Fehlermeldung zurückgegeben. Der Fehlercode kann invalidImageUrl, InvalidImageFormat, InvalidImageSize, NotSupportedImage, FailedToProcess, Timeout oder InternalServerError sein.

get_read_result

Diese Schnittstelle wird verwendet, um die OCR-Ergebnisse eines Lesevorgangs abzurufen. Die URL zu dieser Schnittstelle sollte aus dem Feld "Operation-Location" abgerufen werden, das von der Leseschnittstelle zurückgegeben wird.

list_models

Dieser Vorgang gibt die Liste domänenspezifischer Modelle zurück, die von der Maschinelles Sehen-API unterstützt werden. Zurzeit unterstützt die API folgende domänenspezifische Modelle: celebrity recognizer (Prominentenerkennung), landmark recognizer (Sehenswürdigkeitenerkennung). Eine erfolgreiche Antwort wird in JSON zurückgegeben. Wenn die Anforderung fehlgeschlagen ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu verstehen, was falsch gelaufen ist.

read

Verwenden Sie diese Schnittstelle, um das Ergebnis eines Lesevorgangs zu erhalten, indem Sie die hochmodernen OCR-Algorithmen (Optical Character Recognition, optische Zeichenerkennung) verwenden, die für dokumente mit hohem Text optimiert sind. Wenn Sie die Read-Schnittstelle verwenden, enthält die Antwort ein Feld namens "Operation-Location". Das Feld "Operation-Location" enthält die URL, die Sie für Ihren "GetReadResult"-Vorgang verwenden müssen, um auf OCR-Ergebnisse zuzugreifen..

read_in_stream

Verwenden Sie diese Schnittstelle, um das Ergebnis eines Lesevorgangs zu erhalten, indem Sie die hochmodernen OCR-Algorithmen (Optical Character Recognition, optische Zeichenerkennung) verwenden, die für dokumente mit hohem Text optimiert sind. Wenn Sie die Read-Schnittstelle verwenden, enthält die Antwort ein Feld namens "Operation-Location". Das Feld "Operation-Location" enthält die URL, die Sie für Ihren "GetReadResult"-Vorgang verwenden müssen, um auf OCR-Ergebnisse zuzugreifen..

recognize_printed_text

Optische Zeichenerkennung (OCR) erkennt Text in einem Bild und extrahiert die erkannten Zeichen in eine vom Computer verwendbare Zeichenfolge. Bei Erfolg werden die OCR-Ergebnisse zurückgegeben. Bei einem Fehler wird der Fehlercode zusammen mit einer Fehlermeldung zurückgegeben. Der Fehlercode kann invalidImageUrl, InvalidImageFormat, InvalidImageSize, NotSupportedImage, NotSupportedLanguage oder InternalServerError sein.

recognize_printed_text_in_stream

Optische Zeichenerkennung (OCR) erkennt Text in einem Bild und extrahiert die erkannten Zeichen in eine vom Computer verwendbare Zeichenfolge. Bei Erfolg werden die OCR-Ergebnisse zurückgegeben. Bei einem Fehler wird der Fehlercode zusammen mit einer Fehlermeldung zurückgegeben. Der Fehlercode kann invalidImageUrl, InvalidImageFormat, InvalidImageSize, NotSupportedImage, NotSupportedLanguage oder InternalServerError sein.

tag_image

Dieser Vorgang generiert eine Liste von Wörtern oder Tags, die für den Inhalt des angegebenen Bilds relevant sind. Die Maschinelles Sehen-API kann Tags basierend auf Objekten, Lebewesen, Landschaften oder Aktionen zurückgegeben, die in Bildern ermittelt werden. Im Gegensatz zu Kategorien werden Tags nicht anhand eines hierarchischen Klassifizierungssystems angeordnet, sondern entsprechen Bildinhalten. Tags können Hinweise enthalten, um Mehrdeutigkeiten zu vermeiden oder Kontext bereitzustellen. Das Tag „Cello“ kann beispielsweise vom Hinweis „Musikinstrument“ begleitet werden. Zwei Eingabemethoden werden unterstützt: (1) Hochladen eines Bilds oder (2) Angeben einer Bild-URL. Eine erfolgreiche Antwort wird in JSON zurückgegeben. Wenn die Anforderung fehlgeschlagen ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu verstehen, was falsch gelaufen ist.

tag_image_in_stream

Dieser Vorgang generiert eine Liste von Wörtern oder Tags, die für den Inhalt des angegebenen Bilds relevant sind. Die Maschinelles Sehen-API kann Tags basierend auf Objekten, Lebewesen, Landschaften oder Aktionen zurückgegeben, die in Bildern ermittelt werden. Im Gegensatz zu Kategorien werden Tags nicht anhand eines hierarchischen Klassifizierungssystems angeordnet, sondern entsprechen Bildinhalten. Tags können Hinweise enthalten, um Mehrdeutigkeiten zu vermeiden oder Kontext bereitzustellen. Das Tag „Cello“ kann beispielsweise vom Hinweis „Musikinstrument“ begleitet werden. Zwei Eingabemethoden werden unterstützt: (1) Hochladen eines Bilds oder (2) Angeben einer Bild-URL. Eine erfolgreiche Antwort wird in JSON zurückgegeben. Wenn die Anforderung fehlgeschlagen ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu verstehen, was falsch gelaufen ist.

analyze_image

Durch diesen Vorgang wird ein umfangreicher Satz von Visualfeatures basierend auf dem Bildinhalt extrahiert. Zwei Eingabemethoden werden unterstützt: (1) Hochladen eines Bilds oder (2) Angeben einer Bild-URL. Innerhalb Ihrer Anforderung gibt es einen optionalen Parameter, mit dem Sie auswählen können, welche Features zurückgegeben werden sollen. Standardmäßig werden Bildkategorien in der Antwort zurückgegeben. Eine erfolgreiche Antwort wird in JSON zurückgegeben. Wenn bei der Anforderung ein Fehler aufgetreten ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu verstehen, was schief gelaufen ist.

analyze_image(url, visual_features=None, details=None, language='en', description_exclude=None, model_version='latest', custom_headers=None, raw=False, **operation_config)

Parameter

url
str
Erforderlich

Öffentlich zugängliche URL eines Bilds.

visual_features
list[str oder VisualFeatureTypes]
Standardwert: None

Eine Zeichenfolge, die angibt, welche visuellen Featuretypen zurückgegeben werden sollen. Mehrere Werte sollten durch Trennzeichen getrennt sein. Gültige visuelle Featuretypen umfassen: Kategorien : Kategorisiert Bildinhalte gemäß einer in der Dokumentation definierten Taxonomie. Tags: Markiert das Bild mit einer detaillierten Liste von Wörtern, die sich auf den Bildinhalt beziehen. Description: Beschreibt den Bildinhalt mit einem vollständigen Satz. Gesichter: Erkennt, ob Gesichter vorhanden sind. Wenn Gesichter vorhanden sind, generiert dieses Merkmal Informationen zu Koordinaten, Geschlecht und Alter. ImageType: Erkennt, ob das Bild eine pixelbasierte Rastergrafik oder eine linienbasierte Vektorgrafik ist. Farbe: Bestimmt die Akzentfarbe, die dominante Farbe und ob ein Bild schwarzweiß&ist. Erwachsener - erkennt, ob das Bild pornografischer Natur ist (zeigt Nacktheit oder einen Sexualakt), oder ist gory (zeigt extreme Gewalt oder Blut). Zweideutige und freizügige Inhalte werden ebenfalls erkannt. Objekte: Erkennt verschiedene Objekte innerhalb eines Bilds, einschließlich der ungefähren Position. Das Objects-Argument ist nur für Englisch verfügbar. Marken: Erkennt verschiedene Marken innerhalb eines Bilds, einschließlich der ungefähren Position. Das Brands-Argument ist nur für Englisch verfügbar.

details
list[str oder Details]
Standardwert: None

Eine Zeichenfolge, die angibt, welche domänenspezifischen Details zurückgegeben werden sollen. Mehrere Werte sollten durch Trennzeichen getrennt sein. Gültige visuelle Featuretypen umfassen: Prominente - identifiziert Prominente, wenn sie im Bild erkannt werden, Wahrzeichen - identifiziert bemerkenswerte Sehenswürdigkeiten im Bild.

language
str
Standardwert: en

Die gewünschte Sprache für die Ausgabegenerierung. Wenn dieser Parameter nicht angegeben wird, lautet der Standardwert "en". Unterstützte Sprachen:en – Englisch, Standard. es - Spanisch, ja - Japanisch, pt - Portugiesisch, zh - Vereinfachtes Chinesisch. Mögliche Werte: 'en', 'es', 'ja', 'pt', 'zh'

description_exclude
list[str oder DescriptionExclude]
Standardwert: None

Deaktivieren Sie die angegebenen Domänenmodelle beim Generieren der Beschreibung.

model_version
str
Standardwert: latest

Optionaler Parameter, um die Version des KI-Modells anzugeben. Akzeptierte Werte sind : "latest", "2021-04-01". Standardmäßig ist "neueste" festgelegt.

custom_headers
dict
Standardwert: None

Header, die der Anforderung hinzugefügt werden

raw
bool
Standardwert: False

gibt die direkte Antwort neben der deserialisierten Antwort zurück.

operation_config
Erforderlich

Außerkraftsetzungen der Vorgangskonfiguration.

Gibt zurück

ImageAnalysis oder ClientRawResponse if raw=true

Rückgabetyp

Ausnahmen

analyze_image_by_domain

Dieser Vorgang erkennt Inhalte in einem Bild durch Anwenden eines domänenspezifischen Modells. Die Liste domänenspezifischer Modelle, die von der Maschinelles Sehen-API unterstützt werden, kann über die /models-GET-Anforderung abgerufen werden. Zurzeit bietet die API folgende domänenspezifische Modelle: celebrities (Prominente), landmarks (Sehenswürdigkeiten). Zwei Eingabemethoden werden unterstützt: (1) Hochladen eines Bilds oder (2) Angeben einer Bild-URL. Eine erfolgreiche Antwort wird in JSON zurückgegeben. Wenn bei der Anforderung ein Fehler aufgetreten ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu verstehen, was schief gelaufen ist.

analyze_image_by_domain(model, url, language='en', model_version='latest', custom_headers=None, raw=False, **operation_config)

Parameter

model
str
Erforderlich

Der zu erkennende domänenspezifische Inhalt.

url
str
Erforderlich

Öffentlich zugängliche URL eines Bilds.

language
str
Standardwert: en

Die gewünschte Sprache für die Ausgabegenerierung. Wenn dieser Parameter nicht angegeben wird, lautet der Standardwert "en". Unterstützte Sprachen:en – Englisch, Standard. es - Spanisch, ja - Japanisch, pt - Portugiesisch, zh - Vereinfachtes Chinesisch. Mögliche Werte: 'en', 'es', 'ja', 'pt', 'zh'

model_version
str
Standardwert: latest

Optionaler Parameter, um die Version des KI-Modells anzugeben. Akzeptierte Werte sind : "latest", "2021-04-01". Standardmäßig ist "neueste" festgelegt.

custom_headers
dict
Standardwert: None

Header, die der Anforderung hinzugefügt werden

raw
bool
Standardwert: False

gibt die direkte Antwort neben der deserialisierten Antwort zurück.

operation_config
Erforderlich

Außerkraftsetzungen der Vorgangskonfiguration.

Gibt zurück

DomainModelResults oder ClientRawResponse if raw=true

Rückgabetyp

Ausnahmen

analyze_image_by_domain_in_stream

Dieser Vorgang erkennt Inhalte in einem Bild durch Anwenden eines domänenspezifischen Modells. Die Liste domänenspezifischer Modelle, die von der Maschinelles Sehen-API unterstützt werden, kann über die /models-GET-Anforderung abgerufen werden. Zurzeit bietet die API folgende domänenspezifische Modelle: celebrities (Prominente), landmarks (Sehenswürdigkeiten). Zwei Eingabemethoden werden unterstützt: (1) Hochladen eines Bilds oder (2) Angeben einer Bild-URL. Eine erfolgreiche Antwort wird in JSON zurückgegeben. Wenn bei der Anforderung ein Fehler aufgetreten ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu verstehen, was schief gelaufen ist.

analyze_image_by_domain_in_stream(model, image, language='en', model_version='latest', custom_headers=None, raw=False, callback=None, **operation_config)

Parameter

model
str
Erforderlich

Der zu erkennende domänenspezifische Inhalt.

image
Generator
Erforderlich

Ein Bildstream.

language
str
Standardwert: en

Die gewünschte Sprache für die Ausgabegenerierung. Wenn dieser Parameter nicht angegeben wird, lautet der Standardwert "en". Unterstützte Sprachen:en – Englisch, Standard. es - Spanisch, ja - Japanisch, pt - Portugiesisch, zh - Vereinfachtes Chinesisch. Mögliche Werte: 'en', 'es', 'ja', 'pt', 'zh'

model_version
str
Standardwert: latest

Optionaler Parameter, um die Version des KI-Modells anzugeben. Akzeptierte Werte sind : "latest", "2021-04-01". Standardmäßig ist "neueste" festgelegt.

custom_headers
dict
Standardwert: None

Header, die der Anforderung hinzugefügt werden

raw
bool
Standardwert: False

gibt die direkte Antwort neben der deserialisierten Antwort zurück.

callback
Callable[<xref:Bytes>, <xref:response=None>]
Standardwert: None

Wenn angegeben, wird mit jedem Datenblock aufgerufen, der gestreamt wird. Für den Rückruf sollten zwei Argumente verwendet werden: die Bytes des aktuellen Datenblocks und das Antwortobjekt. Wenn die Daten hochgeladen werden, lautet die Antwort Keine.

operation_config
Erforderlich

Außerkraftsetzungen der Vorgangskonfiguration.

Gibt zurück

DomainModelResults oder ClientRawResponse if raw=true

Rückgabetyp

Ausnahmen

analyze_image_in_stream

Durch diesen Vorgang wird ein umfangreicher Satz von Visualfeatures basierend auf dem Bildinhalt extrahiert. Zwei Eingabemethoden werden unterstützt: (1) Hochladen eines Bilds oder (2) Angeben einer Bild-URL. In Ihrer Anforderung gibt es einen optionalen Parameter, mit dem Sie auswählen können, welche Features zurückgegeben werden sollen. Standardmäßig werden Bildkategorien in der Antwort zurückgegeben. Eine erfolgreiche Antwort wird in JSON zurückgegeben. Wenn die Anforderung fehlgeschlagen ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu verstehen, was falsch gelaufen ist.

analyze_image_in_stream(image, visual_features=None, details=None, language='en', description_exclude=None, model_version='latest', custom_headers=None, raw=False, callback=None, **operation_config)

Parameter

image
Generator
Erforderlich

Ein Bildstream.

visual_features
list[str oder VisualFeatureTypes]
Standardwert: None

Eine Zeichenfolge, die angibt, welche visuellen Featuretypen zurückgegeben werden sollen. Mehrere Werte sollten durch Trennzeichen getrennt sein. Gültige visuelle Featuretypen umfassen: Kategorien : Kategorisiert Bildinhalte gemäß einer in der Dokumentation definierten Taxonomie. Tags: Markiert das Bild mit einer detaillierten Liste von Wörtern, die sich auf den Bildinhalt beziehen. Description: Beschreibt den Bildinhalt mit einem vollständigen Satz. Gesichter: Erkennt, ob Gesichter vorhanden sind. Wenn Gesichter vorhanden sind, generiert dieses Merkmal Informationen zu Koordinaten, Geschlecht und Alter. ImageType: Erkennt, ob das Bild eine pixelbasierte Rastergrafik oder eine linienbasierte Vektorgrafik ist. Farbe: Bestimmt die Akzentfarbe, die dominante Farbe und ob ein Bild schwarzweiß&ist. Erwachsener - erkennt, ob das Bild pornografischer Natur ist (zeigt Nacktheit oder einen Sexualakt), oder ist gory (zeigt extreme Gewalt oder Blut). Zweideutige und freizügige Inhalte werden ebenfalls erkannt. Objekte: Erkennt verschiedene Objekte innerhalb eines Bilds, einschließlich der ungefähren Position. Das Objects-Argument ist nur für Englisch verfügbar. Marken: Erkennt verschiedene Marken innerhalb eines Bilds, einschließlich der ungefähren Position. Das Brands-Argument ist nur für Englisch verfügbar.

details
list[str oder Details]
Standardwert: None

Eine Zeichenfolge, die angibt, welche domänenspezifischen Details zurückgegeben werden sollen. Mehrere Werte sollten durch Trennzeichen getrennt sein. Gültige visuelle Featuretypen sind: Prominente – identifiziert Prominente, wenn sie im Bild erkannt werden, Wahrzeichen – identifiziert wichtige Sehenswürdigkeiten im Bild.

language
str
Standardwert: en

Die gewünschte Sprache für die Ausgabegenerierung. Wenn dieser Parameter nicht angegeben ist, lautet der Standardwert "en". Unterstützte Sprachen:en - Englisch, Standard. es - Spanisch, ja - Japanisch, pt - Portugiesisch, zh - Vereinfachtes Chinesisch. Mögliche Werte: 'en', 'es', 'ja', 'pt', 'zh'

description_exclude
list[str oder DescriptionExclude]
Standardwert: None

Deaktivieren Sie die angegebenen Domänenmodelle beim Generieren der Beschreibung.

model_version
str
Standardwert: latest

Optionaler Parameter, um die Version des KI-Modells anzugeben. Zulässige Werte sind: "latest", "2021-04-01". Der Standardwert ist "latest".

custom_headers
dict
Standardwert: None

Header, die der Anforderung hinzugefügt werden

raw
bool
Standardwert: False

gibt die direkte Antwort zusammen mit der deserialisierten Antwort zurück.

callback
Callable[<xref:Bytes>, <xref:response=None>]
Standardwert: None

Wenn angegeben, wird mit jedem Datenblock aufgerufen, der gestreamt wird. Der Rückruf sollte zwei Argumente annehmen: die Bytes des aktuellen Datenblocks und das Antwortobjekt. Wenn die Daten hochgeladen werden, lautet die Antwort Keine.

operation_config
Erforderlich

Außerkraftsetzungen der Vorgangskonfiguration.

Gibt zurück

ImageAnalysis oder ClientRawResponse if raw=true

Rückgabetyp

Ausnahmen

describe_image

Durch diesen Vorgang wird eine Beschreibung eines Bilds mit vollständigen Sätzen in verständlicher Sprache generiert. Die Beschreibung basiert auf einer Sammlung von Inhaltstags, die ebenfalls vom Vorgang zurückgegeben werden. Für jedes Bild können mehrere Beschreibungen generiert werden. Beschreibungen werden nach Zuverlässigkeitsbewertung sortiert. Beschreibungen können ggf. Ergebnisse von Prominenten- und Landmark-Domänenmodellen enthalten. Zwei Eingabemethoden werden unterstützt: (1) Hochladen eines Bilds oder (2) Angeben einer Bild-URL. Eine erfolgreiche Antwort wird in JSON zurückgegeben. Wenn die Anforderung fehlgeschlagen ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu verstehen, was falsch gelaufen ist.

describe_image(url, max_candidates=1, language='en', description_exclude=None, model_version='latest', custom_headers=None, raw=False, **operation_config)

Parameter

url
str
Erforderlich

Öffentlich erreichbare URL eines Bilds.

max_candidates
int
Standardwert: 1

Maximale Anzahl der zurückzugebenden Kandidatenbeschreibungen. Der Standardwert ist 1.

language
str
Standardwert: en

Die gewünschte Sprache für die Ausgabegenerierung. Wenn dieser Parameter nicht angegeben ist, lautet der Standardwert "en". Unterstützte Sprachen:en - Englisch, Standard. es - Spanisch, ja - Japanisch, pt - Portugiesisch, zh - Vereinfachtes Chinesisch. Mögliche Werte: 'en', 'es', 'ja', 'pt', 'zh'

description_exclude
list[str oder DescriptionExclude]
Standardwert: None

Deaktivieren Sie die angegebenen Domänenmodelle beim Generieren der Beschreibung.

model_version
str
Standardwert: latest

Optionaler Parameter, um die Version des KI-Modells anzugeben. Zulässige Werte sind: "latest", "2021-04-01". Der Standardwert ist "latest".

custom_headers
dict
Standardwert: None

Header, die der Anforderung hinzugefügt werden

raw
bool
Standardwert: False

gibt die direkte Antwort zusammen mit der deserialisierten Antwort zurück.

operation_config
Erforderlich

Außerkraftsetzungen der Vorgangskonfiguration.

Gibt zurück

ImageDescription oder ClientRawResponse if raw=true

Rückgabetyp

Ausnahmen

describe_image_in_stream

Durch diesen Vorgang wird eine Beschreibung eines Bilds mit vollständigen Sätzen in verständlicher Sprache generiert. Die Beschreibung basiert auf einer Sammlung von Inhaltstags, die ebenfalls vom Vorgang zurückgegeben werden. Für jedes Bild können mehrere Beschreibungen generiert werden. Beschreibungen werden nach Zuverlässigkeitsbewertung sortiert. Beschreibungen können ggf. Ergebnisse von Prominenten- und Landmark-Domänenmodellen enthalten. Zwei Eingabemethoden werden unterstützt: (1) Hochladen eines Bilds oder (2) Angeben einer Bild-URL. Eine erfolgreiche Antwort wird in JSON zurückgegeben. Wenn die Anforderung fehlgeschlagen ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu verstehen, was falsch gelaufen ist.

describe_image_in_stream(image, max_candidates=1, language='en', description_exclude=None, model_version='latest', custom_headers=None, raw=False, callback=None, **operation_config)

Parameter

image
Generator
Erforderlich

Ein Bildstream.

max_candidates
int
Standardwert: 1

Maximale Anzahl der zurückzugebenden Kandidatenbeschreibungen. Der Standardwert ist 1.

language
str
Standardwert: en

Die gewünschte Sprache für die Ausgabegenerierung. Wenn dieser Parameter nicht angegeben ist, lautet der Standardwert "en". Unterstützte Sprachen:en - Englisch, Standard. es - Spanisch, ja - Japanisch, pt - Portugiesisch, zh - Vereinfachtes Chinesisch. Mögliche Werte: 'en', 'es', 'ja', 'pt', 'zh'

description_exclude
list[str oder DescriptionExclude]
Standardwert: None

Deaktivieren Sie die angegebenen Domänenmodelle beim Generieren der Beschreibung.

model_version
str
Standardwert: latest

Optionaler Parameter, um die Version des KI-Modells anzugeben. Zulässige Werte sind: "latest", "2021-04-01". Der Standardwert ist "latest".

custom_headers
dict
Standardwert: None

Header, die der Anforderung hinzugefügt werden

raw
bool
Standardwert: False

gibt die direkte Antwort zusammen mit der deserialisierten Antwort zurück.

callback
Callable[<xref:Bytes>, <xref:response=None>]
Standardwert: None

Wenn angegeben, wird mit jedem Datenblock aufgerufen, der gestreamt wird. Der Rückruf sollte zwei Argumente annehmen: die Bytes des aktuellen Datenblocks und das Antwortobjekt. Wenn die Daten hochgeladen werden, lautet die Antwort Keine.

operation_config
Erforderlich

Außerkraftsetzungen der Vorgangskonfiguration.

Gibt zurück

ImageDescription oder ClientRawResponse if raw=true

Rückgabetyp

Ausnahmen

detect_objects

Führt die Objekterkennung für das angegebene Bild aus. Zwei Eingabemethoden werden unterstützt: (1) Hochladen eines Bilds oder (2) Angeben einer Bild-URL. Eine erfolgreiche Antwort wird in JSON zurückgegeben. Wenn die Anforderung fehlgeschlagen ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu verstehen, was falsch gelaufen ist.

detect_objects(url, model_version='latest', custom_headers=None, raw=False, **operation_config)

Parameter

url
str
Erforderlich

Öffentlich erreichbare URL eines Bilds.

model_version
str
Standardwert: latest

Optionaler Parameter, um die Version des KI-Modells anzugeben. Zulässige Werte sind: "latest", "2021-04-01". Der Standardwert ist "latest".

custom_headers
dict
Standardwert: None

Header, die der Anforderung hinzugefügt werden

raw
bool
Standardwert: False

gibt die direkte Antwort zusammen mit der deserialisierten Antwort zurück.

operation_config
Erforderlich

Außerkraftsetzungen der Vorgangskonfiguration.

Gibt zurück

DetectResult oder ClientRawResponse if raw=true

Rückgabetyp

Ausnahmen

detect_objects_in_stream

Führt die Objekterkennung für das angegebene Bild aus. Zwei Eingabemethoden werden unterstützt: (1) Hochladen eines Bilds oder (2) Angeben einer Bild-URL. Eine erfolgreiche Antwort wird in JSON zurückgegeben. Wenn die Anforderung fehlgeschlagen ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu verstehen, was falsch gelaufen ist.

detect_objects_in_stream(image, model_version='latest', custom_headers=None, raw=False, callback=None, **operation_config)

Parameter

image
Generator
Erforderlich

Ein Bildstream.

model_version
str
Standardwert: latest

Optionaler Parameter, um die Version des KI-Modells anzugeben. Zulässige Werte sind: "latest", "2021-04-01". Der Standardwert ist "latest".

custom_headers
dict
Standardwert: None

Header, die der Anforderung hinzugefügt werden

raw
bool
Standardwert: False

gibt die direkte Antwort zusammen mit der deserialisierten Antwort zurück.

callback
Callable[<xref:Bytes>, <xref:response=None>]
Standardwert: None

Wenn angegeben, wird mit jedem Datenblock aufgerufen, der gestreamt wird. Der Rückruf sollte zwei Argumente annehmen: die Bytes des aktuellen Datenblocks und das Antwortobjekt. Wenn die Daten hochgeladen werden, lautet die Antwort Keine.

operation_config
Erforderlich

Außerkraftsetzungen der Vorgangskonfiguration.

Gibt zurück

DetectResult oder ClientRawResponse if raw=true

Rückgabetyp

Ausnahmen

generate_thumbnail

Dieser Vorgang generiert eine Miniaturansicht mit der vom Benutzer angegebenen Breite und Höhe. Standardmäßig analysiert der Dienst das Bild, identifiziert den Bereich, der von Interesse ist (Region of Interest, ROI), und generiert basierend auf dem ROI intelligente Koordinaten für den Zuschnitt. Intelligentes Zuschneiden hilft, wenn Sie ein Seitenverhältnis angeben, das sich von dem des Eingabebilds unterscheidet. Eine erfolgreiche Antwort enthält die Binärdaten zur Miniaturansicht. Wenn bei der Anforderung ein Fehler aufgetreten ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu ermitteln, was falsch gelaufen ist. Bei einem Fehler werden der Fehlercode und eine Fehlermeldung zurückgegeben. Der Fehlercode kann invalidImageUrl, InvalidImageFormat, InvalidImageSize, InvalidThumbnailSize, NotSupportedImage, FailedToProcess, Timeout oder InternalServerError sein.

generate_thumbnail(width, height, url, smart_cropping=False, model_version='latest', custom_headers=None, raw=False, callback=None, **operation_config)

Parameter

width
int
Erforderlich

Breite der Miniaturansicht in Pixel. Es muss zwischen 1 und 1024 sein. Empfohlen von mindestens 50.

height
int
Erforderlich

Höhe der Miniaturansicht in Pixel. Es muss zwischen 1 und 1024 sein. Empfohlen von mindestens 50.

url
str
Erforderlich

Öffentlich erreichbare URL eines Bilds.

smart_cropping
bool
Standardwert: False

Boolesches Flag zum Aktivieren des intelligenten Zuschneidens.

model_version
str
Standardwert: latest

Optionaler Parameter, um die Version des KI-Modells anzugeben. Zulässige Werte sind: "latest", "2021-04-01". Der Standardwert ist "latest".

custom_headers
dict
Standardwert: None

Header, die der Anforderung hinzugefügt werden

raw
bool
Standardwert: False

gibt die direkte Antwort zusammen mit der deserialisierten Antwort zurück.

callback
Callable[<xref:Bytes>, <xref:response=None>]
Standardwert: None

Wenn angegeben, wird mit jedem Datenblock aufgerufen, der gestreamt wird. Der Rückruf sollte zwei Argumente annehmen: die Bytes des aktuellen Datenblocks und das Antwortobjekt. Wenn die Daten hochgeladen werden, lautet die Antwort Keine.

operation_config
Erforderlich

Außerkraftsetzungen der Vorgangskonfiguration.

Gibt zurück

object oder ClientRawResponse if raw=true

Rückgabetyp

Ausnahmen

generate_thumbnail_in_stream

Dieser Vorgang generiert eine Miniaturansicht mit der vom Benutzer angegebenen Breite und Höhe. Standardmäßig analysiert der Dienst das Bild, identifiziert den Bereich, der von Interesse ist (Region of Interest, ROI), und generiert basierend auf dem ROI intelligente Koordinaten für den Zuschnitt. Intelligentes Zuschneiden hilft, wenn Sie ein Seitenverhältnis angeben, das sich von dem des Eingabebilds unterscheidet. Eine erfolgreiche Antwort enthält die Binärdaten zur Miniaturansicht. Wenn bei der Anforderung ein Fehler aufgetreten ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu ermitteln, was falsch gelaufen ist. Bei einem Fehler werden der Fehlercode und eine Fehlermeldung zurückgegeben. Der Fehlercode kann invalidImageUrl, InvalidImageFormat, InvalidImageSize, InvalidThumbnailSize, NotSupportedImage, FailedToProcess, Timeout oder InternalServerError sein.

generate_thumbnail_in_stream(width, height, image, smart_cropping=False, model_version='latest', custom_headers=None, raw=False, callback=None, **operation_config)

Parameter

width
int
Erforderlich

Breite der Miniaturansicht in Pixel. Es muss zwischen 1 und 1024 sein. Empfohlen von mindestens 50.

height
int
Erforderlich

Höhe der Miniaturansicht in Pixel. Es muss zwischen 1 und 1024 sein. Empfohlen von mindestens 50.

image
Generator
Erforderlich

Ein Bildstream.

smart_cropping
bool
Standardwert: False

Boolesches Flag zum Aktivieren des intelligenten Zuschneidens.

model_version
str
Standardwert: latest

Optionaler Parameter, um die Version des KI-Modells anzugeben. Zulässige Werte sind: "latest", "2021-04-01". Der Standardwert ist "latest".

custom_headers
dict
Standardwert: None

Header, die der Anforderung hinzugefügt werden

raw
bool
Standardwert: False

gibt die direkte Antwort zusammen mit der deserialisierten Antwort zurück.

callback
Callable[<xref:Bytes>, <xref:response=None>]
Standardwert: None

Wenn angegeben, wird mit jedem Datenblock aufgerufen, der gestreamt wird. Der Rückruf sollte zwei Argumente annehmen: die Bytes des aktuellen Datenblocks und das Antwortobjekt. Wenn die Daten hochgeladen werden, lautet die Antwort Keine.

operation_config
Erforderlich

Außerkraftsetzungen der Vorgangskonfiguration.

Gibt zurück

object oder ClientRawResponse if raw=true

Rückgabetyp

Ausnahmen

get_area_of_interest

Dieser Vorgang gibt einen Begrenzungsrahmen um den wichtigsten Bereich des Bilds zurück. Eine erfolgreiche Antwort wird in JSON zurückgegeben. Wenn bei der Anforderung ein Fehler aufgetreten ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu ermitteln, was falsch gelaufen ist. Bei einem Fehler werden der Fehlercode und eine Fehlermeldung zurückgegeben. Der Fehlercode kann invalidImageUrl, InvalidImageFormat, InvalidImageSize, NotSupportedImage, FailedToProcess, Timeout oder InternalServerError sein.

get_area_of_interest(url, model_version='latest', custom_headers=None, raw=False, **operation_config)

Parameter

url
str
Erforderlich

Öffentlich erreichbare URL eines Bilds.

model_version
str
Standardwert: latest

Optionaler Parameter, um die Version des KI-Modells anzugeben. Zulässige Werte sind: "latest", "2021-04-01". Der Standardwert ist "latest".

custom_headers
dict
Standardwert: None

Header, die der Anforderung hinzugefügt werden

raw
bool
Standardwert: False

gibt die direkte Antwort zusammen mit der deserialisierten Antwort zurück.

operation_config
Erforderlich

Außerkraftsetzungen der Vorgangskonfiguration.

Gibt zurück

AreaOfInterestResult oder ClientRawResponse if raw=true

Rückgabetyp

Ausnahmen

get_area_of_interest_in_stream

Dieser Vorgang gibt einen Begrenzungsrahmen um den wichtigsten Bereich des Bilds zurück. Eine erfolgreiche Antwort wird in JSON zurückgegeben. Wenn bei der Anforderung ein Fehler aufgetreten ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu ermitteln, was falsch gelaufen ist. Bei einem Fehler werden der Fehlercode und eine Fehlermeldung zurückgegeben. Der Fehlercode kann invalidImageUrl, InvalidImageFormat, InvalidImageSize, NotSupportedImage, FailedToProcess, Timeout oder InternalServerError sein.

get_area_of_interest_in_stream(image, model_version='latest', custom_headers=None, raw=False, callback=None, **operation_config)

Parameter

image
Generator
Erforderlich

Ein Bildstream.

model_version
str
Standardwert: latest

Optionaler Parameter, um die Version des KI-Modells anzugeben. Zulässige Werte sind: "latest", "2021-04-01". Der Standardwert ist "latest".

custom_headers
dict
Standardwert: None

Header, die der Anforderung hinzugefügt werden

raw
bool
Standardwert: False

gibt die direkte Antwort zusammen mit der deserialisierten Antwort zurück.

callback
Callable[<xref:Bytes>, <xref:response=None>]
Standardwert: None

Wenn angegeben, wird mit jedem Datenblock aufgerufen, der gestreamt wird. Der Rückruf sollte zwei Argumente annehmen: die Bytes des aktuellen Datenblocks und das Antwortobjekt. Wenn die Daten hochgeladen werden, lautet die Antwort Keine.

operation_config
Erforderlich

Außerkraftsetzungen der Vorgangskonfiguration.

Gibt zurück

AreaOfInterestResult oder ClientRawResponse if raw=true

Rückgabetyp

Ausnahmen

get_read_result

Diese Schnittstelle wird verwendet, um die OCR-Ergebnisse eines Lesevorgangs abzurufen. Die URL zu dieser Schnittstelle sollte aus dem Feld "Operation-Location" abgerufen werden, das von der Leseschnittstelle zurückgegeben wird.

get_read_result(operation_id, custom_headers=None, raw=False, **operation_config)

Parameter

operation_id
str
Erforderlich

ID des Lesevorgangs, der in der Antwort der "Read"-Schnittstelle zurückgegeben wurde.

custom_headers
dict
Standardwert: None

Header, die der Anforderung hinzugefügt werden

raw
bool
Standardwert: False

gibt die direkte Antwort zusammen mit der deserialisierten Antwort zurück.

operation_config
Erforderlich

Außerkraftsetzungen der Vorgangskonfiguration.

Gibt zurück

ReadOperationResult oder ClientRawResponse if raw=true

Rückgabetyp

Ausnahmen

list_models

Dieser Vorgang gibt die Liste domänenspezifischer Modelle zurück, die von der Maschinelles Sehen-API unterstützt werden. Zurzeit unterstützt die API folgende domänenspezifische Modelle: celebrity recognizer (Prominentenerkennung), landmark recognizer (Sehenswürdigkeitenerkennung). Eine erfolgreiche Antwort wird in JSON zurückgegeben. Wenn die Anforderung fehlgeschlagen ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu verstehen, was falsch gelaufen ist.

list_models(custom_headers=None, raw=False, **operation_config)

Parameter

custom_headers
dict
Standardwert: None

Header, die der Anforderung hinzugefügt werden

raw
bool
Standardwert: False

gibt die direkte Antwort zusammen mit der deserialisierten Antwort zurück.

operation_config
Erforderlich

Außerkraftsetzungen der Vorgangskonfiguration.

Gibt zurück

ListModelsResult oder ClientRawResponse if raw=true

Rückgabetyp

Ausnahmen

read

Verwenden Sie diese Schnittstelle, um das Ergebnis eines Lesevorgangs zu erhalten, indem Sie die hochmodernen OCR-Algorithmen (Optical Character Recognition, optische Zeichenerkennung) verwenden, die für dokumente mit hohem Text optimiert sind. Wenn Sie die Read-Schnittstelle verwenden, enthält die Antwort ein Feld namens "Operation-Location". Das Feld "Operation-Location" enthält die URL, die Sie für Ihren "GetReadResult"-Vorgang verwenden müssen, um auf OCR-Ergebnisse zuzugreifen..

read(url, language=None, pages=None, model_version='latest', reading_order='basic', custom_headers=None, raw=False, **operation_config)

Parameter

url
str
Erforderlich

Öffentlich erreichbare URL eines Bilds.

language
str oder OcrDetectionLanguage
Standardwert: None

Der BCP-47-Sprachcode des Texts im Dokument. Lesen unterstützt die automatische Spracherkennung und mehrsprachige Dokumente. Stellen Sie daher nur einen Sprachcode bereit, wenn Sie die Verarbeitung des Dokuments in dieser bestimmten Sprache erzwingen möchten. Eine Liste der unterstützten Sprachen finden Sie https://aka.ms/ocr-languages unter. Mögliche Werte: "af", "ast", 'bi', 'br', 'ca', 'ceb', 'ch', 'co', 'crh', 'cs', 'cs', 'da', 'de', 'en', 'es', 'et', 'eu', 'fi', 'fil', 'fj', 'fr', 'fur', 'fy', 'ga', 'gd', 'gil', 'gl', 'gv', 'hni', 'hsb', 'ht', 'hu', 'ia', 'id', 'it', 'iu', 'ja', 'jv', 'kaa', 'kac ", "kea", "kha", "kl", "ko", "ku", "kw", "lb", "ms", "mww", "nap", "nl", "no", "oc", 'pl', 'pt', 'quc', 'rm', 'sco', 'sl', 'sq', 'sv', 'sw', 'tet', 'tr', 'tt', 'uz', 'vo', 'wae', 'yua', 'za', 'zh-Hans', 'zh-Hant', 'zu'

pages
list[str]
Standardwert: None

Benutzerdefinierte Seitenzahlen für mehrseitige Dokumente (PDF/TIFF) geben die Anzahl der Seiten ein, die sie als OCR-Ergebnis abrufen möchten. Verwenden Sie für einen Seitenbereich einen Bindestrich. Trennen Sie jede Seite oder jeden Bereich durch ein Komma.

model_version
str
Standardwert: latest

Optionaler Parameter zum Angeben der Version des OCR-Modells, das für die Textextraktion verwendet wird. Zulässige Werte sind: "latest", "latest-preview", "2021-04-12". Der Standardwert ist "latest".

reading_order
str
Standardwert: basic

Optionaler Parameter, um anzugeben, welcher Algorithmus für die Lesereihenfolge beim Sortieren der Extrahieren von Textelementen angewendet werden soll. Kann entweder "einfach" oder "natürlich" sein. Wird standardmäßig auf "basic" festgelegt, wenn nicht angegeben

custom_headers
dict
Standardwert: None

Header, die der Anforderung hinzugefügt werden

raw
bool
Standardwert: False

gibt die direkte Antwort zusammen mit der deserialisierten Antwort zurück.

operation_config
Erforderlich

Außerkraftsetzungen der Vorgangskonfiguration.

Gibt zurück

None oder ClientRawResponse if raw=true

Rückgabetyp

None,

Ausnahmen

read_in_stream

Verwenden Sie diese Schnittstelle, um das Ergebnis eines Lesevorgangs zu erhalten, indem Sie die hochmodernen OCR-Algorithmen (Optical Character Recognition, optische Zeichenerkennung) verwenden, die für dokumente mit hohem Text optimiert sind. Wenn Sie die Read-Schnittstelle verwenden, enthält die Antwort ein Feld namens "Operation-Location". Das Feld "Operation-Location" enthält die URL, die Sie für Ihren "GetReadResult"-Vorgang verwenden müssen, um auf OCR-Ergebnisse zuzugreifen..

read_in_stream(image, language=None, pages=None, model_version='latest', reading_order='basic', custom_headers=None, raw=False, callback=None, **operation_config)

Parameter

image
Generator
Erforderlich

Ein Bildstream.

language
str oder OcrDetectionLanguage
Standardwert: None

Der BCP-47-Sprachcode des Texts im Dokument. Lesen unterstützt die automatische Spracherkennung und mehrsprachige Dokumente. Stellen Sie daher nur einen Sprachcode bereit, wenn Sie die Verarbeitung des Dokuments in dieser bestimmten Sprache erzwingen möchten. Eine Liste der unterstützten Sprachen finden Sie https://aka.ms/ocr-languages unter. Mögliche Werte: "af", "ast", 'bi', 'br', 'ca', 'ceb', 'ch', 'co', 'crh', 'cs', 'cs', 'da', 'de', 'en', 'es', 'et', 'eu', 'fi', 'fil', 'fj', 'fr', 'fur', 'fy', 'ga', 'gd', 'gil', 'gl', 'gv', 'hni', 'hsb', 'ht', 'hu', 'ia', 'id', 'it', 'iu', 'ja', 'jv', 'kaa', 'kac ", "kea", "kha", "kl", "ko", "ku", "kw", "lb", "ms", "mww", "nap", "nl", "no", "oc", 'pl', 'pt', 'quc', 'rm', 'sco', 'sl', 'sq', 'sv', 'sw', 'tet', 'tr', 'tt', 'uz', 'vo', 'wae', 'yua', 'za', 'zh-Hans', 'zh-Hant', 'zu'

pages
list[str]
Standardwert: None

Benutzerdefinierte Seitenzahlen für mehrseitige Dokumente (PDF/TIFF) geben die Anzahl der Seiten ein, die sie als OCR-Ergebnis abrufen möchten. Verwenden Sie für einen Seitenbereich einen Bindestrich. Trennen Sie jede Seite oder jeden Bereich durch ein Komma.

model_version
str
Standardwert: latest

Optionaler Parameter zum Angeben der Version des OCR-Modells, das für die Textextraktion verwendet wird. Zulässige Werte sind: "latest", "latest-preview", "2021-04-12". Der Standardwert ist "latest".

reading_order
str
Standardwert: basic

Optionaler Parameter, um anzugeben, welcher Algorithmus für die Lesereihenfolge beim Sortieren der Extrahieren von Textelementen angewendet werden soll. Kann entweder "einfach" oder "natürlich" sein. Wird standardmäßig auf "basic" festgelegt, wenn nicht angegeben

custom_headers
dict
Standardwert: None

Header, die der Anforderung hinzugefügt werden

raw
bool
Standardwert: False

gibt die direkte Antwort zusammen mit der deserialisierten Antwort zurück.

callback
Callable[<xref:Bytes>, <xref:response=None>]
Standardwert: None

Wenn angegeben, wird mit jedem Datenblock aufgerufen, der gestreamt wird. Der Rückruf sollte zwei Argumente annehmen: die Bytes des aktuellen Datenblocks und das Antwortobjekt. Wenn die Daten hochgeladen werden, lautet die Antwort Keine.

operation_config
Erforderlich

Außerkraftsetzungen der Vorgangskonfiguration.

Gibt zurück

None oder ClientRawResponse if raw=true

Rückgabetyp

None,

Ausnahmen

recognize_printed_text

Optische Zeichenerkennung (OCR) erkennt Text in einem Bild und extrahiert die erkannten Zeichen in eine vom Computer verwendbare Zeichenfolge. Bei Erfolg werden die OCR-Ergebnisse zurückgegeben. Bei einem Fehler wird der Fehlercode zusammen mit einer Fehlermeldung zurückgegeben. Der Fehlercode kann invalidImageUrl, InvalidImageFormat, InvalidImageSize, NotSupportedImage, NotSupportedLanguage oder InternalServerError sein.

recognize_printed_text(url, detect_orientation=True, language='unk', model_version='latest', custom_headers=None, raw=False, **operation_config)

Parameter

detect_orientation
bool
Standardwert: True

Gibt an, ob die Textausrichtung im Bild erkannt wird. Mit detectOrientation=true versucht der OCR-Dienst, die Bildausrichtung zu erkennen und vor der weiteren Verarbeitung zu korrigieren (z. B. wenn er auf dem Kopf steht).

url
str
Erforderlich

Öffentlich erreichbare URL eines Bilds.

language
str oder OcrLanguages
Standardwert: unk

Der BCP-47-Sprachcode des Texts, der im Bild erkannt werden soll. Der Standardwert ist "unk". Mögliche Werte sind: 'unk', 'zh-Hans', 'zh-Hant', 'cs', 'da', 'nl', 'en', 'fi', 'fr', 'de', 'el', 'hu', 'it', 'ja', 'ko', 'nb', 'pl', 'pt', 'ru', 'es', 'sv', 'tr', 'ar', 'ro', 'sr-Cyrl', 'sr-Latn', 'sk'

model_version
str
Standardwert: latest

Optionaler Parameter, um die Version des KI-Modells anzugeben. Zulässige Werte sind: "latest", "2021-04-01". Der Standardwert ist "latest".

custom_headers
dict
Standardwert: None

Header, die der Anforderung hinzugefügt werden

raw
bool
Standardwert: False

gibt die direkte Antwort zusammen mit der deserialisierten Antwort zurück.

operation_config
Erforderlich

Außerkraftsetzungen der Vorgangskonfiguration.

Gibt zurück

OcrResult oder ClientRawResponse if raw=true

Rückgabetyp

Ausnahmen

recognize_printed_text_in_stream

Optische Zeichenerkennung (OCR) erkennt Text in einem Bild und extrahiert die erkannten Zeichen in eine vom Computer verwendbare Zeichenfolge. Bei Erfolg werden die OCR-Ergebnisse zurückgegeben. Bei einem Fehler wird der Fehlercode zusammen mit einer Fehlermeldung zurückgegeben. Der Fehlercode kann invalidImageUrl, InvalidImageFormat, InvalidImageSize, NotSupportedImage, NotSupportedLanguage oder InternalServerError sein.

recognize_printed_text_in_stream(image, detect_orientation=True, language='unk', model_version='latest', custom_headers=None, raw=False, callback=None, **operation_config)

Parameter

detect_orientation
bool
Standardwert: True

Gibt an, ob die Textausrichtung im Bild erkannt wird. Mit detectOrientation=true versucht der OCR-Dienst, die Bildausrichtung zu erkennen und vor der weiteren Verarbeitung zu korrigieren (z. B. wenn er auf dem Kopf steht).

image
Generator
Erforderlich

Ein Bildstream.

language
str oder OcrLanguages
Standardwert: unk

Der BCP-47-Sprachcode des Texts, der im Bild erkannt werden soll. Der Standardwert ist "unk". Mögliche Werte sind: 'unk', 'zh-Hans', 'zh-Hant', 'cs', 'da', 'nl', 'en', 'fi', 'fr', 'de', 'el', 'hu', 'it', 'ja', 'ko', 'nb', 'pl', 'pt', 'ru', 'es', 'sv', 'tr', 'ar', 'ro', 'sr-Cyrl', 'sr-Latn', 'sk'

model_version
str
Standardwert: latest

Optionaler Parameter, um die Version des KI-Modells anzugeben. Zulässige Werte sind: "latest", "2021-04-01". Der Standardwert ist "latest".

custom_headers
dict
Standardwert: None

Header, die der Anforderung hinzugefügt werden

raw
bool
Standardwert: False

gibt die direkte Antwort zusammen mit der deserialisierten Antwort zurück.

callback
Callable[<xref:Bytes>, <xref:response=None>]
Standardwert: None

Wenn angegeben, wird mit jedem Datenblock aufgerufen, der gestreamt wird. Der Rückruf sollte zwei Argumente annehmen: die Bytes des aktuellen Datenblocks und das Antwortobjekt. Wenn die Daten hochgeladen werden, lautet die Antwort Keine.

operation_config
Erforderlich

Außerkraftsetzungen der Vorgangskonfiguration.

Gibt zurück

OcrResult oder ClientRawResponse if raw=true

Rückgabetyp

Ausnahmen

tag_image

Dieser Vorgang generiert eine Liste von Wörtern oder Tags, die für den Inhalt des angegebenen Bilds relevant sind. Die Maschinelles Sehen-API kann Tags basierend auf Objekten, Lebewesen, Landschaften oder Aktionen zurückgegeben, die in Bildern ermittelt werden. Im Gegensatz zu Kategorien werden Tags nicht anhand eines hierarchischen Klassifizierungssystems angeordnet, sondern entsprechen Bildinhalten. Tags können Hinweise enthalten, um Mehrdeutigkeiten zu vermeiden oder Kontext bereitzustellen. Das Tag „Cello“ kann beispielsweise vom Hinweis „Musikinstrument“ begleitet werden. Zwei Eingabemethoden werden unterstützt: (1) Hochladen eines Bilds oder (2) Angeben einer Bild-URL. Eine erfolgreiche Antwort wird in JSON zurückgegeben. Wenn die Anforderung fehlgeschlagen ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu verstehen, was falsch gelaufen ist.

tag_image(url, language='en', model_version='latest', custom_headers=None, raw=False, **operation_config)

Parameter

url
str
Erforderlich

Öffentlich erreichbare URL eines Bilds.

language
str
Standardwert: en

Die gewünschte Sprache für die Ausgabegenerierung. Wenn dieser Parameter nicht angegeben ist, lautet der Standardwert "en". Unterstützte Sprachen:en - Englisch, Standard. es - Spanisch, ja - Japanisch, pt - Portugiesisch, zh - Vereinfachtes Chinesisch. Mögliche Werte: 'en', 'es', 'ja', 'pt', 'zh'

model_version
str
Standardwert: latest

Optionaler Parameter, um die Version des KI-Modells anzugeben. Zulässige Werte sind: "latest", "2021-04-01". Der Standardwert ist "latest".

custom_headers
dict
Standardwert: None

Header, die der Anforderung hinzugefügt werden

raw
bool
Standardwert: False

gibt die direkte Antwort zusammen mit der deserialisierten Antwort zurück.

operation_config
Erforderlich

Außerkraftsetzungen der Vorgangskonfiguration.

Gibt zurück

TagResult oder ClientRawResponse if raw=true

Rückgabetyp

Ausnahmen

tag_image_in_stream

Dieser Vorgang generiert eine Liste von Wörtern oder Tags, die für den Inhalt des angegebenen Bilds relevant sind. Die Maschinelles Sehen-API kann Tags basierend auf Objekten, Lebewesen, Landschaften oder Aktionen zurückgegeben, die in Bildern ermittelt werden. Im Gegensatz zu Kategorien werden Tags nicht anhand eines hierarchischen Klassifizierungssystems angeordnet, sondern entsprechen Bildinhalten. Tags können Hinweise enthalten, um Mehrdeutigkeiten zu vermeiden oder Kontext bereitzustellen. Das Tag „Cello“ kann beispielsweise vom Hinweis „Musikinstrument“ begleitet werden. Zwei Eingabemethoden werden unterstützt: (1) Hochladen eines Bilds oder (2) Angeben einer Bild-URL. Eine erfolgreiche Antwort wird in JSON zurückgegeben. Wenn die Anforderung fehlgeschlagen ist, enthält die Antwort einen Fehlercode und eine Meldung, um zu verstehen, was falsch gelaufen ist.

tag_image_in_stream(image, language='en', model_version='latest', custom_headers=None, raw=False, callback=None, **operation_config)

Parameter

image
Generator
Erforderlich

Ein Bildstream.

language
str
Standardwert: en

Die gewünschte Sprache für die Ausgabegenerierung. Wenn dieser Parameter nicht angegeben ist, lautet der Standardwert "en". Unterstützte Sprachen:en - Englisch, Standard. es - Spanisch, ja - Japanisch, pt - Portugiesisch, zh - Vereinfachtes Chinesisch. Mögliche Werte: 'en', 'es', 'ja', 'pt', 'zh'

model_version
str
Standardwert: latest

Optionaler Parameter, um die Version des KI-Modells anzugeben. Zulässige Werte sind: "latest", "2021-04-01". Der Standardwert ist "latest".

custom_headers
dict
Standardwert: None

Header, die der Anforderung hinzugefügt werden

raw
bool
Standardwert: False

gibt die direkte Antwort zusammen mit der deserialisierten Antwort zurück.

callback
Callable[<xref:Bytes>, <xref:response=None>]
Standardwert: None

Wenn angegeben, wird mit jedem Datenblock aufgerufen, der gestreamt wird. Der Rückruf sollte zwei Argumente annehmen: die Bytes des aktuellen Datenblocks und das Antwortobjekt. Wenn die Daten hochgeladen werden, lautet die Antwort Keine.

operation_config
Erforderlich

Außerkraftsetzungen der Vorgangskonfiguration.

Gibt zurück

TagResult oder ClientRawResponse if raw=true

Rückgabetyp

Ausnahmen