Plattformkarte: Microsoft Foundry unter Windows – Texterkennung (OCR)

Die Anwendungs- und Plattformkarten von Microsoft sollen Ihnen helfen zu verstehen, wie unsere KI-Technologie funktioniert, welche Entscheidungen Anwendungsverantwortliche treffen können, die die Leistung und das Verhalten der Anwendung beeinflussen, und wie wichtig es ist, die gesamte Anwendung zu berücksichtigen, einschließlich der Technologie, der beteiligten Personen und der Umgebung. Anwendungskarten werden für KI-Anwendungen und Plattformkarten für KI-Plattformdienste erstellt. Diese Ressourcen können die Entwicklung oder Bereitstellung Ihrer eigenen Anwendungen unterstützen und für Benutzer oder Projektbeteiligte freigegeben werden, die von ihnen betroffen sind.

Im Rahmen seiner Verpflichtung zu verantwortungsvoller KI hält sich Microsoft an sechs Grundprinzipien: Fairness, Zuverlässigkeit und Sicherheit, Datenschutz und Sicherheit, Inklusion, Transparenz und Verantwortlichkeit. Diese Prinzipien sind in den Verantwortungsstandard für KI eingebettet, der Teams beim Entwerfen, Erstellen und Testen von KI-Anwendungen unterstützt. Anwendungs- und Plattformkarten spielen eine wichtige Rolle bei der Operationalisierung dieser Prinzipien, indem transparenz in Bezug auf Funktionen, beabsichtigte Verwendungen und Einschränkungen geboten wird. Für weitere Einblicke werden Leser ermutigt, den Bericht über verantwortungsvolle KI-Transparenz von Microsoft und den Verhaltenskodex zu erkunden, der beschreibt, wie Unternehmenskunden und Einzelpersonen verantwortungsbewusst mit KI interagieren können.

Übersicht

Mit der Texterkennung (OCR) in Microsoft Foundry unter Windows können Anwendungen maschinenlesbaren Text aus Bildern und Dokumenten direkt auf einem Windows-Gerät extrahieren. Mit dieser Funktion können Apps gedruckten oder handschriftlichen Text aus Fotos, gescannten Dokumenten, Screenshots oder Kameraframes erkennen, ohne Daten an die Cloud zu senden. OCR wird über die Windows AI-APIs im Windows App SDK verfügbar gemacht. Entwickler können Bildeingaben übermitteln und strukturierte Textergebnisse erhalten, die erkannte Textinhalte und das räumliche Layout enthalten. Da OCR lokal auf dem Gerät ausgeführt wird, bietet es eine geringe Latenzleistung, funktioniert offline und hält Benutzerdaten auf dem Gerät, was für Datenschutz-sensible oder Unternehmensszenarien wichtig sein kann. Die Texterkennungs-APIs sind für Windows-Geräte optimiert und für die nahtlose Integration in Windows-Anwendungen konzipiert. Sie sollen allgemeine Textextraktionsszenarien unterstützen, anstatt als allgemeines Dokumentverständnissystem zu dienen.

Schlüsselbegriffe

Die folgende Liste enthält ein Glossar mit schlüsselbegriffen im Zusammenhang mit OCR-APIs (Text Recognition):

Begriff	Definition
Begrenzungsrahmen	Ein rechteckiger Bereich in einem Bild, der angibt, wo erkannter Text angezeigt wird.
Bildeingabe	Eine Bitmap oder ein Bildrahmen, der der OCR-API für die Texterkennung bereitgestellt wird.
Schlussfolgerung	Der Prozess der lokalen Ausführung des OCR-Modells zur Erkennung und zum Erkennen von Text in einem Bild.
Lokales Modell	Ein KI-Modell, das nicht in der Cloud, sondern direkt auf dem Gerät des Benutzers ausgeführt wird. Das OCR-Modell (Text Recognition, Texterkennung) in diesem Dokument funktioniert vollständig auf dem Gerät, um Geschwindigkeit, Datenschutz und Zuverlässigkeit zu gewährleisten.
NPU (Neural Processing Unit)	Ein spezieller Chip zur Beschleunigung von KI-Workloads mit weniger Leistung als einer CPU oder GPU. Phi Silikat ist für die effiziente Ausführung auf Windows-Geräten mit NPUs optimiert.
Optische Zeichenerkennung (OCR)	Eine Computervisionstechnik, die Text in Bildern erkennt und in maschinenlesbaren Text konvertiert.
Erkannter Text	Die vom OCR-System erzeugte Textausgabe, in der Regel in Zeilen oder Wörtern gruppiert.
Textzeile	Eine Sequenz erkannter Zeichen, die basierend auf Layout und Näherung gruppiert sind.
Windows AI-APIs	Eine Reihe von Windows-Entwickler-APIs, die Zugriff auf KI-Funktionen auf geräten wie OCR bieten.
Windows Copilot+ PCs	Eine Klasse von Windows-Geräten, die mit NPUs der nächsten Generation und Systemoptimierungen ausgestattet sind, die leistungsstarke lokale KI-Workloads ermöglichen. Die Texterkennungs-API ist speziell für diese PCs abgestimmt.
Windows App SDK	Ein Entwicklungsframework, das moderne Windows-APIs, einschließlich Windows AI-APIs, zum Erstellen von Windows-Anwendungen bereitstellt.

Wichtige Merkmale oder Funktionen

Die folgenden Funktionen beschreiben, was die Texterkennung (OCR) zu tun hat.

Geräteinterne Texterkennung

Die OCR-Funktion extrahiert Text aus Bildern lokal auf dem Windows-Gerät. Es ist keine Netzwerkverbindung erforderlich, und Bilddaten verlassen das Gerät während der Verarbeitung nicht.

Gedruckte und handschriftliche Texterkennung

Die API unterstützt das Erkennen von gedruckten Text und gängigen Formen von handschriftlichem Text, je nach Bildqualität und Sprachunterstützung.

Ausgabe strukturierter Text

OCR gibt erkannten Text in einem strukturierten Format zurück, in der Regel in Zeilen und Regionen angeordnet, zusammen mit umgebenden Feldern, die beschreiben, wo Text im Bild angezeigt wird.

Sprachbewusstsein

Das OCR-System kann Text in unterstützten Sprachen automatisch erkennen und erkennen, sodass Anwendungen mehrsprachige Inhalte ohne explizite Sprachauswahl in vielen Szenarien verarbeiten können.

Integration der Windows AI-API

Auf alle OCR-Funktionen wird über die Windows-AI-APIs im Windows App SDK zugegriffen und bietet ein konsistentes Entwicklererlebnis und Integrationsmodell in allen Windows-Anwendungen.

Beabsichtigte Verwendungen

Die Texterkennung (OCR) wurde für eine breite Palette von Produktivitäts-, Barrierefreiheits- und Unternehmensszenarien entwickelt, darunter:

Extrahieren von Text aus Bildern und Screenshots: Anwendungen können Es Benutzern ermöglichen, ein Bild oder Einen Screenshot auszuwählen und lesbaren Text zum Kopieren, Suchen oder Weiterverarbeitung zu extrahieren.
Digitalisierung gescannter Dokumente: OCR kann gescannte Papierdokumente in durchsuchbaren und auswählbaren Text konvertieren, wodurch nachgeschaltete Workflows wie Indizierung oder Archivierung ermöglicht werden.
Unterstützung der Barrierefreiheit: OCR kann Text aus Bildern für Bildschirmsprachausgaben oder Hilfstechnologien anzeigen und die Barrierefreiheit für Benutzer mit Sehbehinderungen verbessern.
In-App-Textverständnis: Anwendungen können OCR verwenden, um Text in app-spezifischen Bildern zu erkennen, z. B. Bestätigungen, Formulare oder Anleitungsmaterialien, um Benutzerworkflows zu unterstützen.
Offline- und Datenschutzbezogene Szenarien: Da OCR lokal ausgeführt wird, eignet es sich für Szenarien, in denen die Netzwerkkonnektivität nicht verfügbar ist oder wenn Benutzer keine Bilddaten an Clouddienste senden möchten.

Modelle und Trainingsdaten

Texterkennung (OCR) in Windows wird von von Microsoft entwickelten Machine Learning-Modellen unterstützt, die trainiert wurden, Text in Bildern zu erkennen. Diese Modelle werden mit einer Kombination aus lizenzierten Daten, Daten, die von menschlichen Trainern erstellt wurden, und öffentlich verfügbaren Textbilddaten gemäß den Verantwortlichen KI-Standards von Microsoft trainiert. Weitere Informationen zum Ansatz von Microsoft zur verantwortungsvollen KI-Entwicklung finden Sie unter diesem Link: Verantwortungsvolle generative KI-Entwicklung unter Windows.

Leistung

Die OCR-Leistung hängt von Faktoren wie Bildauflösung, Beleuchtungsbedingungen, Textausrichtung, Schriftschnitt und Sprache ab. Das System führt am besten aus, wenn Text deutlich sichtbar, gut beleuchtet und angemessen ausgerichtet ist. Da die Verarbeitung lokal erfolgt, ist die Latenz vorhersehbar und nicht von Netzwerkbedingungen betroffen. Die Leistung kann je nach Hardwarefunktionen und der aktuellen Systemlast unterschiedlich sein.

OCR-Ergebnisse werden in der Regel schnell für Standardbildgrößen zurückgegeben. Sehr große Bilder oder Bilder mit dichtem Text erfordern möglicherweise zusätzliche Verarbeitungszeit.

Einschränkungen

Das Verständnis der Einschränkungen der Texterkennung (OCR) ist entscheidend, um festzustellen, ob sie innerhalb sicherer und effektiver Grenzen verwendet wird. Während wir Kunden ermutigen, texterkennung (OCR) in ihren innovativen Lösungen oder Anwendungen zu nutzen, ist es wichtig zu beachten, dass die Texterkennung (TEXT Recognition, OCR) nicht für jedes mögliche Szenario konzipiert wurde. Wir empfehlen Benutzern, entweder auf den Microsoft Enterprise AI Services-Verhaltenskodex (für Organisationen) oder den Abschnitt "Verhaltensregeln" im Microsoft-Servicevertrag (für Einzelpersonen) sowie auf die folgenden Überlegungen bei der Auswahl eines Anwendungsfalls zu verweisen:

Empfindlichkeit der Bildqualität: Bilder mit geringer Auflösung, Bewegungsunschärfe, Blendung oder extreme Beleuchtungsbedingungen können die Erkennungsgenauigkeit verringern.
Komplexe Layouts: Hochkomplexe Dokumentlayouts, überlappender Text oder dekorative Schriftarten können zu teilweiser oder falscher Erkennung führen.
Handschriftvariabilität: Die Genauigkeit der handschriftlichen Texterkennung variiert erheblich je nach Schreibstil, Lesbarkeit und Sprache.
Nicht textbezogener Inhalt: OCR ist so konzipiert, dass nur Text erkannt wird. Bilder, Diagramme oder semantische Bedeutungen werden über extrahierten Text hinaus nicht interpretiert.
Kein Entscheidungssystem: OCR gibt unformatierte erkannte Text- und Layoutinformationen aus. Es überprüft nicht die Korrektheit, interpretiert Bedeutung oder trifft Entscheidungen basierend auf dem extrahierten Inhalt.

Evaluations

Leistungs- und Sicherheitsbewertungen bewerten, ob KI-Anwendungen zuverlässig und sicher funktionieren, indem Faktoren wie Grundhaftigkeit, Relevanz und Kohärenz untersucht und gleichzeitig die Risiken der Generierung schädlicher Inhalte identifiziert werden. Die folgenden Bewertungen wurden mit bereits vorhandenen Sicherheitskomponenten durchgeführt, die auch in Sicherheitskomponenten und -maßnahmen beschrieben werden.

Leistungs- und Qualitätsbewertungen

Evaluierungen konzentrieren sich auf die Genauigkeit der Texterkennung, die Qualität der Zeichenerkennung und die Layoutkonsistenz in einer Vielzahl von Bildtypen, Sprachen und Gerätekonfigurationen.

Risiko- und Sicherheitsbewertungen

Da OCR eine nicht-generative, wahrnehmungsbasierte Funktion ist, konzentrieren sich Sicherheitsbewertungen auf Zuverlässigkeit, Robustheit und vorhersehbares Verhalten und nicht auf Risiken der Inhaltsgenerierung.

Sicherheitskomponenten und -entschärfungen

Lokale Ausführung und Datenschutz

OCR wird vollständig auf dem Gerät ausgeführt, wodurch die Datenschutzrisiken im Zusammenhang mit der Übertragung von Bildern oder extrahiertem Text über das Netzwerk reduziert werden.

Vorhersehbares, nicht generatives Verhalten

OCR extrahiert nur Text, der im Eingabebild angezeigt wird. Es generiert keine neuen Inhalte, leitet keine Absichten ab und bietet keine Interpretationen über erkannte Zeichen hinaus an.

Transparenz der Ausgaben

Die API gibt explizite Erkennungsergebnisse und Begrenzungsrahmen zurück, sodass Entwickler Ausgaben entsprechend ihrer Anwendung inspizieren, validieren oder verwerfen können.

Bewährte Methoden zum Bereitstellen und Übernehmen der Texterkennung (OCR)

Verantwortungsvolle KI ist eine gemeinsame Verpflichtung von Microsoft und seinen Kunden. Während Microsoft KI-Anwendungen mit Sicherheit, Fairness und Transparenz im Kern erstellt, spielen Kunden eine wichtige Rolle bei der Bereitstellung und Verwendung dieser Technologien innerhalb ihrer eigenen Kontexte. Um diese Partnerschaft zu unterstützen, bieten wir die folgenden bewährten Methoden für Bereitstellungen und Endbenutzer an, um Kunden bei der effektiven Implementierung verantwortungsvoller KI zu unterstützen.

Bereitsteller und Endbenutzer sollten:

Seien Sie vorsichtig und bewerten Sie Ergebnisse, wenn Sie OCR für Folgeentscheidungen oder in sensiblen Bereichen verwenden: Folgeentscheidungen sind diejenigen, die einen rechtlichen oder erheblichen Einfluss auf den Zugang einer Person auf Bildung, Beschäftigung, Finanzplattformen, Staatliche Leistungen, Gesundheitsversorgung, Wohnung, Versicherung, rechtliche Plattformen oder die zu physischen, psychologischen oder finanziellen Schäden führen können. Sensible Domänen wie Finanzplattformen, Gesundheitswesen und Wohnungen erfordern besondere Sorgfalt aufgrund des Potenziellen für unverhältnismäßige Auswirkungen auf verschiedene Personengruppen. Wenn Sie KI für Entscheidungen in diesen Bereichen verwenden, stellen Sie sicher, dass betroffene Beteiligte verstehen, wie Entscheidungen getroffen werden, Beschwerdeentscheidungen treffen und alle relevanten Eingabedaten aktualisieren können.

Bewerten Sie rechtliche und behördliche Überlegungen: Kunden müssen potenzielle spezifische rechtliche und behördliche Verpflichtungen bewerten, wenn Sie KI-Plattformen und -Lösungen verwenden, die möglicherweise nicht für die Verwendung in jeder Branche oder in jedem Szenario geeignet sind. Darüber hinaus sind KI-Plattformen oder -Lösungen nicht für sie ausgelegt und dürfen nicht auf eine Weise verwendet werden, die in anwendbaren Nutzungsbedingungen und relevanten Verhaltensregeln verboten ist.

Endbenutzer sollten:

Üben Sie bei Bedarf eine menschliche Aufsicht aus: Die menschliche Aufsicht ist ein wichtiger Schutz bei der Interaktion mit KI-Anwendungen. Während wir unsere KI-Anwendungen kontinuierlich verbessern, kann KI immer noch Fehler machen. Die generierten Ausgaben können ungenau, unvollständig, voreingenommen, falsch ausgerichtet oder irrelevant für Ihre beabsichtigten Ziele sein. Dies kann verschiedene Gründe haben, z. B. Mehrdeutigkeit in den Eingaben oder Einschränkungen der zugrunde liegenden Modelle. Benutzer sollten daher die von der Texterkennung (OCR) generierten Antworten überprüfen und überprüfen, ob sie ihren Erwartungen und Anforderungen entsprechen.

Seien Sie sich des Risikos der Überlastung bewusst: Überlastung bei KI geschieht, wenn Benutzer falsche oder unvollständige KI-Ausgaben akzeptieren, hauptsächlich weil Fehler in KI-Ausgaben möglicherweise schwer zu erkennen sind. Für den Endbenutzer könnte die Überlastung zu einer verringerten Produktivität, einem Vertrauensverlust, einem Abbruch der Anwendung, zu finanziellen Verlusten, psychischem Schaden, körperlichem Schaden unter anderem führen (z. B. ein Arzt akzeptiert eine falsche KI-Ausgabe).

Seien Sie vorsichtig beim Entwerfen agentischer KI in sensiblen Domänen: Benutzer sollten beim Entwerfen und/oder Bereitstellen agentischer KI-Anwendungen in sensiblen Domänen Vorsicht walten lassen, in denen Agentaktionen unumkehrbar oder stark folgefähig sind. Zusätzliche Vorsichtsmaßnahmen sollten auch bei der Erstellung autonomer agentischer KI getroffen werden, wie weiter im Microsoft Enterprise AI Services-Verhaltenskodex (für Organisationen) oder im Abschnitt "Verhaltensregeln" im Microsoft-Servicevertrag (für Einzelpersonen) beschrieben.

Endbenutzer sollten auch:

Human-in-the-Loop Review: Wenden Sie die menschliche Überprüfung an, wenn OCR-Ergebnisse für wichtige Entscheidungen oder Datensätze verwendet werden.
Überprüfte Ausgabeverwendung: Vermeiden Sie die übermäßige Abhängigkeit von OCR-Ausgaben ohne Validierung.

Bereitsteller sollten:

Repräsentative Bildtests: Testen Sie OCR mithilfe repräsentativer Bilder aus der realen Nutzung.
Bewährte Methoden für die Bildqualität: Bieten Sie Benutzern Anleitungen zur Bildqualität, um optimale Ergebnisse zu erzielen.
Ausfallsicheres Erlebnis: Behandeln Sie Erkennungsfehler souverän, indem Sie Wiederholungen oder manuelle Korrekturen zulassen.
Decision-Support Sicherheitsvorkehrungen: Vermeiden Sie die Verwendung von OCR als einzige Quelle der Wahrheit in Folgeentscheidungssystemen.

Weitere Informationen zur Texterkennung (OCR)

Weitere Anleitungen finden Sie in den folgenden Ressourcen:

Erfahren Sie mehr über verantwortungsvolle KI

Feedback

War diese Seite hilfreich?

Last updated on 2026-03-26