Delen via


Wat is documentomzetting?

Documentomzetting is een functie voor automatisch vertalen in de cloud van de Azure AI Translator-service . U kunt meerdere en complexe documenten vertalen in alle ondersteunde talen en dialecten , met behoud van de oorspronkelijke documentstructuur en gegevensindeling. De API voor documentomzetting ondersteunt twee vertaalprocessen:

  • Asynchrone batchvertaling ondersteunt de verwerking van meerdere documenten en grote bestanden. Voor het batchvertalingsproces is een Azure Blob Storage-account met opslagcontainers vereist voor uw bron- en vertaalde documenten.

  • Synchroon enkel bestand ondersteunt de verwerking van enkelvoudige bestandsvertalingen. Voor het proces voor bestandsvertaling is geen Azure Blob Storage-account vereist. Het uiteindelijke antwoord bevat het vertaalde document en wordt rechtstreeks naar de aanroepende client geretourneerd.

Asynchrone batchomzetting

Gebruik asynchrone documentverwerking om meerdere documenten en grote bestanden te vertalen.

Batch-sleutelfuncties

Functie Beschrijving
Grote bestanden vertalen Hele documenten asynchroon vertalen.
Talloze bestanden vertalen Vertaal meerdere bestanden in alle ondersteunde talen en dialecten met behoud van documentstructuur en gegevensindeling.
Presentatie van bronbestand behouden Bestanden vertalen met behoud van de oorspronkelijke indeling en indeling.
Aangepaste vertaling toepassen Documenten vertalen met behulp van algemene en aangepaste vertaalmodellen .
Aangepaste woordenlijsten toepassen Documenten vertalen met aangepaste woordenlijsten.
Documenttaal automatisch detecteren Laat de documentomzettingsservice de taal van het document bepalen.
Documenten vertalen met inhoud in meerdere talen Gebruik de functie autodetectie om documenten met inhoud in meerdere talen te vertalen naar uw doeltaal.

Batch-ontwikkelopties

U kunt documentomzetting toevoegen aan uw toepassingen met behulp van de REST API of een clientbibliotheek-SDK:

  • De REST API. is een taalagnostische interface waarmee u HTTP-aanvragen en autorisatieheaders kunt maken om documenten te vertalen.

  • De clientbibliotheek-SDK's zijn taalspecifieke klassen, objecten, methoden en code die u snel kunt gebruiken door een verwijzing toe te voegen in uw project. Documentvertaling biedt momenteel programmeertaalondersteuning voor C#/.NET en Python.

Door Batch ondersteunde documentindelingen

De methode Ondersteunde documentindelingen ophalen retourneert een lijst met documentindelingen die worden ondersteund door de service Documentvertaling. De lijst bevat de algemene bestandsextensie en het inhoudstype als u de upload-API gebruikt.

Bestandstype Bestandsextensie Beschrijving
Adobe PDF pdf Draagbare documentbestandsindeling. Documentvertaling maakt gebruik van OCR-technologie (Optical Character Recognition) om tekst in gescand PDF-document te extraheren en te vertalen terwijl de oorspronkelijke indeling behouden blijft.
Door komma's gescheiden waarden csv Een bestand met door komma's gescheiden onbewerkte gegevensbestanden dat wordt gebruikt door spreadsheetprogramma's.
HTML html, htm Hyper Text Markup Language.
Localization Interchange File Format xlf Een parallelle documentindeling, export van Vertaalgeheugensystemen. De gebruikte talen worden gedefinieerd in het bestand.
Markdown markdown, , mkdnmdown, md, , mkd, mdwn, mdtextmdtxtrmd Een lichtgewicht opmaaktaal voor het maken van opgemaakte tekst.
MHTML mthml, mht Een archiefindeling voor webpagina's die wordt gebruikt om HTML-code en de bijbehorende resources te combineren.
Microsoft Excel xls, xlsx Een spreadsheetbestand voor gegevensanalyse en documentatie.
Microsoft Outlook msg Een e-mailbericht dat is gemaakt of opgeslagen in Microsoft Outlook.
Microsoft PowerPoint ppt, pptx Een presentatiebestand dat wordt gebruikt om inhoud weer te geven in een diavoorstellingsindeling.
Microsoft Word doc, docx Een tekstbestand.
OpenDocument-tekst odt Een opensource-tekstbestand.
OpenDocument-presentatie odp Een opensource-presentatiebestand.
OpenDocument-spreadsheet ods Een opensource-spreadsheetbestand.
Rtf-tekstindeling rtf Een tekstdocument met opmaak.
Door tabs gescheiden waarden/TAB tsv/tab Een bestand met door tabs gescheiden onbewerkte gegevensbestanden dat wordt gebruikt door spreadsheetprogramma's.
Sms verzenden txt Een niet-opgemaakt tekstdocument.

Verouderde batchbestandstypen

Bronbestandstypen blijven behouden tijdens de documentomzetting met de volgende uitzonderingen:

Bronbestandsextensie Vertaalde bestandsextensie
.doc, .odt, .rtf, .docx
.xls, .ods .xlsx
.ppt, .odp .pptx

Door Batch ondersteunde woordenlijstindelingen

Documentvertaling ondersteunt de volgende woordenlijstbestandstypen:

Bestandstype Bestandsextensie Beschrijving
Door komma's gescheiden waarden csv Een bestand met door komma's gescheiden onbewerkte gegevensbestanden dat wordt gebruikt door spreadsheetprogramma's.
Localization Interchange File Format xlf , xliff Een parallelle documentindeling, export van Vertaalgeheugensystemen De gebruikte talen worden gedefinieerd in het bestand.
Door tabs gescheiden waarden/TAB tsv, tab Een bestand met door tabs gescheiden onbewerkte gegevensbestanden dat wordt gebruikt door spreadsheetprogramma's.

Synchrone vertaling

Gebruik synchrone vertaalverwerking om een document te verzenden als onderdeel van de hoofdtekst van de HTTP-aanvraag en het vertaalde document te ontvangen in het HTTP-antwoord.

Belangrijke functies voor synchrone vertaling

Functie Beschrijving
Bestanden met één pagina vertalen De synchrone aanvraag accepteert slechts één document als invoer.
Presentatie van bronbestand behouden Bestanden vertalen met behoud van de oorspronkelijke indeling en indeling.
Aangepaste vertaling toepassen Documenten vertalen met behulp van algemene en aangepaste vertaalmodellen .
Aangepaste woordenlijsten toepassen Documenten vertalen met aangepaste woordenlijsten.
Vertaling met één taal Vertalen naar en van één ondersteunde taal.
Documenttaal automatisch detecteren Laat de documentomzettingsservice de taal van het document bepalen.
Aangepaste woordenlijsten toepassen Vertaal een document met behulp van een aangepaste woordenlijst.

Synchrone ondersteunde documentindelingen

Bestandstype Bestandsextensie Inhoudstype Beschrijving
Tekst zonder opmaak .txt text/plain Een niet-opgemaakt tekstdocument.
Door tabs gescheiden waarden .txv
.tab
text/tab-separated-values Een tekstbestandsindeling die tabs gebruikt om waarden en nieuwe regels te scheiden om records te scheiden.
Door komma's gescheiden waarden .csv text/csv Een tekstbestand met komma's als scheidingsteken tussen waarden.
HyperText Markup Language .html
.htm
text/html HTML is een standaardmarkeringstaal die wordt gebruikt om webpagina's en inhoud te structuren.
MHTML .mthml
.mht
message/rfc822
@application/x-mimearchive
@multipart/related
Een archiefbestandsindeling voor webpagina's.
Microsoft PowerPoint .pptx application/vnd.openxmlformats-officedocument.presentationml.presentation Een op XML gebaseerde bestandsindeling die wordt gebruikt voor PowerPoint-diavoorstellingspresentaties.
Microsoft Excel .xlsx application/vnd.openxmlformats-officedocument.spreadsheetml.sheet Een op XML gebaseerde bestandsindeling die wordt gebruikt voor Excel-spreadsheets.
Microsoft Word .docx application/vnd.openxmlformats-officedocument.wordprocessingml.document Een XML-bestandsindeling die wordt gebruikt voor Word-documenten.
Microsoft Outlook .msg application/vnd.ms-outlook Een bestandsindeling die wordt gebruikt voor opgeslagen Outlook-e-mailberichtobjecten.
Xml Localization Interchange .xlf
.xliff
application/xliff+xml Een gestandaardiseerde XML-bestandsindeling die veel wordt gebruikt bij het verwerken van vertaal- en lokalisatiesoftware.

Synchrone ondersteunde woordenlijstindelingen

Documentvertaling ondersteunt de volgende woordenlijstbestandstypen:

Bestandstype Bestandsextensie Beschrijving
Door komma's gescheiden waarden csv Een bestand met door komma's gescheiden onbewerkte gegevensbestanden dat wordt gebruikt door spreadsheetprogramma's.
XmlLocalizationInterchange xlf , xliff Een xml-indeling die is ontworpen om te standaardiseren hoe gegevens worden doorgegeven tijdens het lokalisatieproces.
TabSeparatedValues tsv, tab Een bestand met door tabs gescheiden onbewerkte gegevensbestanden dat wordt gebruikt door spreadsheetprogramma's.

Limieten voor documentomzetting

Zie Aanvraaglimieten voor documentomzetting voor gedetailleerde informatie over aanvraaglimieten voor Azure AI Translator Service.

Documentomzettingsgegevenslocatie

De locatie van documentomzettingsgegevens is afhankelijk van de Azure-regio waarin uw Translator-resource is gemaakt:

✔️ Functie: Service-eindpunt voor documentomzetting ✔️
: aangepast: <name-of-your-resource.cognitiveservices.azure.com/translator/text/batch/v1.1

Door resources gemaakte regio Gegevensverwerkingscentrum aanvragen
Globaal Dichtstbijzijnde beschikbare datacentrum.
Noord- en Zuid-Amerika VS - oost 2 • VS - west 2
Azië en Stille Oceaan Japan - oost • Azië - zuidoost
Europa (met uitzondering van Zwitserland) Frankrijk - centraal • Europa - west
Zwitserland Zwitserland - noord • Zwitserland - west

Volgende stappen

In onze quickstart leert u hoe u snel aan de slag kunt met documentomzetting. Om te beginnen hebt u een actief Azure-account nodig. Als u nog geen account hebt, kunt u een gratis account aanmaken.