Wat is documentomzetting?
Documentomzetting is een functie voor automatisch vertalen in de cloud van de Azure AI Translator-service . U kunt meerdere en complexe documenten vertalen in alle ondersteunde talen en dialecten , met behoud van de oorspronkelijke documentstructuur en gegevensindeling. De API voor documentomzetting ondersteunt twee vertaalprocessen:
Asynchrone batchvertaling ondersteunt de verwerking van meerdere documenten en grote bestanden. Voor het batchvertalingsproces is een Azure Blob Storage-account met opslagcontainers vereist voor uw bron- en vertaalde documenten.
Synchroon enkel bestand ondersteunt de verwerking van enkelvoudige bestandsvertalingen. Voor het proces voor bestandsvertaling is geen Azure Blob Storage-account vereist. Het uiteindelijke antwoord bevat het vertaalde document en wordt rechtstreeks naar de aanroepende client geretourneerd.
Asynchrone batchomzetting
Gebruik asynchrone documentverwerking om meerdere documenten en grote bestanden te vertalen.
Batch-sleutelfuncties
Functie | Beschrijving |
---|---|
Grote bestanden vertalen | Hele documenten asynchroon vertalen. |
Talloze bestanden vertalen | Vertaal meerdere bestanden in alle ondersteunde talen en dialecten met behoud van documentstructuur en gegevensindeling. |
Presentatie van bronbestand behouden | Bestanden vertalen met behoud van de oorspronkelijke indeling en indeling. |
Aangepaste vertaling toepassen | Documenten vertalen met behulp van algemene en aangepaste vertaalmodellen . |
Aangepaste woordenlijsten toepassen | Documenten vertalen met aangepaste woordenlijsten. |
Documenttaal automatisch detecteren | Laat de documentomzettingsservice de taal van het document bepalen. |
Documenten vertalen met inhoud in meerdere talen | Gebruik de functie autodetectie om documenten met inhoud in meerdere talen te vertalen naar uw doeltaal. |
Batch-ontwikkelopties
U kunt documentomzetting toevoegen aan uw toepassingen met behulp van de REST API of een clientbibliotheek-SDK:
De REST API. is een taalagnostische interface waarmee u HTTP-aanvragen en autorisatieheaders kunt maken om documenten te vertalen.
De clientbibliotheek-SDK's zijn taalspecifieke klassen, objecten, methoden en code die u snel kunt gebruiken door een verwijzing toe te voegen in uw project. Documentvertaling biedt momenteel programmeertaalondersteuning voor C#/.NET en Python.
Door Batch ondersteunde documentindelingen
De methode Ondersteunde documentindelingen ophalen retourneert een lijst met documentindelingen die worden ondersteund door de service Documentvertaling. De lijst bevat de algemene bestandsextensie en het inhoudstype als u de upload-API gebruikt.
Bestandstype | Bestandsextensie | Beschrijving |
---|---|---|
Adobe PDF | pdf |
Draagbare documentbestandsindeling. Documentvertaling maakt gebruik van OCR-technologie (Optical Character Recognition) om tekst in gescand PDF-document te extraheren en te vertalen terwijl de oorspronkelijke indeling behouden blijft. |
Door komma's gescheiden waarden | csv |
Een bestand met door komma's gescheiden onbewerkte gegevensbestanden dat wordt gebruikt door spreadsheetprogramma's. |
HTML | html , htm |
Hyper Text Markup Language. |
Localization Interchange File Format | xlf | Een parallelle documentindeling, export van Vertaalgeheugensystemen. De gebruikte talen worden gedefinieerd in het bestand. |
Markdown | markdown , , mkdn mdown , md , , mkd , mdwn , mdtext mdtxt rmd |
Een lichtgewicht opmaaktaal voor het maken van opgemaakte tekst. |
MHTML | mthml , mht |
Een archiefindeling voor webpagina's die wordt gebruikt om HTML-code en de bijbehorende resources te combineren. |
Microsoft Excel | xls , xlsx |
Een spreadsheetbestand voor gegevensanalyse en documentatie. |
Microsoft Outlook | msg |
Een e-mailbericht dat is gemaakt of opgeslagen in Microsoft Outlook. |
Microsoft PowerPoint | ppt , pptx |
Een presentatiebestand dat wordt gebruikt om inhoud weer te geven in een diavoorstellingsindeling. |
Microsoft Word | doc , docx |
Een tekstbestand. |
OpenDocument-tekst | odt |
Een opensource-tekstbestand. |
OpenDocument-presentatie | odp |
Een opensource-presentatiebestand. |
OpenDocument-spreadsheet | ods |
Een opensource-spreadsheetbestand. |
Rtf-tekstindeling | rtf |
Een tekstdocument met opmaak. |
Door tabs gescheiden waarden/TAB | tsv /tab |
Een bestand met door tabs gescheiden onbewerkte gegevensbestanden dat wordt gebruikt door spreadsheetprogramma's. |
Sms verzenden | txt |
Een niet-opgemaakt tekstdocument. |
Verouderde batchbestandstypen
Bronbestandstypen blijven behouden tijdens de documentomzetting met de volgende uitzonderingen:
Bronbestandsextensie | Vertaalde bestandsextensie |
---|---|
.doc, .odt, .rtf, | .docx |
.xls, .ods | .xlsx |
.ppt, .odp | .pptx |
Door Batch ondersteunde woordenlijstindelingen
Documentvertaling ondersteunt de volgende woordenlijstbestandstypen:
Bestandstype | Bestandsextensie | Beschrijving |
---|---|---|
Door komma's gescheiden waarden | csv |
Een bestand met door komma's gescheiden onbewerkte gegevensbestanden dat wordt gebruikt door spreadsheetprogramma's. |
Localization Interchange File Format | xlf , xliff |
Een parallelle documentindeling, export van Vertaalgeheugensystemen De gebruikte talen worden gedefinieerd in het bestand. |
Door tabs gescheiden waarden/TAB | tsv , tab |
Een bestand met door tabs gescheiden onbewerkte gegevensbestanden dat wordt gebruikt door spreadsheetprogramma's. |
Synchrone vertaling
Gebruik synchrone vertaalverwerking om een document te verzenden als onderdeel van de hoofdtekst van de HTTP-aanvraag en het vertaalde document te ontvangen in het HTTP-antwoord.
Belangrijke functies voor synchrone vertaling
Functie | Beschrijving |
---|---|
Bestanden met één pagina vertalen | De synchrone aanvraag accepteert slechts één document als invoer. |
Presentatie van bronbestand behouden | Bestanden vertalen met behoud van de oorspronkelijke indeling en indeling. |
Aangepaste vertaling toepassen | Documenten vertalen met behulp van algemene en aangepaste vertaalmodellen . |
Aangepaste woordenlijsten toepassen | Documenten vertalen met aangepaste woordenlijsten. |
Vertaling met één taal | Vertalen naar en van één ondersteunde taal. |
Documenttaal automatisch detecteren | Laat de documentomzettingsservice de taal van het document bepalen. |
Aangepaste woordenlijsten toepassen | Vertaal een document met behulp van een aangepaste woordenlijst. |
Synchrone ondersteunde documentindelingen
Bestandstype | Bestandsextensie | Inhoudstype | Beschrijving |
---|---|---|---|
Tekst zonder opmaak | .txt |
text/plain |
Een niet-opgemaakt tekstdocument. |
Door tabs gescheiden waarden | .txv .tab |
text/tab-separated-values |
Een tekstbestandsindeling die tabs gebruikt om waarden en nieuwe regels te scheiden om records te scheiden. |
Door komma's gescheiden waarden | .csv |
text/csv |
Een tekstbestand met komma's als scheidingsteken tussen waarden. |
HyperText Markup Language | .html .htm |
text/html |
HTML is een standaardmarkeringstaal die wordt gebruikt om webpagina's en inhoud te structuren. |
MHTML | .mthml .mht |
message/rfc822 @ application/x-mimearchive @ multipart/related |
Een archiefbestandsindeling voor webpagina's. |
Microsoft PowerPoint | .pptx |
application/vnd.openxmlformats-officedocument.presentationml.presentation |
Een op XML gebaseerde bestandsindeling die wordt gebruikt voor PowerPoint-diavoorstellingspresentaties. |
Microsoft Excel | .xlsx |
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet |
Een op XML gebaseerde bestandsindeling die wordt gebruikt voor Excel-spreadsheets. |
Microsoft Word | .docx |
application/vnd.openxmlformats-officedocument.wordprocessingml.document |
Een XML-bestandsindeling die wordt gebruikt voor Word-documenten. |
Microsoft Outlook | .msg |
application/vnd.ms-outlook |
Een bestandsindeling die wordt gebruikt voor opgeslagen Outlook-e-mailberichtobjecten. |
Xml Localization Interchange | .xlf .xliff |
application/xliff+xml |
Een gestandaardiseerde XML-bestandsindeling die veel wordt gebruikt bij het verwerken van vertaal- en lokalisatiesoftware. |
Synchrone ondersteunde woordenlijstindelingen
Documentvertaling ondersteunt de volgende woordenlijstbestandstypen:
Bestandstype | Bestandsextensie | Beschrijving |
---|---|---|
Door komma's gescheiden waarden | csv |
Een bestand met door komma's gescheiden onbewerkte gegevensbestanden dat wordt gebruikt door spreadsheetprogramma's. |
XmlLocalizationInterchange | xlf , xliff |
Een xml-indeling die is ontworpen om te standaardiseren hoe gegevens worden doorgegeven tijdens het lokalisatieproces. |
TabSeparatedValues | tsv , tab |
Een bestand met door tabs gescheiden onbewerkte gegevensbestanden dat wordt gebruikt door spreadsheetprogramma's. |
Limieten voor documentomzetting
Zie Aanvraaglimieten voor documentomzetting voor gedetailleerde informatie over aanvraaglimieten voor Azure AI Translator Service.
Documentomzettingsgegevenslocatie
De locatie van documentomzettingsgegevens is afhankelijk van de Azure-regio waarin uw Translator-resource is gemaakt:
✔️ Functie: Service-eindpunt voor documentomzetting ✔️
: aangepast: <name-of-your-resource.cognitiveservices.azure.com/translator/text/batch/v1.1
Door resources gemaakte regio | Gegevensverwerkingscentrum aanvragen |
---|---|
Globaal | Dichtstbijzijnde beschikbare datacentrum. |
Noord- en Zuid-Amerika | VS - oost 2 • VS - west 2 |
Azië en Stille Oceaan | Japan - oost • Azië - zuidoost |
Europa (met uitzondering van Zwitserland) | Frankrijk - centraal • Europa - west |
Zwitserland | Zwitserland - noord • Zwitserland - west |
Volgende stappen
In onze quickstart leert u hoe u snel aan de slag kunt met documentomzetting. Om te beginnen hebt u een actief Azure-account nodig. Als u nog geen account hebt, kunt u een gratis account aanmaken.