문서 번역이란?

문서 번역은 Azure AI 번역기 서비스의 클라우드 기반 기계 번역 기능입니다. 원본 문서 구조와 데이터 형식을 유지하면서 지원되는 모든 언어 및 언어 에서 여러 복잡한 문서를 번역할 수 있습니다. 문서 번역 API는 두 가지 번역 작업을 지원합니다.

  • 비동기 일괄 처리 문서 번역은 여러 문서 및 대용량 파일의 비동기 처리를 지원합니다. 일괄 처리 변환 프로세스에는 원본 및 번역된 문서에 대한 컨테이너가 있는 Azure Blob Storage 계정이 필요합니다.

  • 동기 문서 번역은 단일 파일 번역의 동기 처리를 지원합니다. 파일 변환 프로세스에는 Azure Blob Storage 계정이 필요하지 않습니다. 최종 응답은 번역된 문서를 포함하고 호출 클라이언트에 직접 반환됩니다.

비동기 일괄 처리 변환

비동기 문서 처리를 사용하여 여러 문서 및 대용량 파일을 번역합니다.

Batch 키 기능

기능 설명
대용량 파일 번역 전체 문서를 비동기적으로 번역합니다.
수많은 파일 번역 문서 구조와 데이터 형식을 유지하면서 지원되는 모든 언어 및 방언에서 여러 파일을 번역합니다.
원본 파일 프레젠테이션 유지 원래 레이아웃 및 형식을 유지하면서 파일을 번역합니다.
사용자 지정 번역 적용 일반 및 사용자 지정 번역 모델을 사용하여 문서를 번역 합니다.
사용자 지정 용어집 적용 사용자 지정 용어집을 사용하여 문서를 번역합니다.
문서 언어 자동 검색 문서 번역 서비스에서 문서의 언어를 확인하도록 합니다.
여러 언어로 콘텐츠를 사용하여 문서 번역 자동 검색 기능을 사용하여 여러 언어의 콘텐츠가 있는 문서를 대상 언어로 번역합니다.

Batch 개발 옵션

REST API 또는 클라이언트 라이브러리 SDK를 사용하여 애플리케이션에 문서 번역을 추가할 수 있습니다.

  • REST API는 는 HTTP 요청 및 권한 부여 헤더를 만들어 문서를 번역할 수 있는 언어 독립적 인터페이스입니다.

  • 클라이언트 라이브러리 SDK는 프로젝트에 참조를 추가하여 빠르게 사용할 수 있는 언어별 클래스, 개체, 메서드 및 코드입니다. 현재 문서 번역에는 C#/.NET 및 Python에 대한 프로그래밍 언어 지원이 있습니다.

일괄 처리 지원 문서 형식

지원되는 문서 형식 가져오기 메서드는 문서 번역 서비스에서 지원하는 문서 형식 목록을 반환합니다. 이 목록에는 공용 파일 확장명 및 업로드 API를 사용하는 경우 콘텐츠 형식이 포함되어 있습니다.

파일 형식 파일 확장명 설명
Adobe PDF pdf 이식 가능한 문서 파일 형식입니다. 문서 번역기는 OCR(광학 인식) 기술을 사용하여 원본 레이아웃을 유지하면서 스캔한 PDF 문서에서 텍스트를 추출하고 번역합니다.
쉼표로 구분된 값 csv 스프레드시트 프로그램에서 사용하는 쉼표로 구분된 원시 데이터 파일입니다.
HTML html, htm 하이퍼 텍스트 태그 언어입니다.
지역화 교환 파일 형식 xlf 번역 메모리 시스템에서 내보낸 병렬 문서 형식입니다. 사용되는 언어는 파일 안에 정의되어 있습니다.
Markdown markdown,mdown, mkdn, md, mkd, mdwnmdtxt, mdtextrmd 서식이 지정된 텍스트를 만들기 위한 간단한 태그 언어입니다.
Mhtml mthml, mht HTML 코드와 포함 리소스를 결합하는 데 사용되는 웹 페이지 보관 형식입니다.
Microsoft Excel xls, xlsx 데이터 분석 및 설명서를 위한 스프레드시트 파일입니다.
Microsoft Outlook msg Microsoft Outlook 내에서 만들거나 저장한 전자 메일 메시지입니다.
Microsoft PowerPoint ppt, pptx 슬라이드 쇼 형식으로 콘텐츠를 표시하는 데 사용되는 프레젠테이션 파일입니다.
Microsoft Word doc, docx 텍스트 문서 파일입니다.
OpenDocument 텍스트 odt 오픈 소스 텍스트 문서 파일입니다.
OpenDocument 프레젠테이션 odp 오픈 소스 프레젠테이션 파일입니다.
OpenDocument 스트레드시트 ods 오픈 소스 스프레드시트 파일입니다.
서식 있는 텍스트 형식 rtf 서식이 포함된 텍스트 문서입니다.
탭으로 구분된 값/TAB tsv/tab 스프레드시트 프로그램에서 사용하는 탭으로 구분된 원시 데이터 파일입니다.
Text txt 서식이 지정되지 않은 텍스트 문서입니다.

Batch 레거시 파일 형식

원본 파일 형식은 다음과 같은 예외를 제외하고 문서 번역 중에 유지됩니다.

원본 파일 확장명 번역된 파일 확장명
.doc, .odt, .rtf, .docx
.xls, .ods .xlsx
.ppt, .odp .pptx

일괄 처리 지원 용어집 형식

문서 번역은 다음과 같은 용어집 파일 형식을 지원합니다.

파일 형식 파일 확장명 설명
쉼표로 구분된 값 csv 스프레드시트 프로그램에서 사용하는 쉼표로 구분된 원시 데이터 파일입니다.
지역화 교환 파일 형식 xlf , xliff 병렬 문서 형식, 번역 메모리 시스템 내보내기 사용 언어는 파일 내에 정의됩니다.
탭으로 구분된 값/TAB tsv, tab 스프레드시트 프로그램에서 사용하는 탭으로 구분된 원시 데이터 파일입니다.

동기 번역

동기 번역 처리를 사용하여 HTTP 요청 본문의 일부로 문서를 보내고 HTTP 응답에서 번역된 문서를 받습니다.

동기 번역 키 기능

기능 설명
단일 페이지 파일 번역 동기 요청은 단일 문서만 입력으로 허용합니다.
원본 파일 프레젠테이션 유지 원래 레이아웃 및 형식을 유지하면서 파일을 번역합니다.
사용자 지정 번역 적용 일반 및 사용자 지정 번역 모델을 사용하여 문서를 번역 합니다.
사용자 지정 용어집 적용 사용자 지정 용어집을 사용하여 문서를 번역합니다.
단일 언어 번역 지원되는 언어로 번역합니다.
문서 언어 자동 검색 문서 번역 서비스에서 문서의 언어를 확인하도록 합니다.
사용자 지정 용어집 적용 사용자 지정 용어집을 사용하여 문서를 번역합니다.

동기 지원 문서 형식

파일 형식 파일 확장명 콘텐츠 형식 설명
일반 텍스트 .txt text/plain 서식이 지정되지 않은 텍스트 문서입니다.
탭으로 구분된 값 .txv
.tab
text/tab-separated-values 탭을 사용하여 값을 구분하고 줄바꿈을 사용하여 레코드를 구분하는 텍스트 파일 형식입니다.
쉼표로 구분된 값 .csv text/csv 값 사이의 구분 기호로 쉼표로 사용하는 텍스트 파일 형식입니다.
HyperText 태그 언어 .html
.htm
text/html HTML은 웹 페이지 및 콘텐츠를 구성하는 데 사용되는 표준 태그 언어입니다.
Mhtml .mthml
.mht
message/rfc822
@application/x-mimearchive
@multipart/related
웹 페이지 보관 파일 형식입니다.
Microsoft PowerPoint .pptx application/vnd.openxmlformats-officedocument.presentationml.presentation PowerPoint 슬라이드 쇼 프레젠테이션에 사용되는 XML 기반 파일 형식입니다.
Microsoft Excel .xlsx application/vnd.openxmlformats-officedocument.spreadsheetml.sheet Excel 스프레드시트에 사용되는 XML 기반 파일 형식입니다.
Microsoft Word .docx application/vnd.openxmlformats-officedocument.wordprocessingml.document Word 문서에 사용되는 XML 기반 파일 형식입니다.
Microsoft Outlook .msg application/vnd.ms-outlook 저장된 Outlook 메일 메시지 개체에 사용되는 파일 형식입니다.
Xml 지역화 교환 .xlf
.xliff
application/xliff+xml 번역 및 지역화 소프트웨어 처리에 널리 사용되는 표준화된 XML 기반 파일 형식입니다.

동기 지원 용어집 형식

문서 번역은 다음과 같은 용어집 파일 형식을 지원합니다.

파일 형식 파일 확장명 설명
쉼표로 구분된 값 csv 스프레드시트 프로그램에서 사용하는 쉼표로 구분된 원시 데이터 파일입니다.
XmlLocalizationInterchange xlf , xliff 지역화 프로세스 중에 데이터가 전달되는 방식을 표준화하도록 설계된 XML 기반 형식입니다.
TabSeparatedValues tsv, tab 스프레드시트 프로그램에서 사용하는 탭으로 구분된 원시 데이터 파일입니다.

문서 번역 요청 제한

Azure AI 번역기 서비스 요청 제한에 대한 자세한 내용은 문서 번역 요청 제한을 참조하세요.

문서 번역 데이터 보존

문서 번역 데이터 보존은 Translator 리소스가 만들어진 Azure 지역에 따라 달라집니다.

  • 유럽의 모든 지역(스위스 제외)에서 생성된 번역기 리소스는 북유럽 및 서유럽의 데이터 센터에서 처리됩니다.
  • 스위스의 모든 지역에서 생성된 번역기 리소스는 스위스 북부 및 스위스 서부의 데이터 센터에서 처리됩니다.
  • 아시아 태평양 또는 오스트레일리아의 모든 지역에서 생성된 번역기 리소스는 동남 아시아 및 오스트레일리아 동부의 데이터 센터에서 처리됩니다.
  • Global, 북아메리카 및 South America를 포함한 다른 모든 지역에서 생성된 번역기 리소스는 미국 동부 및 미국 서부 2의 데이터 센터에서 처리됩니다.

✔️ 기능: 문서 번역
✔️ 서비스 엔드포인트: 사용자 지정:<name-of-your-resource.cognitiveservices.azure.com/translator/text/batch/v1.1

리소스 지역 요청 처리 데이터 센터
유럽 내의 모든 지역(스위스 제외) 유럽: 북유럽 • 서유럽
스위스 스위스: 스위스 북부 • 스위스 서부
아시아 태평양 및 오스트레일리아 내의 모든 지역 아시아: 동남 아시아 • 오스트레일리아 동부
전역, 북아메리카 및 남미를 포함한 다른 모든 지역 미국: 미국 동부 • 미국 서부 2

다음 단계

빠른 시작에서는 문서 번역을 빠르게 시작하는 방법을 알아봅니다. 시작하려면 활성 Azure 계정이 필요합니다. 계정이 없는 경우 무료 계정에 만들 수 있습니다.