데이터 세트 정의에 사용할 수 있는 섹션 및 속성의 전체 목록은 데이터 세트 문서를 참조하세요. 이 섹션에는 ORC 데이터 세트에서 지원하는 속성의 목록을 제공합니다.
속성
설명
필수
type
데이터 세트의 type 속성을 Orc로 설정해야 합니다.
예
location
파일의 위치 설정입니다. 각 파일 기반 커넥터에는 location의 고유한 위치 형식 및 지원되는 속성이 있습니다. 자세한 내용은 커넥터 문서 -> 데이터 세트 속성 섹션을 참조하세요.
예
compressionCodec
ORC 파일에 쓸 때 사용할 압축 코덱입니다. ORC 파일에서 읽을 때 데이터 팩터리는 파일 메타데이터를 기반으로 압축 코덱을 자동으로 결정합니다. 지원되는 형식은 없음, zlib, snappy(기본값) 및 lzo입니다. 현재 복사 작업은 ORC 파일을 읽고 쓸 때 LZO를 지원하지 않습니다.
복합 데이터 형식(예: MAP, LIST, STRUCT)은 현재 복사 작업이 아니라 데이터 흐름에서만 지원됩니다. 데이터 흐름에서 복합 형식을 사용하려면 데이터 세트에 파일 스키마를 가져오지 마세요. 데이터 세트에서 스키마를 비워두다가 원본 변환에서 프로젝션을 가져옵니다.
열 이름에는 공백이 지원되지 않습니다.
복사 작업 속성
작업 정의에 사용할 수 있는 섹션 및 속성의 전체 목록은 파이프라인 문서를 참조하세요. 이 섹션에서는 ORC 원본 및 싱크에서 지원하는 속성 목록을 제공합니다.
ORC를 원본으로
복사 작업 *source* 섹션에서 지원되는 속성은 다음과 같습니다.
속성
설명
필수
type
복사 작업 원본의 type 속성을 OrcSource로 설정해야 합니다.
예
storeSettings
데이터 저장소에서 데이터를 읽는 방법에 대한 속성 그룹입니다. 각 파일 기반 커넥터에는 storeSettings 아래에 고유의 지원되는 읽기 설정이 있습니다. 자세한 내용은 커넥터 문서 -> 복사 작업 속성 섹션을 참조하세요.
아니요
ORC를 싱크로
복사 작업 *sink* 섹션에서 지원되는 속성은 다음과 같습니다.
속성
설명
필수
type
복사 작업 싱크의 type 속성은 OrcSink로 설정해야 합니다.
예
formatSettings
속성 그룹입니다. 아래의 ORC 쓰기 설정 표를 참조하세요.
아니요
storeSettings
데이터 저장소에 데이터를 쓰는 방법에 대한 속성 그룹입니다. 각 파일 기반 커넥터에는 storeSettings 아래에 고유의 지원되는 쓰기 설정이 있습니다. 자세한 내용은 커넥터 문서 -> 복사 작업 속성 섹션을 참조하세요.
아니요
formatSettings에서 지원되는 ORC 쓰기 설정:
속성
설명
필수
type
formatSettings의 type을 OrcWriteSettings로 설정해야 합니다.
예
maxRowsPerFile
폴더에 데이터를 쓸 때 여러 파일에 쓰도록 선택하고 파일당 최대 행 수를 지정할 수 있습니다.
아니요
fileNamePrefix
maxRowsPerFile이 구성된 경우 적용할 수 있습니다. 여러 파일에 데이터를 쓸 때 파일 이름 접두사를 지정합니다. 이 패턴은 <fileNamePrefix>_00000.<fileExtension>입니다. 지정하지 않으면 파일 이름 접두사가 자동으로 생성됩니다. 원본이 파일 기반 저장소 또는 파티션 옵션 사용 데이터 저장소인 경우에는 이 속성이 적용되지 않습니다.
자체 호스팅 통합 런타임에 권한을 부여한 복사(예: 온-프레미스 및 클라우드 데이터 저장소 간)의 경우 ORC 파일을 있는 그대로 복사하지 않으면 IR 머신에 64-bit JRE 8(Java Runtime Environment) 또는 OpenJDK 및 Microsoft Visual C++ 2010 재배포 가능 패키지를 설치해야 합니다. 자세한 내용은 다음 단락을 참조하세요.
자체 호스팅 IR에서 ORC 파일 serialization/deserialization을 사용하여 실행되는 복사의 경우 서비스는 먼저 JRE에 대한 (SOFTWARE\JavaSoft\Java Runtime Environment\{Current Version}\JavaHome) 레지스트리를 검사하고, 없는 경우 OpenJDK에 대한 JAVA_HOME 시스템 변수를 검사하여 Java 런타임을 찾습니다.
OpenJDK 사용: IR 버전 3.13부터 지원됩니다. 다른 모든 필수 OpenJDK 어셈블리와 함께 jvm.dll을 자체 호스팅 IR 머신으로 패키지하고, 이에 따라 JAVA_HOME 시스템 환경 변수를 설정합니다.
Visual C++ 2010 재배포 가능 패키지 설치: Visual C++ 2010 재배포 가능 패키지는 자체 호스팅 IR 설치와 함께 설치되지 않습니다. 여기서 찾을 수 있습니다.
팁
자체 호스팅 통합 런타임을 사용하여 데이터를 ORC 형식으로 또는 그 반대로 복사하고 'java를 호출할 때 오류가 발생함, 메시지: java.lang.OutOfMemoryError:Java heap space'라는 오류가 발생하는 경우 JVM의 최소/최대 힙 크기를 조정하도록 자체 호스팅 IR을 호스트하는 머신에서 _JAVA_OPTIONS 환경 변수를 추가하여 그러한 복사 기능을 강화한 다음, 파이프라인을 다시 실행할 수 있습니다.
예: 변수 _JAVA_OPTIONS를 -Xms256m -Xmx16g 값으로 설정합니다. 플래그 Xms는 JVM(Java Virtual Machine)의 초기 메모리 할당 풀을 지정하고, Xmx는 최대 메모리 할당 풀을 지정합니다. 즉, JVM은 Xms의 메모리 양으로 시작하고 최대 Xmx의 메모리 양을 사용할 수 있음을 의미합니다. 기본적으로 서비스는 최소 64MB 및 최대 1G를 사용합니다.