Amazon S3에서 데이터 가져오기

데이터 수집은 하나 이상의 원본에서 Azure Data Explorer 테이블로 데이터를 로드하는 데 사용되는 프로세스입니다. 수집한 후에는 데이터를 쿼리에 사용할 수 있게 됩니다. 이 문서에서는 Amazon S3에서 새 테이블 또는 기존 테이블로 데이터를 가져오는 방법을 알아봅니다.

Amazon S3에 대한 자세한 내용은 Amazon S3이란?을 참조하세요.

데이터 수집에 대한 일반적인 내용은 Azure Data Explorer 데이터 수집 개요를 참조하세요.

사전 요구 사항

데이터 가져오기

  1. 왼쪽 메뉴에서 쿼리를 선택합니다.

  2. 데이터를 수집할 데이터베이스를 마우스 오른쪽 단추로 클릭한 다음 데이터 가져오기를 선택합니다.

    데이터베이스를 마우스 오른쪽 단추로 클릭하고 옵션 가져오기 대화 상자가 열려 있는 쿼리 탭의 스크린샷

Source

데이터 가져오기 창에서 원본 탭이 선택됩니다.

사용 가능한 목록에서 데이터 원본을 선택합니다. 이 예제에서는 Amazon S3에서 데이터를 수집합니다.

원본 탭이 선택된 데이터 가져오기 창의 스크린샷

구성

  1. 대상 데이터베이스 및 테이블을 선택합니다. 새 테이블에 데이터를 수집하려면 +새 테이블을 선택하고 테이블 이름을 입력합니다.

    참고

    표 이름은 공백, 영숫자, 하이픈 및 밑줄을 포함하여 최대 1024자일 수 있습니다. 특수 문자는 지원되지 않습니다.

  2. URI 필드에 단일 버킷의 연결 문자열 또는 개별 개체를 다음 형식으로 붙여넣습니다.

    버킷: https://BucketName.s3.RegionName.amazonaws.com

    개체: ObjectName;AwsCredentials=AwsAccessID,AwsSecretKey

    필요에 따라 버킷 필터를 적용하여 특정 파일 확장명별로 데이터를 필터링할 수 있습니다.

    새 테이블이 입력되고 Amazon S3 연결 문자열 붙여넣은 구성 탭의 스크린샷

    참고

    수집 가능한 최대 파일 크기는 6GB입니다. 100MB에서 1GB 사이의 파일을 수집하는 것이 좋습니다.

  3. 다음을 선택합니다.

검사

데이터의 미리 보기와 함께 검사 탭이 열립니다.

수집 프로세스를 완료하려면 마침을 선택합니다.

검사 탭의 스크린샷

필요에 따라 다음을 수행합니다.

열 편집

참고

  • 테이블 형식(CSV, TSV, PSV)의 경우 열을 두 번 매핑할 수 없습니다. 기존 열에 매핑하려면 먼저 새 열을 삭제합니다.
  • 기존 열 유형은 변경할 수 없습니다. 다른 형식의 열에 매핑하려고 하면 빈 열이 생길 수 있습니다.

테이블에서 변경할 수 있는 사항은 다음 매개 변수에 따라 다릅니다.

  • 테이블 유형은 신규 또는 기존입니다.
  • 매핑 유형은 신규 또는 기존입니다.
테이블 유형 매핑 유형 사용 가능한 조정
새 테이블 새 매핑 열 이름 바꾸기, 데이터 형식 변경, 데이터 원본 변경, 매핑 변환, 열 추가, 열 삭제
기존 테이블 새 매핑 열 추가(데이터 형식을 변경하고 이름을 바꾸고 업데이트할 수 있음)
기존 테이블 기존 매핑 없음

편집을 위해 열려 있는 열의 스크린샷

매핑 변환

일부 데이터 형식 매핑(Parquet, JSON 및 Avro)은 간단한 수집 시간 변환을 지원합니다. 매핑 변환을 적용하려면 열 편집 창에서 열을 만들거나 업데이트합니다.

매핑 변환은 데이터 형식이 int 또는 long인 원본을 사용하여 문자열 또는 datetime 형식의 열에서 수행할 수 있습니다. 지원되는 매핑 변환은 다음과 같습니다.

  • DateTimeFromUnixSeconds
  • DateTimeFromUnixMilliseconds
  • DateTimeFromUnixMicroseconds
  • DateTimeFromUnixNanoseconds

데이터 형식을 기반으로 하는 고급 옵션

테이블 형식(CSV, TSV, PSV):

  • 기존 테이블에서 테이블 형식을 수집하는 경우 고급>현재 테이블 스키마 유지를 선택할 수 있습니다. 테이블 형식 데이터에는 원본 데이터를 기존 열에 매핑하는 데 사용되는 열 이름이 반드시 포함되지는 않습니다. 이 옵션을 선택하면 매핑이 순서대로 수행되고 테이블 스키마는 동일하게 유지됩니다. 이 옵션을 선택 취소하면 데이터 구조에 관계없이 들어오는 데이터에 대한 새 열이 만들어집니다.

  • 첫 번째 행을 열 이름으로 사용하려면 고급>첫 번째 행이 열 머리글임을 선택합니다.

    고급 CSV 옵션의 스크린샷

JSON:

  • JSON 데이터의 열 나누기를 확인하려면 1에서 100까지 의 고급>중첩 수준을 선택합니다.

  • 고급>데이터 형식 오류 무시를 선택하면 데이터가 JSON 형식으로 수집됩니다. 이 확인란을 선택하지 않은 상태로 두면 데이터가 multijson 형식으로 수집됩니다.

    고급 JSON 옵션의 스크린샷

요약

데이터 준비 창에서 데이터 수집이 성공적으로 완료되면 세 단계 모두 녹색 검사 표시로 표시됩니다. 각 단계에 사용된 명령을 보거나 수집된 데이터를 쿼리, 시각화 또는 삭제할 카드 선택할 수 있습니다.

성공적인 수집이 완료된 요약 페이지의 스크린샷