기록 데이터를 Azure Data Explorer 수집하는 방법

Azure Data Explorer 온보딩할 때 일반적인 시나리오는 기록 데이터(백필이라고도 함)를 수집하는 것입니다. 이 프로세스에는 기존 스토리지 시스템에서 익스텐트 컬렉션인 테이블로 데이터를 수집하는 작업이 포함됩니다.

creationTime 수집 속성을 사용하여 기록 데이터를 수집하여 익스텐트 생성 시간을 데이터가 만들어진 시간으로 설정하는 것이 좋습니다. 생성 시간을 수집 분할 기준으로 사용하면 캐시보존 정책에 따라 데이터가 노화되고 시간 필터의 효율성이 높아질 수 있습니다.

기본적으로 익스텐트의 생성 시간은 데이터가 수집되는 시간으로 설정되며, 이는 예상하는 동작을 생성하지 않을 수 있습니다. 예를 들어 캐시 기간이 30일이고 보존 기간이 2년인 테이블이 있다고 가정해 보겠습니다. 일반 흐름에서 생성될 때 수집된 데이터는 30일 동안 캐시된 다음 콜드 스토리지로 이동됩니다. 2년이 지나면 생성 시간에 따라 오래된 데이터가 한 번에 하루씩 제거됩니다. 그러나 2년간의 기록 데이터를 수집하는 경우 데이터는 기본적으로 데이터가 수집되는 시간으로 생성 시간으로 표시됩니다. 다음과 같은 이유로 원하는 결과가 생성되지 않을 수 있습니다.

  • 모든 데이터는 캐시에 배치되고 예상보다 더 많은 캐시를 사용하여 30일 동안 유지됩니다.
  • 이전 데이터는 한 번에 하루만 제거되지 않습니다. 따라서 데이터는 필요 이상으로 클러스터에 보존되며, 2년 후에는 모두 한 번에 제거됩니다.
  • 이전에 원본 시스템의 날짜별로 그룹화된 데이터는 이제 동일한 범위에서 함께 일괄 처리 되어 비효율적인 쿼리로 이어질 수 있습니다.

기본 생성 시간을 사용하여 기록 데이터를 수집한 예상 결과와 실제 결과를 보여 주는 다이어그램

이 문서에서는 기록 데이터를 분할하는 방법을 알아봅니다.

  • 수집 중에 creationTime 수집 속성 사용(권장)

    가능한 경우 수집 속성을 사용하여 creationTime기록 데이터를 수집합니다. 이를 통해 파일 또는 Blob 경로에서 추출하여 익스텐트 생성 시간을 설정할 수 있습니다. 폴더 구조에서 생성 날짜 패턴을 사용하지 않는 경우 생성 시간을 반영하도록 파일 또는 Blob 경로를 재구성하는 것이 좋습니다. 이 메서드를 사용하면 데이터가 올바른 생성 시간으로 테이블에 수집되고 캐시 및 보존 기간이 올바르게 적용됩니다.

    참고

    기본적으로 익스텐스는 생성 시간(수집)에 따라 분할되며, 대부분의 경우 데이터 분할 정책을 설정할 필요가 없습니다.

  • 수집 후 분할 정책 사용

    수집 속성을 사용할 creationTime 수 없는 경우(예: 생성 시간을 제어할 수 없는 Azure Cosmos DB 커넥터를 사용하여 데이터를 수집하는 경우) 또는 폴더 구조를 재구성할 수 없는 경우 분할 정책을 사용하여 동일한 효과를 얻기 위해 테이블 게시 수집을 다시 분할할 수 있습니다. 그러나 이 메서드는 정책 속성을 최적화하기 위해 몇 가지 시행착오가 필요할 수 있으며 수집 속성을 사용하는 것보다 효율성이 creationTime 떨어집니다. 수집 속성을 사용할 creationTime 수 없는 경우에만 이 메서드를 사용하는 것이 좋습니다.

사전 요구 사항

기록 데이터 수집

수집 중에 수집 속성을 사용하여 creationTime 기록 데이터를 분할하는 것이 좋습니다. 그러나 이 메서드를 사용할 수 없는 경우 분할 정책을 사용하여 수집 후 테이블을 다시 분할할 수 있습니다.

LightIngest는 기존 스토리지 시스템에서 Azure Data Explorer 기록 데이터를 로드하는 데 유용할 수 있습니다. 명령줄 인수 목록을 사용하여 사용자 고유의 명령을 빌드할 수 있지만 이 문서에서는 수집 마법사를 통해 이 명령을 자동으로 생성하는 방법을 보여줍니다. 명령을 만드는 것 외에도 이 프로세스를 사용하여 새 테이블을 만들고 스키마 매핑을 만들 수 있습니다. 이 도구는 데이터 세트에서 스키마 매핑을 유추합니다.

대상

  1. Azure Data Explorer 웹 UI의 왼쪽 메뉴에서 쿼리를 선택합니다.

  2. 데이터를 수집할 데이터베이스를 마우스 오른쪽 단추로 클릭한 다음 LightIngest를 선택합니다.

    데이터베이스 추가 메뉴를 보여 주는 Azure Data Explorer 웹 UI의 스크린샷

    대상 탭이 선택된 상태에서 데이터 수집 창이 열립니다. 클러스터데이터베이스 필드는 자동으로 채워집니다.

  3. 대상 테이블을 선택합니다. 새 테이블에 데이터를 수집하려면 새 테이블을 선택한 다음 테이블 이름을 입력합니다.

    참고

    테이블 이름은 공백, 영숫자, 하이픈 및 밑줄을 포함하여 최대 1024자까지 가능합니다. 특수 문자는 지원되지 않습니다.

    대상 데이터베이스 및 테이블을 보여 주는 대상 탭의 스크린샷

  4. 다음: 원본을 선택합니다.

원본

  1. 원본 선택에서 URL 추가 또는 컨테이너 선택을 선택합니다.

    • URL을 추가할 때 원본에 연결에서 컨테이너에 대한 계정 키 또는 SAS URL을 지정합니다. SAS URL을 수동으로 또는 자동으로 만들 수 있습니다.

    • 스토리지 계정에서 컨테이너를 선택할 때 드롭다운 메뉴에서 스토리지 구독, 스토리지 계정컨테이너 를 선택합니다.

      스토리지 구독 및 계정에서 컨테이너를 선택하기 위한 대화 상자의 스크린샷.

    참고

    수집 가능한 최대 파일 크기는 6GB입니다. 100MB에서 1GB 사이의 파일을 수집하는 것이 좋습니다.

  2. 고급 설정을 선택하여 LightIngest를 사용하여 수집 프로세스에 대한 추가 설정을 정의합니다.

    LightIngest 도구와 관련된 수집 처리에 대한 고급 설정 선택 스크린샷.

  3. 고급 구성 창에서 다음 표에 따라 LightIngest 설정을 정의합니다.

    LightIngest 도구와 관련된 수집 처리에 대한 추가 설정을 보여 주는 고급 구성 창의 스크린샷

    속성 Description
    만들기 시간 패턴 생성된 익스텐트의 수집 시간 속성 등을 패턴으로 재정의하도록 지정하여, 컨테이너의 폴더 구조에 따라 날짜를 적용합니다. 만들기 시간 패턴도 참조하세요.
    Blob 이름 패턴 수집할 파일을 식별하는 데 사용되는 패턴을 지정합니다. 지정된 컨테이너의 Blob 이름 패턴과 일치하는 모든 파일을 수집합니다. 와일드카드를 지원합니다. 큰따옴표로 묶는 것이 좋습니다.
    Tag 수집된 데이터에 할당된 태그입니다. 태그는 아무 문자열이나 될 수 있습니다.
    파일 양 제한 수집할 수 있는 파일 수를 지정합니다. Blob 이름 패턴과 일치하는 첫 번째 n 파일을 지정된 수까지 수집합니다.
    수집이 완료되기를 기다리지 않음 설정된 경우 수집 프로세스를 모니터링하지 않고 수집을 위해 Blob을 큐에 대기합니다. 설정하지 않으면 LightIngest는 수집이 완료될 때까지 수집 상태를 계속 폴링합니다.
    선택한 항목만 표시 컨테이너에 파일을 나열하지만 수집하지는 않습니다.
  4. 완료를 선택하여 원본 탭으로 돌아갑니다.

    1. 필요에 따라 파일 필터를 선택하여 특정 폴더 경로 또는 특정 파일 확장명에서 파일만 수집하도록 데이터를 필터링합니다.

      새 데이터 수집 화면의 원본 탭에서 데이터를 필터링하는 스크린샷.

      기본적으로 컨테이너의 파일 중 하나가 임의로 선택되어 테이블에 대한 스키마를 생성하는 데 사용됩니다.

    2. 필요에 따라 스키마 정의 파일에서 사용할 파일을 지정할 수 있습니다.

  5. 다음: 스키마를 선택하여 테이블 열 구성을 살펴보고 편집합니다.

스키마

스키마 탭은 데이터의 미리 보기를 제공합니다.

LightIngest 명령을 생성하려면 다음: 수집 시작을 선택합니다.

필요에 따라 다음을 수행합니다.

  • 드롭다운 메뉴에서 원하는 형식을 선택하여 자동으로 유추된 데이터 형식을 변경합니다.
  • 자동으로 유추된 매핑 이름을 변경합니다. 영숫자 및 밑줄을 사용할 수 있습니다. 공백, 특수 문자 및 하이픈은 지원되지 않습니다.
  • 기존 테이블을 사용할 때 테이블 스키마가 선택한 형식과 일치하면 현재 테이블 스키마를 유지할 수 있습니다.
  • 명령 뷰어를 선택하여 입력에서 생성된 자동 명령을 보고 복사합니다.
  • 열을 편집합니다. 부분 데이터 미리 보기에서 열 드롭다운 메뉴를 선택하여 테이블의 다양한 측면을 변경합니다.

테이블에서 변경할 수 있는 사항은 다음 매개 변수에 따라 다릅니다.

  • 테이블 유형은 신규 또는 기존입니다.
  • 매핑 유형은 신규 또는 기존입니다.
테이블 유형 매핑 유형 사용 가능한 조정
새 테이블 새 매핑 데이터 형식 변경, 열 이름 변경, 새 열, 열 삭제, 열 업데이트, 오름차순 정렬, 내림차순 정렬
기존 테이블 새 매핑 새 열(데이터 형식 변경, 이름 바꾸기 및 업데이트 가능)
열 업데이트, 오름차순 정렬, 내림차순 정렬
기존 매핑 오름차순 정렬, 내림차순 정렬

참고

새 열을 추가하거나 열을 업데이트하면 매핑 변환을 변경할 수 있습니다. 자세한 내용은 매핑 변환을 참조하세요.

수집

  1. 테이블, 매핑 및 LightIngest 명령이 녹색 검사 표시로 표시되면 생성된 명령 상자의 오른쪽 위에 있는 복사 아이콘을 선택하여 생성된 LightIngest 명령을 복사합니다.

    명령이 생성된 요약 탭의 스크린샷. 생성된 명령 상자 위에 있는 복사 아이콘을 사용하여 명령을 복사할 수 있습니다.

    참고

    필요한 경우 LightIngest 다운로드를 선택하여 LightIngest 도구를 다운로드할 수 있습니다.

  2. 수집 프로세스를 완료하려면 복사된 명령을 사용하여 LightIngest를 실행 해야 합니다.