데이터 스토리지

아티클
01/21/2021

메모

Time Series Insights 서비스는 2024년 7월 7일에 사용 중지됩니다. 가능한 한 빨리 기존 환경을 대체 솔루션으로 마이그레이션하는 것이 좋습니다. 사용 중단 및 마이그레이션에 대한 자세한 내용은 설명서를참조하세요.

이 문서에서는 Azure Time Series Insights Gen2의 데이터 스토리지에 대해 설명합니다. 온도, 데이터 이용 가능성 및 모범 사례를 다룹니다.

프로비저닝

Azure Time Series Insights Gen2 환경을 만들 때 다음과 같은 옵션이 있습니다.

콜드 데이터 스토리지:
- 환경에 대해 선택한 구독 및 지역에 새 Azure Storage 리소스를 만듭니다.
- 기존 Azure Storage 계정을 연결합니다. 이 옵션은 Azure Resource Manager 템플릿배포해야만 사용할 수 있으며 Azure Portal에는 표시되지 않습니다.
웜 데이터 스토리지:
- 웜 저장소는 선택 사항이며 프로비전 중 또는 프로비전 후 사용하거나 사용하지 않도록 설정할 수 있습니다. 웜 저장소를 나중에 사용 설정하기로 결정하고 콜드 저장소에 이미 데이터가 있는 경우 아래 섹션을 검토해서 예상 동작을 이해하십시오. 웜 저장소 데이터 보존 시간은 7~31일 동안 구성할 수 있으며 필요에 따라 조정할 수도 있습니다.

이벤트가 수집되면 웜 스토리지(사용하도록 설정된 경우)와 콜드 스토리지 모두에서 인덱싱됩니다.

경고

콜드 저장소 데이터가 있는 Azure Blob Storage 계정의 소유자로서 계정의 모든 데이터에 대한 모든 액세스 권한이 있습니다. 이 액세스에는 쓰기 및 삭제 권한이 포함됩니다. 데이터가 손실될 수 있으므로 Azure Time Series Insights Gen2에서 기록하는 데이터를 편집하거나 삭제하지 마세요.

데이터 가용성

Azure Time Series Insights Gen2는 최적의 쿼리 성능을 위해 데이터를 분할하고 인덱싱합니다. 데이터는 인덱싱된 후 웜(활성화된 경우) 및 콜드 저장소에서 쿼리할 수 있게 됩니다. 수집되는 데이터의 양과 파티션당 처리량 속도는 가용성에 영향을 줄 수 있습니다. 최상의 성능을 위해 이벤트 원본 처리량 제한 및 모범 사례 검토합니다. 사용자 환경에 데이터 처리 문제가 발생할 경우 알림을 받을 수 있도록 지연 경고 을 구성할 수도 있습니다.

중요하다

시계열 쿼리 API통해 데이터를 사용할 수 있게 되기까지 최대 60초의 기간이 발생할 수 있습니다. 대기 시간이 60초 이상인 경우 Azure Portal을 통해 지원 티켓을 제출하세요.

Azure Time Series Insights Gen2 외부에서 Parquet 파일에 직접 액세스할 때 데이터를 사용할 수 있게 되기까지 최대 5분이 소요될 수 있습니다. 자세한 내용은 Parquet 파일 형식 섹션을 참조하세요.

웜 저장소

웜 저장소의 데이터는 시계열 쿼리 API, Azure Time Series Insights TSI Explorer또는 Power BI Connector통해서만 사용할 수 있습니다. 웜 저장소 쿼리는 무료이며 할당량은 없지만 제한은 30개 동시 요청입니다.

웜 저장소 동작

사용하도록 설정하면 이벤트 타임스탬프에 관계없이 사용자 환경으로 스트리밍된 모든 데이터가 웜 저장소로 라우팅됩니다. 스트리밍 수집 파이프라인은 거의 실시간으로 스트리밍하고 기록 이벤트를 수집하기 위해 빌드되었으며지원되지 .
보존 기간은 이벤트 타임스탬프가 아니라 웜 저장소에서 이벤트가 인덱싱된 시간을 기준으로 계산됩니다. 즉, 이벤트 타임스탬프가 미래인 경우에도 보존 기간이 경과한 후 웜 저장소에서 데이터를 더 이상 사용할 수 없습니다.
- 예: 10일 일기 예보가 있는 이벤트는 7일 보존 기간으로 구성된 웜 스토리지 컨테이너에서 수집 및 인덱싱됩니다. 7일 후에는 웜 저장소에서 예측을 더 이상 액세스할 수 없지만, 콜드 저장소에서는 쿼리할 수 있습니다.
콜드 스토리지에 인덱싱된 최근 데이터가 이미 있는 기존 환경에서 웜 저장소를 사용하도록 설정하는 경우 웜 저장소는 이 데이터로 다시 채워지지 않습니다.
웜 저장소를 사용하도록 설정했고 탐색기에서 최근 데이터를 보는 데 문제가 발생하는 경우 웜 저장소 쿼리를 일시적으로 해제할 수 있습니다.

콜드 스토어

이 섹션에서는 Azure Time Series Insights Gen2와 관련된 Azure Storage 세부 정보를 설명합니다.

Azure Blob storage에 대한 자세한 설명은 Storage Blob 소개를 참조하세요.

콜드 스토리지 계정

Azure Time Series Insights Gen2는 Azure Storage 계정에서 각 이벤트의 복사본을 최대 2개까지 유지합니다. 하나의 복사본은 수집 시간별로 정렬된 이벤트를 저장하며, 항상 시간 순서가 지정된 시퀀스로 이벤트에 액세스할 수 있도록 허용합니다. 시간이 지남에 따라 Azure Time Series Insights Gen2는 성능이 좋은 쿼리에 최적화하기 위해 데이터의 다시 분할된 복사본을 만듭니다.

모든 데이터는 Azure Storage 계정에 무기한 저장됩니다.

경고

Time Series Insights에서 사용하는 스토리지 계정에 대한 공용 인터넷 액세스를 제한하지 마세요. 그렇지 않으면 필요한 연결이 끊어집니다.

블롭 작성 및 편집

쿼리 성능 및 데이터 가용성을 보장하려면 Azure Time Series Insights Gen2에서 만드는 Blob을 편집하거나 삭제하지 마세요.

냉동 저장소 데이터 액세스

Azure Time Series Insights 탐색기 및 시계열 쿼리 API데이터에 액세스하는 것 외에도, 콜드 저장소에 저장된 Parquet 파일에서 데이터를 직접 액세스하는 것도 고려해 보십시오. 예를 들어 Jupyter Notebook에서 데이터를 읽고, 변환하고, 정리한 다음, 이를 사용하여 동일한 Spark 워크플로에서 Azure Machine Learning 모델을 학습시킬 수 있습니다.

Azure Storage 계정에서 직접 데이터에 액세스하려면 Azure Time Series Insights Gen2 데이터를 저장하는 데 사용되는 계정에 대한 읽기 액세스 권한이 필요합니다. 그런 다음 아래 Parquet 파일 형식 섹션에서 설명한 PT=Time 폴더에 있는 Parquet 파일의 생성 시간에 따라 선택한 데이터를 읽을 수 있습니다. 스토리지 계정에 대한 읽기 액세스를 사용하도록 설정하는 방법에 대한 자세한 내용은스토리지 계정 리소스에 대한 액세스 관리 참조하세요.

데이터 삭제

Azure Time Series Insights Gen2 파일을 삭제하지 마세요. Azure Time Series Insights Gen2 내에서만 관련 데이터를 관리합니다.

Parquet 파일 형식 및 폴더 구조

Parquet은 효율적인 스토리지 및 성능을 위해 설계된 오픈 소스 열 형식 파일 형식입니다. Azure Time Series Insights Gen2는 Parquet을 사용하여 시계열 ID 기반 쿼리 성능을 대규모로 사용하도록 설정합니다.

Parquet 파일 형식에 대한 자세한 내용은 Parquet 설명서읽어보세요.

Azure Time Series Insights Gen2는 다음과 같이 데이터 복사본을 저장합니다.

PT=Time 폴더는 수집 시간으로 분할되고 도착 순서대로 데이터를 대략적으로 저장합니다. 이 데이터는 시간이 지남에 따라 보존되며 Spark Notebook과 같은 Azure Time Series Insight Gen2 외부에서 직접 액세스할 수 있습니다. 타임스탬프 <YYYYMMDDHHMMSSfff> 데이터의 수집 시간에 해당합니다. <MinEventTimeStamp> 및 <MaxEventTimeStamp> 파일에 포함된 이벤트 타임스탬프의 범위에 해당합니다. 경로 및 파일 이름은 다음과 같이 형식이 지정됩니다.

V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet
PT=Live 및 PT=Tsid 폴더에는 대규모 시계열 쿼리 성능을 위해 다시 분할된 데이터의 두 번째 복사본이 포함됩니다. 이 데이터는 시간이 지남에 따라 최적화되며 정적이지 않습니다. 다시 분할하는 동안 일부 이벤트가 여러 Blob에 있을 수 있으며 Blob 이름이 변경될 수 있습니다. 이러한 폴더는 Azure Time Series Insights Gen2에서 사용되며 직접 액세스해서는 안 됩니다. 해당 용도로만 PT=Time 사용해야 합니다.

메모

2021년 6월 이전의 PT=Time 폴더에 있는 데이터는 이벤트 시간 범위가 없는 파일 이름 형식을 가질 수 있습니다. V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<TsiInternalSuffix>.parquet. 내부 파일 형식은 동일하며 두 명명 체계가 모두 있는 파일을 함께 사용할 수 있습니다.

<YYYY> 4자리 연도 표현으로 매핑합니다.
<MM>는 두 자리 월 표현으로 매핑됩니다.
타임스탬프의 <YYYYMMDDHHMMSSfff> 형식은 4자리 연도(YYYY), 두 자리 월(MM), 두 자리 일(DD), 두 자리 시간(HH), 두 자리 분(MM), 두 자리 초(SS), 3자리 밀리초(fff)로 매핑됩니다.

Azure Time Series Insights Gen2 이벤트는 다음과 같이 Parquet 파일 콘텐츠에 매핑됩니다.

각 이벤트는 단일 행에 매핑합니다.
모든 행에는 이벤트 타임스탬프를 포함하는 타임스탬프 열이 포함됩니다. 타임스탬프 속성은 절대 null이 아닙니다. 이벤트 원본에서 타임스탬프 속성이 지정되지 않은 경우, 기본값으로 이벤트가 시간에 큐에 추가된 시간이 됩니다. 저장된 타임스탬프는 항상 UTC입니다.
모든 행에는 Azure Time Series Insights Gen2 환경이 만들어질 때 정의된 대로 TSID(Time Series ID) 열이 포함됩니다. TSID 속성 이름에는 _string 접미사가 포함됩니다.
원격 분석 데이터로 전송된 다른 모든 속성은 속성 형식에 따라 _bool(불리언), _datetime(타임스탬프), _long(long), _double(double), _string(문자열) 또는 _dynamic(동적)로 끝나는 열 이름에 매핑됩니다. 자세한 정보는 지원되는 데이터 형식를 참고하십시오.
이 매핑 스키마는 V=1참조되고 동일한 이름의 기본 폴더에 저장된 파일 형식의 첫 번째 버전에 적용됩니다. 이 기능이 발전함에 따라 이 매핑 스키마가 변경되고 참조 이름이 증가될 수 있습니다.

다음 단계

데이터 모델링대해 알아봅니다.
Azure Time Series Insights Gen2 환경을계획하세요.

다음을 통해 공유