데이터 및 데이터 스토리지 유형 이해

완료됨

데이터가 구조화되고 저장되는 방식을 이해하는 것은 모든 분석 프로젝트의 시작 부분에서 요구 사항 수집 중 발생하는 중요한 단계입니다. 정형 데이터와 비정형 데이터 모두 분석에 적합하지만 데이터 팀이 데이터를 수집, 변환 및 저장하는 데 사용하는 도구는 데이터 형식에 따라 다릅니다.

정형 데이터

정형 데이터는 대부분의 사용자가 친숙합니다. 문자와 숫자가 검색 및 처리를 간소화하기 위해 열과 행으로 구성됩니다. 정형 데이터는 대개 정량적 성격이며 관계형 데이터베이스 및 데이터 웨어하우스에 저장됩니다. 정형 데이터는 친숙한 Microsoft Excel 테이블에 저장될 수 있습니다. 더 큰 규모의 정형 데이터 스토리지는 Azure SQL 데이터베이스와 같은 관계형 데이터베이스에 저장될 수 있습니다.

정형 데이터는 모든 유형의 분석에 적합하며 가장 쉽게 액세스할 수 있습니다. SQL(구조적 쿼리 언어)은 관계형 데이터베이스를 쿼리하는 데 사용되며 일반적으로 데이터 분석가, 데이터 엔지니어 및 데이터 과학자 모두가 사용합니다.

Excel workbook annual financial report for Contoso, displaying summarized revenues, net profit, interes, depreciation, and operating profit. A table below key metrics displays metrics over time with a 5-year trend line.

연간 재무 데이터 제공은 해당 데이터가 Excel 스프레드시트에 저장되는지 아니면 Azure SQL 데이터베이스와 같은 관계형 데이터베이스에 저장되는지 관계없이 정형 데이터를 사용하는 일반적인 예입니다.

비정형 데이터

비정형 데이터는 식별 가능한 방식으로 구성되지 않은 정보입니다. 비정형 데이터는 종종 정성적 분석에 더 적합하며 비관계형 데이터베이스 및 데이터 레이크에 저장됩니다.

비정형 데이터의 형식은 Word 문서, .csv 파일, json 파일, 이미지, PDF에서 오디오 및 비디오 파일에 이르기까지 매우 다양합니다. 이러한 파일은 Azure Data Lake에 저장될 수 있습니다.

Azure Data Lake icon with data from devices, social, LOB applications, video, web, sensors, relationsal, and clickstream shown going into the data lake.