학습
인증
Microsoft Certified: Azure Data Engineer Associate - Certifications
여러 Azure 서비스를 사용하여 Microsoft Azure에서 데이터 엔지니어링 워크로드를 구현하고 관리하는 일반적인 데이터 엔지니어링 작업에 대한 이해를 보여 줍니다.
OneLake는 전체 조직을 위한 논리적 단일 통합 데이터 레이크입니다. Data Lake는 다양한 원본에서 대량의 데이터를 처리합니다. OneDrive와 마찬가지로 OneLake는 모든 Microsoft Fabric 테넌트에 자동으로 제공되며, 모든 분석 데이터를 위한 단일 위치가 되도록 설계되었습니다. OneLake는 고객에게 다음을 제공합니다.
OneLake 이전에는 여러 리소스를 관리하는 추가 오버헤드가 있더라도 고객이 단일 레이크에서 협업하는 대신 여러 비즈니스 그룹을 위해 여러 레이크를 만드는 것이 더 쉬웠습니다. OneLake는 협업을 개선하여 이러한 과제를 제거하는 데 중점을 둡니다. 모든 고객 테넌트에는 정확히 하나의 OneLake가 있습니다. 둘 이상의 OneLake가 있을 수 없으며, Fabric을 사용하는 경우 하나 이상의 OneLake가 있을 수 있습니다. 모든 Fabric 테넌트는 설정하거나 관리할 추가 리소스 없이 OneLake를 자동으로 프로비전합니다.
테넌트의 개념은 SaaS 서비스의 고유한 이점입니다. 고객 조직의 시작과 끝 위치를 인식하면 테넌트 관리자가 제어하는 자연스러운 거버넌스 및 규정 준수 경계가 제공됩니다. OneLake에 있는 모든 데이터는 기본적으로 제어됩니다. 모든 데이터는 테넌트 관리자가 설정한 경계 내에 있지만, 이 관리자는 조직의 다른 부분이 OneLake에 참여하지 못하도록 차단하는 중앙 Gatekeeper가 되지 않아야 합니다.
테넌트 내에서 원하는 수의 작업 영역을 만들 수 있습니다. 작업 영역을 사용하면 조직의 여러 부분에서 소유권 및 액세스 정책을 배포할 수 있습니다. 각 작업 영역은 특정 지역에 연결된 용량의 일부이며 요금이 별도로 청구됩니다.
작업 영역 내에서 데이터 항목을 만들고 데이터 항목을 통해 OneLake의 모든 데이터에 액세스할 수 있습니다. Office에서 Word, Excel 및 PowerPoint 파일을 OneDrive에 저장하는 방법과 비슷하게 Fabric은 레이크하우스, 웨어하우스 및 기타 항목을 OneLake에 저장합니다. 항목은 레이크하우스의 Apache Spark 개발자 환경과 같이 각 가상 사용자에 맞게 조정된 환경을 제공할 수 있습니다.
OneLake 사용을 시작하는 방법에 대한 자세한 내용은 OneLake를 사용하여 레이크하우스 만들기를 참조하세요.
OneLake는 모든 수준에서 열려 있습니다. OneLake는 ADLS(Azure Data Lake Storage) Gen2를 기반으로 하여 빌드되며, 구조화되거나 구조화되지 않은 모든 형식의 파일을 지원할 수 있습니다. Data Warehouse 및 레이크하우스와 같은 모든 Fabric 데이터 항목은 해당 데이터를 Delta Parquet 형식으로 OneLake에 자동으로 저장합니다. 데이터 엔지니어가 Apache Spark를 사용하여 데이터를 레이크하우스에 로드한 다음, SQL 개발자가 T-SQL을 사용하여 데이터를 완전한 트랜잭션 Data Warehouse에 로드하는 경우 둘 다 동일한 데이터 레이크에 참여합니다. OneLake는 모든 표 형식 데이터를 Delta Parquet 형식으로 저장합니다.
OneLake는 Azure Databricks를 포함하여 기존 ADLS Gen2 애플리케이션과 호환되도록 동일한 ADLS Gen2 API 및 SDK를 지원합니다. 전체 조직에 대한 하나의 큰 ADLS 스토리지 계정인 것처럼 OneLake에서 데이터를 처리할 수 있습니다. 모든 작업 영역은 해당 스토리지 계정 내의 컨테이너로 표시되고, 다른 데이터 항목은 해당 컨테이너 내의 폴더로 표시됩니다.
API 및 엔드포인트에 대한 자세한 내용은 OneLake 액세스 및 API를 참조하세요. Azure와의 OneLake 통합 예제는 Azure Synapse Analytics, Azure Storage Explorer, Azure Databricks 및 Azure HDInsight 문서를 참조하세요.
OneLake는 데이터용 OneDrive입니다. OneDrive와 마찬가지로 Windows용 OneLake 파일 탐색기를 사용하여 Windows에서 OneLake 데이터를 쉽게 탐색할 수 있습니다. Office에서와 마찬가지로 모든 작업 영역과 데이터 항목을 탐색하여 파일을 쉽게 업로드, 다운로드 또는 수정할 수 있습니다. OneLake 파일 탐색기는 데이터 레이크 작업을 간소화하여 기술에 익숙하지 않은 비즈니스 사용자도 사용할 수 있도록 합니다.
자세한 내용은 OneLake 파일 탐색기를 참조하세요.
OneLake는 데이터 이동이나 중복 없이 단일 데이터 복사본에서 가능한 가장 큰 가치를 제공하기 위한 것입니다. 다른 엔진에서 사용하거나 사일로를 분해하기 위해 데이터를 더 이상 복사할 필요가 없으므로 다른 원본의 데이터를 사용하여 데이터를 분석할 수 있습니다.
바로 가기를 사용하면 조직에서 불필요하게 정보를 이동하거나 복제하지 않고도 사용자와 애플리케이션 간에 데이터를 쉽게 공유할 수 있습니다. 팀이 별도의 작업 영역에서 독립적으로 작업하는 경우 바로 가기를 사용하면 사용자의 특정 요구 사항에 맞출 수 있도록 여러 비즈니스 그룹과 도메인의 데이터를 가상 데이터 제품으로 결합할 수 있습니다.
바로 가기는 다른 파일 위치에 저장된 데이터에 대한 참조입니다. 이러한 파일 위치는 동일한 작업 영역 내에 있거나 다른 작업 영역 간에 있거나, OneLake 내부 또는 ADLS, S3 또는 Dataverse의 OneLake 외부에 있을 수 있으며 더 많은 대상 위치가 곧 제공될 예정입니다. 위치에 관계없이 바로 가기는 파일과 폴더를 로컬로 저장한 것처럼 보이게 합니다.
바로 가기를 사용하는 방법에 대한 자세한 내용은 OneLake 바로가기를 참조하세요.
애플리케이션에서 스토리지와 컴퓨팅을 분리할 수 있지만, 데이터는 단일 엔진에 최적화되어 여러 애플리케이션에서 동일한 데이터를 다시 사용하기 어려운 경우가 많습니다. Fabric을 사용하면 다양한 분석 엔진(T-SQL, Apache Spark, Analysis Services 등)에서 데이터를 개방형 Delta Parquet 형식으로 저장하여 여러 엔진에서 동일한 데이터를 사용할 수 있습니다.
다른 엔진에서 사용하기 위해 데이터를 더 이상 복사할 필요가 없습니다. 항상 수행하려는 작업에 가장 적합한 엔진을 선택할 수 있습니다. 예를 들어 완전한 트랜잭션 Data Warehouse를 빌드하는 SQL 엔지니어 팀이 있다고 가정해 보겠습니다. T-SQL 엔진과 T-SQL의 모든 기능을 사용하여 테이블을 만들고, 데이터를 변환하고, 데이터를 테이블에 로드할 수 있습니다. 데이터 과학자가 이 데이터를 사용하려는 경우 더 이상 특별한 Spark/SQL 드라이버를 통과할 필요가 없습니다. OneLake는 모든 데이터를 Delta Parquet 형식으로 저장합니다. 데이터 과학자는 Spark 엔진과 해당 오픈 소스 라이브러리의 모든 기능을 데이터에 직접 사용할 수 있습니다.
비즈니스 사용자는 Analysis Services 엔진의 새 Direct Lake 모드를 사용하여 OneLake에서 직접 Power BI 보고서를 작성할 수 있습니다. Analysis Services 엔진은 Power BI 의미 체계 모델을 구동하며 항상 가져오기 및 직접 쿼리라는 두 가지 데이터 액세스 모드를 제공합니다. Direct Lake 모드는 데이터를 복사할 필요 없이 사용자에게 모든 가져오기 속도를 제공하며, 가져오기와 직접 쿼리의 장점을 결합합니다. 자세한 내용은 Direct Lake를 참조하세요.
Spark를 사용하여 데이터를 로드하고, T-SQL을 사용하여 쿼리하고, Power BI 보고서에서 데이터를 보는 예제 다이어그램
학습
인증
Microsoft Certified: Azure Data Engineer Associate - Certifications
여러 Azure 서비스를 사용하여 Microsoft Azure에서 데이터 엔지니어링 워크로드를 구현하고 관리하는 일반적인 데이터 엔지니어링 작업에 대한 이해를 보여 줍니다.