다음을 통해 공유


자습서: Synapse Analytics에서 SQL 언어를 사용하여 Azure Data Lake Storage 쿼리

이 자습서에서는 Azure Synapse 서버리스 SQL 풀을 Azure Data Lake Storage가 사용하도록 설정된 Azure Storage 계정에 저장된 데이터에 연결하는 방법을 보여줍니다. 이 연결을 통해 Azure Storage의 데이터에 대해 SQL 언어를 사용하여 SQL 쿼리 및 분석을 기본적으로 실행할 수 있습니다.

이 자습서에서는 다음을 수행합니다.

  • 스토리지 계정으로 데이터 수집
  • Synapse Analytics 작업 영역을 만듭니다(없는 경우).
  • Blob 스토리지의 데이터에 대한 분석 실행

Azure 구독이 아직 없는 경우 시작하기 전에 체험 계정을 만듭니다.

필수 조건

  • 계층 구조 네임스페이스(Azure Data Lake Storage)가 있는 스토리지 계정을 만듭니다.

    Azure Data Lake Storage에서 사용할 스토리지 계정 만들기를 참조하세요.

  • 사용자 계정에 Storage Blob 데이터 기여자 역할이 할당되었는지 확인합니다.

    Important

    역할을 스토리지 계정의 범위에 할당해야 합니다. 역할은 부모 리소스 그룹 또는 구독에 할당할 수 있지만, 이러한 역할 할당이 스토리지 계정에 전파될 때까지 권한 관련 오류가 발생합니다.

비행 데이터 다운로드

이 자습서에서는 Bureau of Transportation Statistics의 비행 데이터를 사용합니다. 자습서를 완료하려면 이 데이터를 다운로드해야 합니다.

  1. On_Time_Reporting_Carrier_On_Time_Performance_1987_present_2016_1.zip 파일을 다운로드합니다. 이 파일에는 플라이트 데이터가 포함되어 있습니다.

  2. 압축된 파일을 풀고, 파일 이름 및 파일 경로를 적어 둡니다. 이후 단계에서 이 정보가 필요합니다.

스토리지 계정에 원본 데이터 복사

  1. Azure Portal에서 새 스토리지 계정으로 이동합니다.

  2. Storage browser->Blob 컨테이너->컨테이너 추가를 선택하고 데이터라는 새 컨테이너를 만듭니다.

    스토리지 브라우저에서 폴더를 생성하는 스크린샷

  3. 스토리지 브라우저에서 On_Time_Reporting_Carrier_On_Time_Performance_1987_present_2016_1.csv파일을 data 폴더에 업로드합니다.

Azure Synapse 작업 영역 만들기

Azure Portal에서 Synapse 작업 영역을 만듭니다. 작업 영역을 만들 때 다음 값을 사용합니다.

  • 구독: 스토리지 계정과 연결된 Azure 구독을 선택합니다.
  • 리소스 그룹: 스토리지 계정을 배치한 리소스 그룹을 선택합니다.
  • 지역: 스토리지 계정의 지역(예: Central US)을 선택합니다.
  • 이름: Synapse 작업 영역의 이름을 입력합니다.
  • SQL 관리자 로그인: SQL Server의 관리자 사용자 이름을 입력합니다.
  • SQL 관리자 암호: SQL Server의 관리자 암호를 입력합니다.
  • 태그 값: 기본 값을 적용합니다.

Synapse SQL 엔드포인트 이름 찾기(선택 사항)

서버리스 SQL 엔드포인트 이름 서버 이름을 사용하면 SQL Server 또는 Azure SQL 데이터베이스에서 T-SQL 쿼리를 실행할 수 있는 도구(예: SQL Server Management Studio, Azure Data Studio 또는 Power BI)에 연결할 수 있습니다.

정규화된 서버 이름을 찾으려면:

  1. 연결하려는 작업 영역을 선택합니다.
  2. 개요로 이동합니다.
  3. 전체 서버 이름을 찾습니다.
    • 전용 SQL 풀의 경우 SQL 엔드포인트를 사용합니다.
    • 서버리스 SQL 풀의 경우 SQL 주문형 엔드포인트를 사용합니다.

이 자습서에서는 Synapse Studio를 사용하여 스토리지 계정에 업로드한 CSV 파일의 데이터를 쿼리합니다.

Synapse Studio를 사용하여 데이터 살펴보기

  1. Synapse Studio를 엽니다. Synapse Studio 열기를 참조하세요.

  2. SQL 스크립트를 만들고 이 쿼리를 실행하여 파일의 내용을 봅니다.

    SELECT
       TOP 100 *
    FROM
       OPENROWSET(
          BULK 'https://<storage-account-name>.dfs.core.windows.net/<container-name>/folder1/On_Time.csv',
          FORMAT='CSV',
          PARSER_VERSION='2.0'
       ) AS [result]
    

    Synapse Studio에서 SQL 스크립트를 만드는 방법에 대한 내용은 Azure Synapse Analytics에서 Synapse Studio SQL 스크립트를 참조하세요.

리소스 정리

더 이상 필요하지 않으면 리소스 그룹 및 모든 관련 리소스를 삭제합니다. 이렇게 하려면 스토리지 계정 및 작업 영역에 대한 리소스 그룹을 선택한 다음, 삭제를 선택합니다.

다음 단계