매핑 데이터 흐름을 사용하여 안전하게 데이터 변환

적용 대상: Azure Data Factory Azure Synapse Analytics

팁

Microsoft Fabric의 데이터 팩토리는 더 간단한 아키텍처, 기본 제공 AI 및 새로운 기능을 갖춘 차세대 Azure 데이터 팩토리입니다. 데이터 통합을 접하는 경우 Fabric Data Factory부터 시작합니다. 기존 ADF 워크로드는 Fabric 업그레이드하여 데이터 과학, 실시간 분석 및 보고 전반에 걸쳐 새로운 기능에 액세스할 수 있습니다.

Fabric 무료 평가판을 시작합니다.
Microsoft Fabric의 Data Factory로 Azure Data Factory를 업그레이드합니다

Azure Data Factory를 처음 사용하는 경우 Azure Data Factory 소개를 참조하세요.

이 자습서에서는 Data Factory 사용자 인터페이스(UI)를 사용하여 Azure Data Lake Storage Gen2 소스에서 Data Lake Storage Gen2 싱크로 데이터를 복사하고 변환하는 파이프라인을 구축합니다 (두 장소는 선택된 네트워크로만 접근을 허용합니다). 이는 Data Factory 관리형 가상 네트워크에서 매핑 데이터 흐름을 활용하여 수행됩니다. 매핑 데이터 흐름을 사용하여 데이터를 변환하는 경우 이 자습서의 구성 패턴을 확장할 수 있습니다.

이 자습서에서 수행하는 단계는 다음과 같습니다.

데이터 팩터리를 만듭니다.
데이터 흐름 작업을 사용하여 파이프라인을 만듭니다.
네 가지 변환으로 매핑 데이터 흐름을 만듭니다.
파이프라인 테스트 실행
데이터 흐름 작업을 모니터링합니다.

필수 조건

Azure 구독. Azure 구독이 없으시면 시작하기 전에 무료 Azure 계정 만드세요.
Azure 스토리지 계정. Data Lake Storage source 및 sink 데이터 저장소로 사용합니다. 스토리지 계정이 없는 경우 Azure 스토리지 계정 만들기를 참조하세요. 스토리지 계정이 선택한 네트워크에서만 액세스를 허용하는지 확인합니다.

이 자습서에서 변환할 파일은 moviesDB.csvGitHub 콘텐츠 사이트에서 찾을 수 있습니다. GitHub 파일을 검색하려면 콘텐츠를 선택한 텍스트 편집기로 복사하여 로컬에 .csv 파일로 저장합니다. 스토리지 계정에 파일을 업로드하려면 Azure 포털을 사용하여 Blob 업로드 참조하세요. 예제에서는 sample-data라는 컨테이너를 참조합니다.

데이터 팩터리 만들기

이 단계에서는 데이터 팩터리를 만들고, Data Factory UI를 열어서 데이터 팩터리에 파이프라인을 만듭니다.

Microsoft Edge 또는 Google Chrome을 엽니다. 현재 Microsoft Edge 및 Google Chrome 웹 브라우저만 Data Factory UI를 지원합니다.
왼쪽 메뉴에서 리소스 만들기>분석>Data Factory를 차례로 선택합니다.
새 데이터 팩터리 페이지의 이름 아래에서 ADFTutorialDataFactory를 입력합니다.

데이터 팩터리 이름은 전역적으로 고유해야 합니다. 이름 값에 대한 오류 메시지가 표시되면 데이터 팩터리에 대한 다른 이름(예: yournameADFTutorialDataFactory)을 입력합니다. Data Factory 아티팩트에 대한 명명 규칙은 Data Factory 명명 규칙을 참조하세요.
데이터 팩터리를 만들려는 Azure subscription 선택합니다.
리소스 그룹에 대해 다음 단계 중 하나를 사용합니다.
- 기존 항목 사용을 선택하고 드롭다운 목록에서 기존 리소스 그룹을 선택합니다.
- 새로 만들기를 선택하고, 리소스 그룹의 이름을 입력합니다.
리소스 그룹에 대한 자세한 내용은 리소스 그룹을 사용하여 Azure 리소스 관리 참조하세요.
버전에서 V2를 선택합니다.
위치에서 데이터 팩터리의 위치를 선택합니다. 지원되는 위치만 드롭다운 목록에 나타납니다. 데이터 팩터리에서 사용하는 데이터 저장소(예: Azure Storage 및 Azure SQL Database) 및 컴퓨팅(예: Azure HDInsight)은 다른 지역에 있을 수 있습니다.
만들기를 선택합니다.
만들기가 완료되면 알림 센터에 알림이 표시됩니다. 리소스로 이동을 선택하여 Data Factory 페이지로 이동합니다.
Open Azure Data Factory Studio를 선택하여 별도의 탭에서 Data Factory UI가 열립니다.

데이터 팩토리 관리형 가상 네트워크에서 Azure IR 생성하기

이 단계에서는 Azure IR을 만들고 Data Factory 관리형 Virtual Network 사용하도록 설정합니다.

Data Factory 포털에서 Manage로 이동하고 새로운를 선택하여 새 Azure IR을 만듭니다.

새로운 Azure IR 만들기를 보여주는 스크린샷.
통합 런타임 설정 페이지에서 필요한 기능을 기반으로 만들 통합 런타임을 선택합니다. 이 자습서에서는 Azure, 자체 호스팅을 선택한 다음 Continue 클릭합니다.
Azure 선택한 다음 Continue 을 클릭하여 Azure 통합 런타임을 만듭니다.
가상 네트워크 구성(미리 보기)에서 사용을 선택합니다.
만들기를 선택합니다.

데이터 흐름 작업으로 파이프라인 만들기

이 단계에서는 데이터 흐름 작업을 포함하는 파이프라인을 만듭니다.

Azure Data Factory 홈페이지에서 Orchestrate 선택합니다.
파이프라인의 속성 창에서 파이프라인 이름에 TransformMovies를 입력합니다.
작업 창에서 이동 및 변환을 확장합니다. Data Flow 작업을 창에서 파이프라인 캔버스로 끕니다.
데이터 흐름 추가 팝업에서 새 데이터 흐름 만들기를 선택한 후 데이터 흐름 매핑을 선택합니다. 작업이 완료되면 확인을 선택합니다.
속성 창에서 데이터 흐름의 이름을 TransformMovies로 지정합니다.
파이프라인 캔버스의 위쪽 막대에서 Data Flow 디버그 슬라이더를 켜세요. 디버그 모드에서는 라이브 Spark 클러스터에 대한 변환 논리의 대화형 테스트를 수행할 수 있습니다. Data Flow 클러스터를 준비하는 데 5~7분이 걸리며, 사용자는 Data Flow 개발을 계획하는 경우 먼저 디버그를 켜는 것이 좋습니다. 자세한 내용은 디버그 모드를 참조하세요.

데이터 흐름 캔버스에서 변환 논리 빌드

데이터 흐름을 만들면 데이터 흐름 캔버스로 자동 전송됩니다. 이 단계에서는 Data Lake Storage moviesDB.csv 파일을 사용하고 1910년부터 2000년까지 코미디의 평균 등급을 집계하는 데이터 흐름을 빌드합니다. 그런 다음 이 파일을 다시 Data Lake Storage 씁니다.

원본 변환 추가

이 단계에서는 Data Lake Storage Gen2 원본으로 설정합니다.

데이터 흐름 캔버스에서 원본 추가 상자를 선택하여 원본을 추가합니다.
원본 이름을 MoviesDB로 지정합니다. 새로 만들기를 선택하여 새 원본 데이터 세트를 만듭니다.
Azure Data Lake Storage Gen2 선택한 다음, Continue 선택합니다.
DelimitedText를 선택하고 계속을 클릭합니다.
데이터 세트를 MoviesDB로 지정합니다. 연결된 서비스 드롭다운에서 새로 만들기를 선택합니다.
연결된 서비스 만들기 화면에서 Data Lake Storage Gen2 연결된 서비스 ADLSGen2 이름을 지정하고 인증 방법을 지정합니다. 그런 다음 연결 자격 증명을 입력합니다. 이 자습서에서는 계정 키를 사용하여 스토리지 계정에 연결합니다.
대화형 작성을 사용하도록 설정해야 합니다. 사용하도록 설정하는 데 1분 정도 걸릴 수 있습니다.
연결 테스트를 클릭합니다. 스토리지 계정에서 프라이빗 엔드포인트를 생성 및 승인하지 않고서는 액세스를 허용하지 않기 때문에 실패합니다. 오류 메시지에는 관리형 프라이빗 엔드포인트를 만들기 위해 따를 수 있는 프라이빗 엔드포인트 만들기에 대한 링크가 표시됩니다. 또 다른 방법은 관리 탭으로 직접 이동하여 이 섹션의 지침에 따라 관리형 프라이빗 엔드포인트를 만드는 것입니다.
대화 상자를 열어 둔 채 스토리지 계정으로 이동합니다.
이 섹션의 지침에 따라 프라이빗 링크를 승인합니다.
대화 상자로 돌아갑니다. 연결 테스트를 다시 선택하고 만들기를 선택하여 연결된 서비스를 배포합니다.
데이터 세트 만들기 화면으로 돌아오면 파일 경로 입력란에 파일이 있는 위치를 입력합니다. 이 자습서에서 MoviesDB.csv 파일은 sample-data 컨테이너에 있습니다. 파일에 헤더가 있으므로 첫 번째 행을 헤더로 확인란을 선택합니다. 스토리지의 파일에서 직접 헤더 스키마를 가져오려면 연결/저장소에서를 선택합니다. 작업이 완료되면 확인을 선택합니다.
디버그 클러스터가 시작된 경우 원본 변환의 데이터 미리 보기 탭으로 이동하고 새로 고침을 선택하여 데이터의 스냅샷을 가져옵니다. 데이터 미리 보기를 사용하여 변환이 올바르게 구성되었는지 확인할 수 있습니다.

관리형 프라이빗 엔드포인트 만들기

이전 연결을 테스트할 때 하이퍼링크를 사용하지 않은 경우 경로를 따릅니다. 이제 만든 연결된 서비스에 연결할 관리형 프라이빗 엔드포인트를 만들어야 합니다.

관리 탭으로 이동합니다.

참고

일부 Data Factory 인스턴스에는 관리 탭을 사용할 수 없습니다. 표시되지 않으면 작성자>연결>프라이빗 엔드포인트를 선택하여 프라이빗 엔드포인트에 액세스할 수 있습니다.
관리형 프라이빗 엔드포인트 섹션으로 이동합니다.
관리형 프라이빗 엔드포인트에서 + 새로 만들기를 선택합니다.
목록에서 Azure Data Lake Storage Gen2 타일을 선택하고 Continue 선택합니다.
만든 스토리지 계정의 이름을 입력합니다.
만들기를 선택합니다.
몇 초 후면 만든 프라이빗 링크에 승인이 필요하다고 표시됩니다.
만든 프라이빗 엔드포인트를 선택합니다. 스토리지 계정 수준에서 프라이빗 엔드포인트를 승인하도록 안내하는 하이퍼링크가 표시됩니다.

스토리지 계정에서 프라이빗 링크 승인

스토리지 계정의 설정 섹션 아래에서 프라이빗 엔드포인트 연결로 이동합니다.
만든 프라이빗 엔드포인트의 확인란을 선택하고 승인을 선택합니다.
설명을 추가하고 예를 선택합니다.
Data Factory에서 관리 탭의 관리형 프라이빗 엔드포인트 섹션으로 돌아갑니다.
약 1분 후에 프라이빗 엔드포인트에 대한 승인이 표시됩니다.

필터 변환 추가

데이터 흐름 캔버스의 원본 노드 옆에 있는 더하기 아이콘을 선택하여 새 변환을 추가합니다. 추가할 첫 번째 변환은 필터입니다.
필터 변환의 이름을 FilterYears로 지정합니다. 필터 설정 옆에 있는 식 상자를 선택하여 식 작성기를 엽니다. 여기에서 필터링 조건을 지정합니다.
데이터 흐름 식 작성기를 사용하면 다양한 변환에 사용할 식을 대화형으로 작성할 수 있습니다. 식에는 기본 제공 함수, 입력 스키마의 열 및 사용자 정의 매개 변수가 포함될 수 있습니다. 식 작성 방법에 대한 자세한 내용은 데이터 흐름 식 작성기를 참조하세요.
- 이 자습서에서는 1910년과 2000년 사이의 코미디 영화를 필터링하려고 합니다. 연도는 현재 문자열이므로 toInteger() 함수를 사용하여 정수로 변환해야 합니다. 크거나 같음(>=) 및 작거나 같음(<=) 연산자를 사용하여 리터럴 연도 값 1910 및 2000을 비교합니다. 이 식을 and(&&) 연산자로 결합합니다. 표현식은 다음과 같이 나타납니다.
  
  toInteger(year) >= 1910 && toInteger(year) <= 2000
- 코미디 영화를 찾으려면 rlike() 함수를 사용하여 장르 열에서 'Comedy' 패턴을 찾을 수 있습니다. rlike 표현식을 연도 비교와 결합하여 다음을 얻습니다.
  
  toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')
- 디버그 클러스터가 활성화된 경우 새로 고침을 선택하여 사용된 입력과 비교한 다음 식 출력을 확인하여 논리를 확인할 수 있습니다. 데이터 흐름 식 언어를 사용하여 이 논리를 수행하는 방법에는 두 개 이상의 정답이 있습니다.
- 식을 완료한 후 저장 및 마침을 선택합니다.
필터가 제대로 작동하는지 확인하려면 데이터 미리 보기를 가져옵니다.

집계 변환 추가

다음으로 추가할 변환은 스키마 한정자 아래의 집계 변환입니다.
집계 변환의 이름을 AggregateComedyRating으로 지정합니다. 그룹화 기준 탭의 드롭다운 상자에서 연도를 선택하여 영화의 발표 연도별로 집계를 그룹화합니다.
집계 탭으로 이동합니다. 왼쪽 텍스트 상자에서 집계 열의 이름을 AverageComedyRating으로 지정합니다. 식 작성기를 통해 집계 식을 입력하려면 오른쪽 식 상자를 선택합니다.
Rating 열의 평균을 구하려면 avg() 집계 함수를 사용합니다. Rating은 문자열이고 avg()은 숫자 입력을 사용하기 때문에 toInteger() 함수를 통해 값을 숫자로 변환해야 합니다. 이 식은 다음과 같습니다.

avg(toInteger(Rating))
완료 후 저장 및 마침을 선택합니다.
변환 출력을 보려면 데이터 미리 보기 탭으로 이동합니다. year와 AverageComedyRating이라는 두 개의 열만 있습니다.

싱크 변환 추가

다음으로 대상 아래에 싱크 변환을 추가하려고 합니다.
싱크 이름을 Sink로 지정합니다. 새로 만들기를 선택하여 싱크 데이터 세트를 만듭니다.
새 데이터 세트 페이지에서 Azure Data Lake Storage Gen2을 선택한 다음, Continue를 선택합니다.
형식 선택 페이지에서 DelimitedText를 선택하고 계속을 선택합니다.
싱크 데이터 세트의 이름을 MoviesSink로 지정합니다. 연결된 서비스의 경우 원본 변환에 대해 만든 것과 동일한 ADLSGen2 연결된 서비스를 선택합니다. 데이터를 쓸 출력 폴더를 입력합니다. 이 자습서에서는 컨테이너 sample-data의 폴더 output에 쓰고 있습니다. 폴더는 미리 존재하지 않아도 되며 동적으로 만들 수 있습니다. 첫 번째 행을 헤더로 확인란을 선택한 다음, 스키마 가져오기에 대해 없음을 선택합니다. 확인을 선택합니다.

이제 데이터 흐름 빌드를 마쳤습니다. 파이프라인에서 실행할 준비가 되었습니다.

데이터 흐름 실행 및 모니터링

파이프라인을 게시하기 전에 디버그할 수 있습니다. 이 단계에서는 데이터 흐름 파이프라인의 디버그 실행을 트리거합니다. 데이터 미리 보기는 데이터를 쓰지 않지만 디버그 실행은 싱크 대상에 데이터를 씁니다.

파이프라인 캔버스로 이동합니다. 디버그 실행을 트리거하려면 디버그를 선택합니다.
데이터 흐름 활동의 파이프라인 디버깅은 활성 디버그 클러스터를 사용하지만 여전히 초기화하는 데 1분 이상 걸립니다. 출력 탭을 통해 진행률을 추적할 수 있습니다. 실행이 성공하면 실행 세부 정보에 대한 안경 아이콘을 선택합니다.
세부 정보 페이지에서 각 변환 단계에서 소요된 시간 및 행 수를 확인할 수 있습니다.
변환을 선택하면 데이터의 열 및 분할에 대한 자세한 정보를 볼 수 있습니다.

이 자습서를 올바르게 수행했다면 싱크 폴더에 83개의 행과 2개의 열이 작성되어 있을 것입니다. Blob Storage를 확인하여 데이터가 올바른지 확인할 수 있습니다.

요약

이 자습서에서는 Data Factory UI를 사용하여, Azure Data Factory 관리형 가상 네트워크에서 매핑 데이터 흐름을 이용해 Data Lake Storage Gen2 원본에서 Data Lake Storage Gen2 싱크로 데이터를 복사하고 변환하는 파이프라인을 만들었습니다(두 요소 모두 선택한 네트워크에 대한 액세스만 허용합니다).

피드백

이 페이지가 도움이 되었나요?

Last updated on 2026-04-07