다음을 통해 공유


Microsoft Fabric에서 데이터 랭글러를 사용하여 데이터 준비를 가속화하는 방법

데이터 랭글러 도구는 예비 데이터 분석을 위한 몰입형 인터페이스를 제공하는 Notebook 기반 리소스입니다. 그리드와 유사한 데이터 디스플레이를 동적 요약 통계, 기본 제공 시각화 및 일반적인 데이터 정리 작업의 라이브러리와 결합합니다. 몇 단계로 각 작업을 적용할 수 있습니다. 데이터 디스플레이를 실시간으로 업데이트하고 다시 사용할 수 있는 함수로 Notebook에 다시 저장할 수 있는 pandas 또는 PySpark에서 코드를 생성할 수 있습니다. 이 문서에서는 pandas DataFrames의 탐색 및 변환에 중점을 둡니다. Spark DataFrames에서 데이터 랭글러를 사용하는 방법에 대한 자세한 내용은 이 리소스를 참조 하세요.

필수 조건

제한 사항

  • 사용자 지정 코드 작업은 현재 pandas DataFrames에 대해서만 지원됩니다.
  • 데이터 랭글러 디스플레이는 더 작은 화면을 수용하기 위해 인터페이스의 다른 부분을 최소화하거나 숨길 수 있지만 큰 모니터에서 가장 잘 작동합니다.

데이터 랭글러 시작

Microsoft Fabric Notebook에서 직접 데이터 랭글러를 시작하여 pandas 또는 Spark DataFrame을 탐색하고 변환할 수 있습니다. Spark DataFrames에서 데이터 랭글러를 사용하는 방법에 대한 자세한 내용은 이 도우미 문서를 참조 하세요. 이 코드 조각은 샘플 데이터를 pandas DataFrame으로 읽는 방법을 보여 줍니다.

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

전자 필기장 리본 "홈" 탭에서 데이터 랭글러 드롭다운 프롬프트를 사용하여 편집에 사용할 수 있는 활성 데이터 프레임을 찾습니다. 데이터 랭글러에서 열려는 항목을 선택합니다.

Notebook 커널이 사용 중인 동안에는 데이터 랭글러를 열 수 없습니다. 실행 중인 셀은 다음 스크린샷과 같이 데이터 랭글러가 실행되기 전에 실행을 완료해야 합니다.

데이터 랭글러 드롭다운 프롬프트가 있는 Fabric Notebook을 보여 주는 스크린샷

사용자 지정 샘플 선택

데이터 랭글러를 사용하여 활성 DataFrame의 사용자 지정 샘플을 열려면 다음 스크린샷과 같이 드롭다운에서 "사용자 지정 샘플 선택"을 선택합니다.

사용자 지정 샘플 옵션이 설명된 데이터 랭글러 드롭다운 프롬프트를 보여 주는 스크린샷

그러면 원하는 샘플의 크기(행 수) 및 샘플링 방법(첫 번째 레코드, 마지막 레코드 또는 임의 집합)을 지정하는 옵션이 포함된 팝업이 시작됩니다. DataFrame의 처음 5,000개 행은 다음 스크린샷과 같이 기본 샘플 크기로 사용됩니다.

데이터 랭글러 사용자 지정 샘플 프롬프트를 보여 주는 스크린샷.

요약 통계 보기

데이터 랭글러가 로드되면 "요약" 패널에 선택한 데이터 프레임에 대한 설명적인 개요가 표시됩니다. 이 개요에는 DataFrame 차원, 누락된 값 등에 대한 정보가 포함되어 있습니다. 데이터 랭글러 그리드에서 열을 선택하면 "요약" 패널에 해당 특정 열에 대한 설명 통계를 업데이트하고 표시하라는 메시지가 표시됩니다. 모든 열에 대한 빠른 인사이트는 헤더에서도 사용할 수 있습니다.

열별 통계 및 시각적 개체("요약" 패널 및 열 머리글 모두)는 열 데이터 형식에 따라 달라집니다. 예를 들어 이 스크린샷과 같이 열이 숫자 형식으로 캐스팅되는 경우에만 숫자 열의 범주화된 히스토그램이 열 머리글에 나타납니다.

데이터 랭글러 표시 그리드 및 요약 패널을 보여 주는 스크린샷

데이터 정리 작업 찾아보기

검색 가능한 데이터 정리 단계 목록은 "작업" 패널에서 찾을 수 있습니다. "작업" 패널에서 데이터 정리 단계를 선택하면 단계를 완료하는 데 필요한 매개 변수와 함께 대상 열 또는 열을 제공하라는 메시지가 표시됩니다. 예를 들어 열의 숫자 크기를 조정하라는 프롬프트에는 다음 스크린샷과 같이 새 값 범위가 필요합니다.

데이터 랭글러 작업 패널을 보여 주는 스크린샷

이 스크린샷에 표시된 것처럼 각 열 머리글의 메뉴에서 더 작은 작업 선택을 적용할 수 있습니다.

열 머리글 메뉴에서 적용할 수 있는 데이터 랭글러 작업을 보여 주는 스크린샷

작업 미리 보기 및 적용

데이터 랭글러 표시 그리드는 선택한 작업의 결과를 자동으로 미리 볼 수 있으며, 해당 코드는 표 아래 패널에 자동으로 표시됩니다. 미리 보기 코드를 커밋하려면 어느 위치에서든 "적용"을 선택합니다. 미리 보기 코드를 삭제하고 새 작업을 시도하려면 이 스크린샷에 표시된 대로 "취소"를 선택합니다.

진행 중인 데이터 랭글러 작업을 보여 주는 스크린샷

작업이 적용되면 데이터 랭글러는 결과를 반영하도록 그리드 및 요약 통계를 업데이트합니다. 코드는 다음 스크린샷과 같이 "정리 단계" 패널에 있는 커밋된 작업의 실행 목록에 표시됩니다.

적용된 데이터 랭글러 작업을 보여 주는 스크린샷

항상 가장 최근에 적용된 단계를 실행 취소할 수 있습니다. 이 스크린샷과 같이 가장 최근에 적용된 단계 위로 커서를 가져가면 "정리 단계" 패널에 휴지통 아이콘이 표시됩니다.

실행 취소할 수 있는 데이터 랭글러 작업을 보여 주는 스크린샷

이 표에서는 Data Wrangler가 현재 지원하는 작업을 요약합니다.

연산 설명
Sort 열을 오름차순 또는 내림차순으로 정렬
Filter 하나 이상의 조건에 따라 행 필터링
원 핫 인코딩 기존 열의 각 고유 값에 대한 새 열을 만들어 행당 해당 값의 존재 여부 또는 없음을 나타냅니다.
구분 기호를 사용하여 원 핫 인코딩 구분 기호를 사용하여 범주 데이터 분할 및 원 핫 인코딩
열 형식 변경 열의 데이터 형식 변경
열 삭제 하나 이상의 열 삭제
열 선택 유지할 열을 하나 이상 선택하고 나머지는 삭제합니다.
열 이름 바꾸기 열 이름 바꾸기
누락된 값 삭제 누락된 값이 있는 행 제거
중복 행 삭제 하나 이상의 열에 중복 값이 있는 모든 행 삭제
누락된 값 채우기 셀을 누락된 값으로 새 값으로 바꾸기
찾기 및 바꾸기 셀을 정확히 일치하는 패턴으로 바꾸기
열 및 집계별로 그룹화 열 값 및 집계 결과별로 그룹화
공백 제거 텍스트의 시작과 끝에서 공백 제거
텍스트 분할 사용자 정의 구분 기호에 따라 열을 여러 열로 분할
텍스트를 소문자로 변환 텍스트를 소문자로 변환
텍스트를 대문자로 변환 텍스트를 대문자로 변환
최소/최대값 크기 조정 최소값과 최대값 사이의 숫자 열 크기 조정
빠른 채우기 기존 열에서 파생된 예제를 기반으로 새 열을 자동으로 만듭니다.

디스플레이 수정

언제든지 데이터 랭글러 표시 눈금 위에 있는 도구 모음에서 "보기" 탭을 사용하여 인터페이스를 사용자 지정할 수 있습니다. 이 스크린샷과 같이 기본 설정 및 화면 크기에 따라 다른 창을 숨기거나 표시할 수 있습니다.

표시 보기를 사용자 지정하기 위한 데이터 랭글러 메뉴를 보여 주는 스크린샷

코드 저장 및 내보내기

데이터 랭글러 표시 그리드 위의 도구 모음은 생성된 코드를 저장하는 옵션을 제공합니다. 코드를 클립보드에 복사하거나 Notebook에 함수로 내보낼 수 있습니다. 코드를 내보내면 데이터 랭글러가 닫히고 Notebook의 코드 셀에 새 함수가 추가됩니다. 정리된 DataFrame을 csv 파일로 다운로드할 수도 있습니다.

데이터 랭글러는 새 셀을 수동으로 실행할 때만 적용되는 코드를 생성하며, 이 스크린샷과 같이 원래 DataFrame을 덮어쓰지 않습니다.

데이터 랭글러에서 코드를 내보내는 옵션을 보여 주는 스크린샷

그런 다음, 이 스크린샷과 같이 내보낸 코드를 실행할 수 있습니다.

Data Wrangler가 Notebook에서 다시 생성한 코드를 보여 주는 스크린샷

  • Spark DataFrames에서 데이터 랭글러를 사용해 보려면 이 도우미 문서를 참조 하세요.
  • 패브릭의 데이터 랭글러의 라이브 액션 데모를 보려면 큐브의 Guy에서 친구로부터 이 비디오를 확인 하세요.
  • Visual Studio Code에서 데이터 랭글러를 사용해 보려면 VS Code의 데이터 랭글러로 향 하세요.
  • 필요한 기능을 누락했나요? Microsoft에 보낼 수 있습니다! 패브릭 아이디어 포럼에서 제안