Microsoft Fabric에서 데이터 랭글러를 사용하여 데이터 준비를 가속화하는 방법
데이터 랭글러는 예비 데이터 분석을 위한 몰입형 인터페이스를 사용자에게 제공하는 Notebook 기반 도구입니다. 이 기능은 그리드와 같은 데이터 디스플레이를 동적 요약 통계, 기본 제공 시각화 및 일반적인 데이터 클린 작업 라이브러리와 결합합니다. 각 작업은 클릭으로 적용할 수 있으며, 실시간으로 데이터 표시를 업데이트하고, 다시 사용할 수 있는 함수로 Notebook에 다시 저장할 수 있는 pandas 또는 PySpark에서 코드를 생성할 수 있습니다. 이 문서에서는 pandas DataFrames를 탐색하고 변환하는 데 중점을 둡니다. Spark DataFrames에서 데이터 랭글러를 사용하는 방법에 대한 지침은 여기에서 확인할 수 있습니다.
필수 조건
Microsoft Fabric 구독을 가져옵니다. 또는 무료 Microsoft Fabric 평가판에 등록합니다.
Microsoft Fabric에 로그인합니다.
홈페이지 왼쪽의 환경 전환기를 사용하여 Synapse 데이터 과학 환경으로 전환합니다.
제한 사항
- 데이터 랭글러는 현재 일반 공급의 pandas 코드 생성과 공개 미리 보기의 Spark 코드 생성 을 지원합니다.
- 사용자 지정 코드 작업은 현재 pandas DataFrames에 대해서만 지원됩니다.
- 데이터 랭글러의 디스플레이는 대형 모니터에서 가장 잘 작동하지만, 더 작은 화면을 수용하기 위해 인터페이스의 여러 부분을 최소화하거나 숨길 수 있습니다.
데이터 랭글러 시작
Microsoft Fabric Notebook에서 직접 데이터 랭글러를 시작하여 pandas 또는 Spark DataFrame을 탐색하고 변환할 수 있습니다. Spark DataFrames에서 데이터 랭글러를 사용하는 방법에 대한 개요는 이 도우미 문서를 참조하세요. 아래 코드 조각은 샘플 데이터를 pandas DataFrame으로 읽는 방법을 보여 줍니다.
import pandas as pd
# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)
전자 필기장 리본 "데이터" 탭 아래에서 데이터 랭글러 드롭다운 프롬프트를 사용하여 편집할 수 있는 활성 데이터 프레임을 찾아봅니다. 데이터 랭글러에서 열려는 항목을 선택합니다.
팁
Notebook 커널이 사용 중인 동안에는 데이터 랭글러를 열 수 없습니다. 데이터 랭글러를 실행하려면 실행 중인 셀이 실행을 완료해야 합니다.
사용자 지정 샘플 선택
데이터 랭글러를 사용하면 드롭다운에서 "사용자 지정 샘플 선택"을 선택하여 활성 DataFrame의 사용자 지정 샘플을 열 수 있습니다. 이렇게 하면 원하는 샘플의 크기(행 수) 및 샘플링 방법(첫 번째 레코드, 마지막 레코드 또는 임의 집합)을 지정하는 옵션이 포함된 팝업이 시작됩니다.
요약 통계 보기
데이터 랭글러가 로드되면 요약 패널에 선택한 데이터 프레임에 대한 설명적인 개요가 표시됩니다. 이 개요에는 DataFrame의 차원, 누락된 값 등에 대한 정보가 포함되어 있습니다. 데이터 랭글러 그리드에서 열을 선택하면 요약 패널에 해당 특정 열에 대한 설명 통계를 업데이트하고 표시하라는 메시지가 표시됩니다. 모든 열에 대한 빠른 인사이트는 헤더에서도 사용할 수 있습니다.
팁
열별 통계 및 시각적 개체(요약 패널 및 열 머리글 모두)는 열 데이터 형식에 따라 달라집니다. 예를 들어 열이 숫자 형식으로 캐스팅되는 경우에만 숫자 열의 범주화된 히스토그램이 열 머리글에 표시됩니다. 작업 패널을 사용하여 가장 정확한 표시를 위해 열 형식을 다시 캐스팅합니다.
데이터 클린 작업 찾아보기
데이터 클린 단계의 검색 가능한 목록은 작업 패널에서 찾을 수 있습니다. (동일한 작업의 작은 선택은 각 열 머리글의 메뉴에서 사용할 수 있습니다.) 작업 패널에서 데이터 클린 단계를 선택하면 단계를 완료하는 데 필요한 매개 변수와 함께 대상 열 또는 열을 제공하라는 메시지가 표시됩니다. 예를 들어 열 크기를 숫자로 조정하라는 프롬프트에는 새 값 범위가 필요합니다.
작업 미리 보기 및 적용
선택한 작업의 결과는 데이터 랭글러 디스플레이 그리드에서 자동으로 미리 보기되고 해당 코드는 표 아래 패널에 자동으로 표시됩니다. 미리 보기 코드를 커밋하려면 어느 위치에서든 "적용"을 선택합니다. 미리 보기 코드를 제거하고 새 작업을 시도하려면 "Dis카드"를 선택합니다.
작업이 적용되면 데이터 랭글러는 결과를 반영하도록 그리드 및 요약 통계를 업데이트합니다. 코드는 정리 단계 패널에 있는 커밋된 작업의 실행 목록에 표시됩니다.
팁
휴지통 아이콘 옆에 있는 가장 최근에 적용된 단계를 항상 실행 취소할 수 있습니다. 이 단계는 정리 단계 패널에서 해당 단계 위로 커서를 가져가면 나타납니다.
다음 표에서는 데이터 랭글러가 현재 지원하는 작업을 요약합니다.
연산 | 설명 |
---|---|
Sort | 열을 오름차순 또는 내림차순으로 정렬 |
Filter | 하나 이상의 조건에 따라 행 필터링 |
원 핫 인코딩 | 기존 열의 각 고유 값에 대한 새 열을 만들어 행당 해당 값의 존재 여부 또는 없음을 나타냅니다. |
구분 기호를 사용하여 원 핫 인코딩 | 구분 기호를 사용하여 범주 데이터 분할 및 원 핫 인코딩 |
열 형식 변경 | 열의 데이터 형식 변경 |
열 삭제 | 하나 이상의 열 삭제 |
열 선택 | 유지할 열을 하나 이상 선택하고 나머지는 삭제합니다. |
열 이름 바꾸기 | 열 이름 바꾸기 |
누락된 값 삭제 | 누락된 값이 있는 행 제거 |
중복 행 삭제 | 하나 이상의 열에 중복 값이 있는 모든 행 삭제 |
누락된 값 채우기 | 셀을 누락된 값으로 새 값으로 바꾸기 |
찾기 및 바꾸기 | 셀을 정확히 일치하는 패턴으로 바꾸기 |
열 및 집계별로 그룹화 | 열 값 및 집계 결과별로 그룹화 |
공백 제거 | 텍스트의 시작과 끝에서 공백 제거 |
텍스트 분할 | 사용자 정의 구분 기호에 따라 열을 여러 열로 분할 |
텍스트를 소문자로 변환 | 텍스트를 소문자로 변환 |
텍스트를 대문자로 변환 | 텍스트를 대문자로 변환 |
최소/최대값 크기 조정 | 최소값과 최대값 사이의 숫자 열 크기 조정 |
빠른 채우기 | 기존 열에서 파생된 예제를 기반으로 새 열을 자동으로 만듭니다. |
코드 저장 및 내보내기
데이터 랭글러 표시 그리드 위의 도구 모음은 생성된 코드를 저장하는 옵션을 제공합니다. 코드를 클립보드에 복사하거나 Notebook으로 함수로 내보낼 수 있습니다. 코드를 내보내면 데이터 랭글러가 닫히고 Notebook의 코드 셀에 새 함수가 추가됩니다. 클린 DataFrame을 csv 파일로 다운로드할 수도 있습니다.
팁
데이터 랭글러에서 생성된 코드는 새 셀을 수동으로 실행할 때까지 적용되지 않으며 원래 DataFrame을 덮어쓰지 않습니다.
관련 콘텐츠
- Spark DataFrames에서 데이터 랭글러를 사용해 보려면 이 도우미 문서를 참조 하세요.
- VS Code에서 데이터 랭글러를 사용해 보려면 VS Code의 데이터 랭글러를 참조하세요.
피드백
https://aka.ms/ContentUserFeedback
출시 예정: 2024년 내내 콘텐츠에 대한 피드백 메커니즘으로 GitHub 문제를 단계적으로 폐지하고 이를 새로운 피드백 시스템으로 바꿀 예정입니다. 자세한 내용은 다음을 참조하세요.다음에 대한 사용자 의견 제출 및 보기