중요하다
이 설명서는 사용 중지되었으며 업데이트되지 않을 수 있습니다. bamboolib은 더 이상 사용되지 않습니다. 코드 생성에 대한 지원은 Databricks Assistant참조하세요.
메모
bamboolib는 Databricks Runtime 11.3 LTS 이상에서 지원됩니다.
bamboolib는 Azure Databricks Notebook내에서 코드 없는 데이터 분석 및 변환을 허용하는 사용자 인터페이스 구성 요소입니다. bamboolib을 사용하면 사용자가 데이터를 더 쉽게 작업할 수 있으며 일반적인 데이터 랭글링, 탐색 및 시각화 작업의 속도를 높일 수 있습니다. 사용자가 데이터로 이러한 종류의 작업을 완료하면 bamboolib은 백그라운드에서 Python 코드를 자동으로 생성합니다. 사용자는 이 코드를 다른 사용자와 공유할 수 있으며, 사용자는 자신의 Notebook에서 이 코드를 실행하여 원래 작업을 신속하게 재현할 수 있습니다. 또한 bamboolib을 사용하여 코딩 방법을 알 필요 없이 추가 데이터 작업으로 원래 작업을 확장할 수도 있습니다. 코딩 경험이 있는 사용자는 이 코드를 확장하여 훨씬 더 정교한 결과를 만들 수 있습니다.
백그라운드에서 bamboolib는 IPython 커널대한 대화형 HTML 위젯 프레임워크인 ipywidgets사용합니다. ipywidgets는 IPython 커널내에서 실행됩니다.
목차
요구 사항
Databricks Runtime 11.0 이상으로 Azure Databricks클러스터 연결된 Azure Databricks Notebook .-
bamboolib라이브러리는 Notebook에서 사용할 수 있어야 합니다.- 특정 클러스터에만 PyPI에서 라이브러리를 설치하려면 컴퓨팅 범위 라이브러리를 참조하세요.
- 특정 노트북에서만 라이브러리를 사용하도록 하려면
%pip명령을 사용하십시오. 자세한 내용은 노트북 범위 Python 라이브러리 를 참조하세요.
빠른 시작
Python 노트북을 만드십시오.
연결합니다.요구 사항을 충족하는 클러스터에 notebook Notebook의 첫 번째 셀에서 다음 코드를 입력한 다음 셀을 실행 합니다. bamboolib이 작업 영역 또는 클러스터이미 설치되어
경우 이 단계를 건너뜁니다. %pip install bamboolibNotebook의 두 번째 셀에서 다음 코드를 입력한 다음 셀을 실행합니다.
import bamboolib as bamNotebook의 세 번째 셀에서 다음 코드를 입력한 다음 셀을 실행합니다.
bam메모
또는 기존 pandas DataFrame
인쇄하여 해당 특정 DataFrame에 사용할 bamboolib를 표시할 수 있습니다. 주요 작업을 계속합니다.
워크스루
bamboolib을 단독으로 사용하거나 기존 pandas DataFrame 와 함께사용할 수 있습니다.
bamboolib을 단독으로 사용하십시오.
이 연습에서는 bamboolib을 사용하여 Notebook에 예제 판매 데이터 집합의 내용을 표시합니다. 그런 다음 bamboolib에서 자동으로 생성하는 관련 노트북 코드 중 일부를 실험해봅니다. 판매 데이터 세트 내용의 복사본을 쿼리하고 정렬하여 완료합니다.
Python 노트북을 만드십시오.
연결합니다.요구 사항을 충족하는 클러스터에 notebook Notebook의 첫 번째 셀에서 다음 코드를 입력한 다음 셀을 실행 합니다. bamboolib이 작업 영역 또는 클러스터이미 설치되어
경우 이 단계를 건너뜁니다. %pip install bamboolibNotebook의 두 번째 셀에서 다음 코드를 입력한 다음 셀을 실행합니다.
import bamboolib as bamNotebook의 세 번째 셀에서 다음 코드를 입력한 다음 셀을 실행합니다.
bam더미 데이터
로드를 클릭합니다. 더미 데이터 로드 창에서 bamboolib테스트하기 위해 더미 데이터 집합을 로드하려면 Sales 데이터 세트선택합니다.
을 클릭하고을 실행합니다.
item_type 이유식모든 행을 표시합니다. - 검색 작업 목록에서 행 필터링선택합니다.
필터 행 창의선택 목록( 위)에서행을 선택합니다. - 아래 목록에서item_type선택합니다.
목록에서값을 가진item_type 옆에 있는를 선택합니다. - 값을 가진
옆의 상자에서 값을 선택하고, 이유식을(를) 로 선택합니다. - 을 클릭하고을 실행합니다.
이 쿼리에 대해 자동으로 생성된 Python 코드를 복사합니다.
- Cick 데이터 미리 보기 아래에 코드 복사합니다.
코드를 붙여넣고 수정합니다.
Notebook의 네 번째 셀에 복사한 코드를 붙여넣습니다. 다음과 같이 표시됩니다.
import pandas as pd df = pd.read_csv(bam.sales_csv) # Step: Keep rows where item_type is one of: Baby Food df = df.loc[df['item_type'].isin(['Baby Food'])]C
order_prio 행만 표시하도록 이 코드에 추가한 다음, 셀을 실행합니다. import pandas as pd df = pd.read_csv(bam.sales_csv) # Step: Keep rows where item_type is one of: Baby Food df = df.loc[df['item_type'].isin(['Baby Food'])] # Add the following code. # Step: Keep rows where order_prio is one of: C df = df.loc[df['order_prio'].isin(['C'])] df
조언
이 코드를 작성하는 대신 세 번째 셀에서 bamboolib를 사용하여
order_prio C행만 표시하여 동일한 작업을 수행할 수도 있습니다. 이 단계는 bamboolib가 이전에 자동으로 생성한 코드를 확장하는 예제입니다. 영역 기준으로 행을 오름차순으로 정렬합니다.
- 네 번째 셀의 위젯에서, 검색 작업 목록에서 행 정렬을 선택합니다.
- 정렬 열 패널에서 선택 열 목록에서 지역을(를) 선택합니다.
- 지역옆의 목록에서 오름차순(A-Z)선택합니다.
- 을 클릭하고을 실행합니다.
메모
이는 다음 코드를 직접 작성하는 것과 같습니다.
df = df.sort_values(by=['region'], ascending=[True]) df또한 세 번째 셀에서 bamboolib을 사용하여 영역 오름차순으로 행을 정렬할 수도 있습니다. 이 단계에서는 bamboolib을 사용하여 작성하는 코드를 확장하는 방법을 보여 줍니다. bamboolib을 사용하면 백그라운드에서 자동으로 추가 코드를 생성하므로 이미 확장된 코드를 추가로 확장할 수 있습니다.
주요 작업을 계속합니다.
기존 DataFrame에서 bamboolib 사용
이 가이드에서는 bamboolib을 사용하여 노트북에서 pandas DataFrame내용을 보여줍니다. 이 DataFrame에는 예제 판매 데이터 집합의 복사본이 포함되어 있습니다. 그런 다음 bamboolib에서 자동으로 생성하는 관련 노트북 코드 중 일부를 실험해봅니다. DataFrame의 일부 내용을 쿼리하고 정렬하여 완료합니다.
Python 노트북을 만드십시오.
연결합니다.요구 사항을 충족하는 클러스터에 notebook Notebook의 첫 번째 셀에서 다음 코드를 입력한 다음 셀을 실행 합니다. bamboolib이 작업 영역 또는 클러스터이미 설치되어
경우 이 단계를 건너뜁니다. %pip install bamboolibNotebook의 두 번째 셀에서 다음 코드를 입력한 다음 셀을 실행합니다.
import bamboolib as bamNotebook의 세 번째 셀에서 다음 코드를 입력한 다음 셀을 실행합니다.
import pandas as pd df = pd.read_csv(bam.sales_csv) dfbamboolib은 pandas DataFrames지원합니다. PySpark DataFrame을 pandas DataFrame으로 변환하려면 PySpark DataFrame에서 toPandas 호출합니다. Spark DataFrame 상에서의 Pandas API를 pandas DataFrame으로 변환하려면, Spark DataFrame의 Pandas API에서 to_pandas를 호출하세요.
bamboolib UI 표시을 클릭합니다.
item_type 이유식모든 행을 표시합니다. - 검색 작업 목록에서 행 필터링선택합니다.
필터 행 창의선택 목록( 위)에서행을 선택합니다. - 아래 목록에서item_type선택합니다.
목록에서값을 가진item_type 옆에 있는를 선택합니다. - 값을 가진
옆의 상자에서 값을 선택하고, 이유식을(를) 로 선택합니다. - 을 클릭하고을 실행합니다.
이 쿼리에 대해 자동으로 생성된 Python 코드를 복사합니다. 이렇게 하려면 데이터 미리보기 아래의 코드 복사를 클릭하세요.
코드를 붙여넣고 수정합니다.
Notebook의 네 번째 셀에 복사한 코드를 붙여넣습니다. 다음과 같이 표시됩니다.
# Step: Keep rows where item_type is one of: Baby Food df = df.loc[df['item_type'].isin(['Baby Food'])]C
order_prio 행만 표시하도록 이 코드에 추가한 다음, 셀을 실행합니다. # Step: Keep rows where item_type is one of: Baby Food df = df.loc[df['item_type'].isin(['Baby Food'])] # Add the following code. # Step: Keep rows where order_prio is one of: C df = df.loc[df['order_prio'].isin(['C'])] df
조언
이 코드를 작성하는 대신 세 번째 셀에서 bamboolib를 사용하여
order_prio C행만 표시하여 동일한 작업을 수행할 수도 있습니다. 이 단계는 bamboolib가 이전에 자동으로 생성한 코드를 확장하는 예제입니다. 영역 기준으로 행을 오름차순으로 정렬합니다.
a. 네 번째 셀의 위젯에서 행 정렬을 클릭합니다.
- 정렬 열 패널에서 선택 열 목록에서 지역을(를) 선택합니다.
- 지역옆의 목록에서 오름차순(A-Z)선택합니다.
- 을 클릭하고을 실행합니다.
메모
이는 다음 코드를 직접 작성하는 것과 같습니다.
df = df.sort_values(by=['region'], ascending=[True]) df또한 세 번째 셀에서 bamboolib을 사용하여 영역 오름차순으로 행을 정렬할 수도 있습니다. 이 단계에서는 bamboolib을 사용하여 작성하는 코드를 확장하는 방법을 보여 줍니다. bamboolib을 사용하면 백그라운드에서 자동으로 추가 코드를 생성하므로 이미 확장된 코드를 추가로 확장할 수 있습니다.
주요 작업을 계속합니다.
주요 작업
이 섹션에서는 다음을 수행합니다.
셀에 위젯 추가
시나리오: bamboolib 위젯을 셀에 표시하려고 합니다.
bamboolib이 작업 영역 또는 클러스터에 아직 설치되지 않은 경우 notebook의 셀에서 다음 코드를 실행해야 첫 번째 셀에서 다음 코드를 실행합니다.
%pip install bamboolib다음 코드를 Notebook의 첫 번째 또는 두 번째 셀에서 실행합니다.
import bamboolib as bam옵션 1: 위젯을 표시할 셀에서 다음 코드를 추가한 다음 셀을 실행합니다.
bam위젯은 코드 아래 셀에 나타납니다.
또는:
옵션 2: pandas DataFrame에 대한 참조가 포함된 셀에서 DataFrame을 출력합니다. 예를 들어 다음 DataFrame 정의가 지정된 경우 셀을 실행합니다.
import pandas as pd from datetime import datetime, date df = pd.DataFrame({ 'a': [ 1, 2, 3 ], 'b': [ 2., 3., 4. ], 'c': [ 'string1', 'string2', 'string3' ], 'd': [ date(2000, 1, 1), date(2000, 2, 1), date(2000, 3, 1) ], 'e': [ datetime(2000, 1, 1, 12, 0), datetime(2000, 1, 2, 12, 0), datetime(2000, 1, 3, 12, 0) ] }) df위젯은 코드 아래 셀에 나타납니다.
bamboolib은 pandas DataFrames지원합니다. PySpark DataFrame을 pandas DataFrame으로 변환하려면 PySpark DataFrame에서 toPandas 호출합니다. Spark DataFrame 상에서의 Pandas API를 pandas DataFrame으로 변환하려면, Spark DataFrame의 Pandas API에서 to_pandas를 호출하세요.
위젯 지우기
시나리오: 위젯의 내용을 지우고 새 데이터를 기존 위젯으로 읽으려고 합니다.
옵션 1: 대상 위젯이 포함된 셀 내에서 다음 코드를 실행합니다.
bam
위젯은 Databricks: DBFS에서 CSV 파일 읽기, Databricks: 데이터베이스 테이블 로드, 그리고 더미 데이터 로드 단추를 지운 후 다시 표시합니다.
메모
오류가 name 'bam' is not defined 표시되면 Notebook의 첫 번째 셀에서 다음 코드를 실행한 다음 다시 시도합니다.
import bamboolib as bam
옵션 2: pandas DataFrame대한 참조가 포함된 셀에서 셀을 다시 실행하여 DataFrame을 다시 출력합니다. 위젯이 지워지고 새 데이터가 표시됩니다.
데이터 로드 작업
이 섹션에서는 다음을 수행합니다.
위젯에 예제 데이터 세트의 내용을 읽습니다.
시나리오: 위젯의 기능을 테스트할 수 있도록 몇 가지 예제 데이터를 위젯으로 읽으려고 합니다. 예를 들어 일부 판매 데이터를 가장합니다.
더미 데이터
로드를 클릭합니다. 메모
더미 데이터가 보이지 않을 경우, 옵션 1으로 위젯을 지우고 다시 시도하십시오.
더미 데이터 로드 창에서, bamboolib테스트를 위해 더미 데이터 세트를 로드하려면로드할 데이터 세트의 이름을 선택합니다. 데이터 프레임 이름의 경우 테이블 내용의 프로그래밍 식별자 이름을 DataFrame으로 입력하거나 df를 기본 프로그래밍 식별자로 둡니다.
을 클릭하고을 실행합니다.
위젯은 데이터 세트의 내용을 표시합니다.
조언
현재 위젯을 전환하여 다른 예제 데이터 세트의 내용을 표시할 수 있습니다.
- 현재 위젯에서 더미 데이터 로드 탭을 클릭합니다.
- 위의 단계에 따라 다른 예제 데이터 세트의 내용을 위젯으로 읽습니다.
위젯에 CSV 파일의 내용을 읽습니다.
시나리오: Azure Databricks 작업 영역 내의 CSV 파일 내용을 위젯으로 읽으려고 합니다.
Databricks: DBFSCSV 파일을 읽습니다.
메모
보이지 않을 경우
Databricks: DBFS에서 CSV 파일 읽기 , 옵션 1을 사용하여 위젯을 지우고 다시 시도하십시오. DBFS 창의 "CSV 읽기
" 패널에서 대상 CSV 파일이 있는 위치를 찾아보세요. 대상 CSV 파일을 선택합니다.
데이터 프레임 이름의 경우 CSV 파일 내용의 프로그래밍 식별자 이름을 DataFrame으로 입력하거나 df를 기본 프로그래밍 식별자로 둡니다.
CSV 값 구분 기호경우 CSV 파일의 값을 구분하는 문자를 입력하거나 ,(쉼표) 문자를 기본값 구분 기호로 둡니다.
10진수 구분 기호경우 CSV 파일에서 소수를 구분하는 문자를 입력하거나 그대로 둡니다.(점) 문자를 기본값 구분 기호로 사용합니다.
행 제한의 경우: 첫 번째 N행을 읽습니다.제한 없이 비워 두거나, 위젯에 읽을 최대 행 수를 입력하거나, 기본 행 수로 1000000 그대로 두거나, 행 제한을 지정하지 않으면 이 상자를 비워 둡니다.
CSV 파일을(를) 클릭하여 엽니다.
위젯은 지정한 설정에 따라 CSV 파일의 내용을 표시합니다.
조언
현재 위젯을 전환하여 다른 CSV 파일의 내용을 표시할 수 있습니다.
- 현재 위젯에서 DBFS의 CSV 읽기 탭을 클릭합니다.
- 위의 단계에 따라 다른 CSV 파일의 내용을 위젯으로 읽습니다.
위젯에 데이터베이스 테이블의 내용을 읽습니다.
시나리오: Azure Databricks 작업 영역 내의 데이터베이스 테이블 내용을 위젯으로 읽으려고 합니다.
Databricks: 데이터베이스 테이블로드를 클릭합니다.
메모
Databricks: 데이터베이스 테이블 이 보이지 않으면, 옵션 1으로 위젯을 지우고다시 시도하세요. Databricks: 데이터베이스 테이블 로드 창에서 Database의 경우 기본 데이터베이스비워 두거나, 대상 테이블이 있는 데이터베이스의 이름을 입력하거나, 이 상자를 비워 두어 기본 데이터베이스를 지정합니다.
테이블대상 테이블의 이름을 입력합니다.
행 제한의 경우: 첫 번째 N행을 읽습니다.제한 없이 비워 두거나, 위젯에 읽을 최대 행 수를 입력하거나, 기본 행 수로 1000000 그대로 두거나, 행 제한을 지정하지 않으면 이 상자를 비워 둡니다.
데이터 프레임 이름의 경우 테이블 내용의 프로그래밍 식별자 이름을 DataFrame으로 입력하거나 df를 기본 프로그래밍 식별자로 둡니다.
을 클릭하고을 실행합니다.
위젯은 지정한 설정에 따라 테이블의 내용을 표시합니다.
조언
현재 위젯을 전환하여 다른 테이블의 내용을 표시할 수 있습니다.
- 현재 위젯에서 Databricks: 데이터베이스 테이블 로드 탭을 클릭합니다.
- 위의 단계에 따라 다른 테이블의 내용을 위젯으로 읽습니다.
데이터 작업 태스크
bamboolib은 50개 이상의 데이터 작업을 제공합니다. 다음은 좀 더 일반적인 시작 데이터 작업 작업 중 일부입니다.
이 섹션에서는 다음을 수행합니다.
열 선택
시나리오: 이름, 데이터 형식 또는 일부 정규식과 일치하는 특정 테이블 열만 표시하려고 합니다. 예를 들어 더미 Sales 데이터 세트item_type 및 sales_channel 열만 표시하거나 열 이름에 문자열 _date 포함된 열만 표시하려고 합니다.
-
데이터 탭의 검색 작업 드롭다운 목록에서 다음 중 하나를 수행합니다.
를 입력하고 을 선택한 다음, 열을 선택하거나 삭제하려면를 선택합니다. - 열 선택 또는 삭제
선택합니다.
선택 또는 드롭 열 창의선택 드롭다운 목록에서 선택합니다. - 대상 열 이름 또는 포함 조건을 선택합니다.
- 데이터 프레임 이름의 경우 테이블 내용의 프로그래밍 식별자 이름을 DataFrame으로 입력하거나 df를 기본 프로그래밍 식별자로 둡니다.
- 을 클릭하고을 실행합니다.
열 삭제
시나리오: 이름, 데이터 형식 또는 일부 정규식과 일치하는 특정 테이블 열을 숨기려고 합니다. 예를 들어 더미 Sales 데이터 세트order_prio, order_date및 ship_date 열을 숨기거나 날짜-시간 값만 포함된 모든 열을 숨기려고 합니다.
-
데이터 탭의 검색 작업 드롭다운 목록에서 다음 중 하나를 수행합니다.
드롭 입력한 다음열 선택 또는 삭제선택합니다. - 열 선택 또는 삭제
선택합니다.
- 열 선택 또는 드롭 창의 선택 드롭다운 목록에서 드롭선택합니다.
- 대상 열 이름 또는 포함 조건을 선택합니다.
- 데이터 프레임 이름의 경우 테이블 내용의 프로그래밍 식별자 이름을 DataFrame으로 입력하거나 df를 기본 프로그래밍 식별자로 둡니다.
- 을 클릭하고을 실행합니다.
행 필터링
시나리오: 일치하거나 누락된 특정 열 값과 같은 조건에 따라 특정 테이블 행을 표시하거나 숨기려고 합니다. 예를 들어 더미 Sales 데이터 세트에서, item_type 열의 값이 Baby Food으로 설정된 행만 표시하려고 합니다.
-
데이터 탭의 검색 작업 드롭다운 목록에서 다음 중 하나를 수행합니다.
- 필터을 입력하고, 그 다음 필터 행을 선택합니다.
- 필터 행을 선택합니다.
필터 행 창의 선택 드롭다운 목록에서 행위의 선택하거나 행 삭제합니다. - 첫 번째 필터 조건을 지정합니다.
- 필터 조건을 추가하려면 조건버튼을 클릭하고, 다음 필터 조건을 설정합니다. 원하는 대로 반복합니다.
- 데이터 프레임 이름의 경우 테이블 내용의 프로그래밍 식별자 이름을 DataFrame으로 입력하거나 df를 기본 프로그래밍 식별자로 둡니다.
- 을 클릭하고을 실행합니다.
행 정렬하기
시나리오: 하나 이상의 열 내 값을 기준으로 테이블 행을 정렬하려고 합니다. 예를 들어 더미 Sales 데이터 세트에서 열 값별 region 행을 A에서 Z로 사전순으로 표시하려고 합니다.
-
데이터 탭의 검색 작업 드롭다운 목록에서 다음 중 하나를 수행합니다.
- 정렬입력하고, 행 정렬선택합니다.
- 행정렬을 선택합니다.
- 정렬 열 창에서 정렬 기준으로 사용할 첫 번째 열과 정렬 순서를 선택합니다.
- 다른 정렬 조건을 추가하려면 열추가하고 다음 정렬 조건을 지정합니다. 원하는 대로 반복합니다.
- 데이터 프레임 이름의 경우 테이블 내용의 프로그래밍 식별자 이름을 DataFrame으로 입력하거나 df를 기본 프로그래밍 식별자로 둡니다.
- 을 클릭하고을 실행합니다.
행 및 열 작업 그룹화
이 섹션에서는 다음을 수행합니다.
- 단일 집계 함수 행 및 열 그룹화
- 여러 집계 함수로 행과 열을 그룹화
단일 집계 함수로 행 및 열 그룹화
시나리오: 계산된 그룹화별로 행 및 열 결과를 표시하고 해당 그룹에 사용자 지정 이름을 할당하려고 합니다. 예를 들어 더미 Sales 데이터 세트에서 열 값을 기준으로 행 country 을 그룹화하고, 동일한 country 값을 포함하는 행 수를 표시하고, 계산된 개수 목록을 지정하여 이름을 country_count지정하려고 합니다.
-
데이터 탭의 검색 작업 드롭다운 목록에서 다음 중 하나를 수행합니다.
- 그룹을 입력한 다음 그룹화 및 집계(이름 바꾸기 포함)을 선택합니다.
- 그룹화 기준 및 집계(이름 바꾸기 포함)선택합니다.
- 그룹화 기준 열 이름 바꾸기 창에서 그룹화할 열과 첫 번째 계산을 선택하고 필요에 따라 계산 열의 이름을 지정합니다.
- 다른 계산을 추가하려면 추가 계산를 클릭하고, 다음 계산과 열 이름을 지정합니다. 원하는 대로 반복합니다.
- 결과를 저장할 위치를 지정합니다.
- 데이터 프레임 이름의 경우 테이블 내용의 프로그래밍 식별자 이름을 DataFrame으로 입력하거나 df를 기본 프로그래밍 식별자로 둡니다.
- 을 클릭하고을 실행합니다.
여러 집계 함수를 사용하여 행 및 열 그룹화
시나리오: 계산된 그룹화별로 행 및 열 결과를 표시하려고 합니다. 예를 들어, 더미 Sales 데이터 세트에서, region, country, 및 sales_channel 열의 값에 따라 행을 그룹화하여, region 및 country 값이 동일한 행의 수를 sales_channel로 나타내고, 또한 total_revenue, region, country의 고유한 조합에 따른 sales_channel를 표시하려고 합니다.
-
데이터 탭의 검색 작업 드롭다운 목록에서 다음 중 하나를 수행합니다.
- 그룹입력한 다음 그룹화 기준 및 집계(기본값)선택합니다.
- 그룹화 기준 및 집계(기본값)선택합니다.
- 열 이름 변경 및 그룹화 패널에서, 그룹화할 열과 첫 번째 계산 항목을 선택합니다.
- 다른 계산을 추가하려면 계산을 추가하고다음 계산을 지정합니다. 원하는 대로 반복합니다.
- 결과를 저장할 위치를 지정합니다.
- 데이터 프레임 이름의 경우 테이블 내용의 프로그래밍 식별자 이름을 DataFrame으로 입력하거나 df를 기본 프로그래밍 식별자로 둡니다.
- 을 클릭하고을 실행합니다.
누락된 값이 있는 행 제거
시나리오: 지정된 열에 대한 값이 누락된 행을 제거하려고 합니다. 예를 들어, 더미 Sales 데이터 세트에서 누락된 item_type 값이 있는 행을 제거하려고 합니다.
-
데이터 탭의 검색 작업 드롭다운 목록에서 다음 중 하나를 수행합니다.
- 드롭 또는 제거를 선택한 다음, 누락된 값 드롭을 선택합니다.
- 선택 후 누락 값삭제
- 누락 값 창에서 열을 선택하여 해당 열에 대한 누락된 값이 있는 행을 제거합니다.
- 데이터 프레임 이름의 경우 테이블 내용의 프로그래밍 식별자 이름을 DataFrame으로 입력하거나 df를 기본 프로그래밍 식별자로 둡니다.
- 을 클릭하고을 실행합니다.
중복된 행 제거
시나리오: 지정된 열에 대해 중복 값이 있는 행을 제거하려고 합니다. 예를 들어, 더미 데이터 세트 Sales에서 서로 정확히 중복되는 행을 제거하려고 합니다.
-
데이터 탭의 검색 작업 드롭다운 목록에서 다음 중 하나를 수행합니다.
- 을 입력하고 드롭 또는 제거한 다음, 중복/제거를 선택합니다.
- 중복 제거/삭제 를 선택합니다.
- 중복 제거 창에서 열을 선택하여 해당 열에 대해 중복 값이 있는 행을 제거한 다음, 중복 값이 있는 첫 번째 행 또는 마지막 행을 유지할지 여부를 선택합니다.
- 데이터 프레임 이름의 경우 테이블 내용의 프로그래밍 식별자 이름을 DataFrame으로 입력하거나 df를 기본 프로그래밍 식별자로 둡니다.
- 을 클릭하고을 실행합니다.
누락된 값 찾기 및 바꾸기
시나리오: 누락된 값을 지정된 열로 모든 행의 대체 값으로 바꾸려고 합니다. 예를 들어, 더미 Sales 데이터 세트에서 item_type 열에 누락된 값이 있는 모든 행을 Unknown Item Type값으로 교체하려고 합니다.
-
데이터 탭의 검색 작업 드롭다운 목록에서 다음 중 하나를 수행합니다.
- 찾거나 바꾼 다음 찾기 및 누락된 값바꾸기를 선택합니다.
- 선택합니다. 누락된 값찾기 및 바꾸기.
- 창에서 누락된 값을 바꿀 열을 선택한 다음 대체 값을 지정합니다.
- 을 클릭하고을 실행합니다.
열 수식 만들기
시나리오: 고유한 수식을 사용하는 열을 만들려고 합니다. 예를 들어 더미 Sales 데이터 세트에서, 각 행의 profit_per_unit 열 값으로 total_profit 열 값을 나눈 결과를 표시하는 units_sold라는 이름의 열을 만들고자 합니다.
-
데이터 탭의 검색 작업 드롭다운 목록에서 다음 중 하나를 수행합니다.
- 수식
을 입력한 다음, 새 열 수식 를 선택합니다. - 새 열 수식선택합니다.
- 수식
- 창에서 누락된 값을 바꿀 열을 선택한 다음 대체 값을 지정합니다.
- 을 클릭하고을 실행합니다.
데이터 작업 기록 작업
이 섹션에서는 다음을 수행합니다.
위젯에서 수행된 작업 목록 보기
시나리오: 위젯에서 변경된 모든 변경 내용의 목록을 확인하려고 합니다.
기록클릭합니다. 작업 목록이 변환 기록 창에 나타납니다.
위젯에서 수행된 가장 최근 작업 실행 취소
시나리오: 위젯에서 변경한 최신 변경 내용을 되돌리려고 합니다.
다음 중 하나를 수행합니다.
- 시계 반대 방향 화살표 아이콘을 클릭합니다.
기록 클릭하고변환 기록 창에서 마지막 단계실행 취소를 클릭합니다.
위젯에서 수행된 가장 최근 작업 다시 실행
시나리오: 위젯에서 가장 최근에 수행된 되돌리기를 다시 되돌리려고 합니다.
다음 중 하나를 수행합니다.
- 시계 방향 화살표 아이콘을 클릭합니다.
기록 클릭하고변환 기록 창에서 마지막 단계복구를 클릭합니다.
위젯에서 수행된 가장 최근 작업 변경
시나리오: 위젯에서 수행된 가장 최근의 변경 사항을 변경하려고 합니다.
- 다음 중 하나를 수행합니다.
- 연필 아이콘을 클릭합니다.
- 기록을 클릭하고, 변환 기록 창에서 마지막 단계편집을 클릭합니다.
- 원하는 내용을 변경한 다음 실행클릭합니다.
프로그래밍 방식으로 위젯의 현재 상태를 DataFrame으로 다시 만드는 코드 가져오기
시나리오: pandas DataFrame으로 표시되는 현재 위젯의 상태를 프로그래밍 방식으로 다시 만드는 Python 코드를 가져옵니다. 이 통합 문서의 다른 셀이나 완전히 다른 통합 문서에서 이 코드를 실행하고자 합니다.
코드가져오기
클릭합니다. 내보내기 코드 창에서코드를 복사를 클릭합니다. 코드가 시스템의 클립보드에 복사됩니다. 이 통합 문서의 다른 셀이나 다른 통합 문서에 코드를 붙여넣으세요.
이 pandas DataFrame을 프로그래밍 방식으로 사용하는 추가 코드를 작성한 다음 셀을 실행합니다. 예를 들어 DataFrame의 콘텐츠를 표시하려면 DataFrame이 프로그래밍 방식으로
df다음과 같이 표현되었다고 가정합니다.# Your pasted code here, followed by... df
한계
자세한 내용은 알려진 제한 사항 Databricks Notebook 참조하세요.