자습서: Notebook에서 CSV 데이터 가져오기 및 시각화

이 자습서에서는 Azure Databricks Notebook을 사용하여 python, Scala 및 R을 사용하여 health.data.ny.gov 아기 이름 데이터가 포함된 CSV 파일에서 Unity 카탈로그 볼륨으로 데이터를 가져오는 방법을 안내합니다. 열 이름을 수정하고, 데이터를 시각화하고, 테이블에 저장하는 방법도 알아봅니다.

메모

Databricks Free Edition을 사용하는 경우 이 자습서의 모든 코드 예제에 대해 Python 탭을 선택합니다. 무료 버전은 R 또는 Scala를 지원하지 않습니다. 또한 Free Edition은 아웃바운드 인터넷 액세스를 제한하므로 코드와 함께 다운로드하는 대신 작업 영역 UI를 사용하여 CSV 파일을 업로드해야 합니다. 자세한 지침은 3단계 를 참조하세요.

요구 사항

이 문서의 작업을 완료하려면 다음 요구 사항을 충족해야 합니다.

작업 영역에 Unity 카탈로그 사용하도록 설정되어 있어야 합니다. Unity 카탈로그를 시작하는 방법에 대한 자세한 내용은 Unity 카탈로그 시작을 참조하세요. Azure Databricks 무료 버전 및 평가판 작업 영역에는 기본적으로 Unity 카탈로그가 사용하도록 설정되어 있습니다.
볼륨에 대한 WRITE VOLUME 권한, 부모 스키마에 대한 USE SCHEMA 권한 및 부모 카탈로그에 대한 USE CATALOG 권한이 있어야 합니다. 무료 버전 사용자는 기본적으로 작업 영역 카탈로그 및 default 스키마에 대해 이러한 권한을 갖습니다.
기존 컴퓨팅 리소스를 사용하거나 새 컴퓨팅 리소스를 만들 수 있는 권한이 있어야 합니다. 컴퓨팅을 참조하거나 Azure Databricks 관리자를 참조하세요.

팁

이 기사에 대한 완성된 노트북은 데이터 노트북 가져오기 및 시각화를 참고하십시오.

1단계: 새 Notebook 만들기

작업 영역에서 Notebook을 생성하려면 사이드바의 새로 만들기를 클릭한 다음 Notebook을 클릭합니다. 작업 영역에서 빈 전자 필기장이 열립니다.

Notebook을 만들고 관리하는 방법에 대한 자세한 내용은 Databricks Notebook 관리를 참조하세요.

2단계: 변수 정의

이 단계에서는 이 문서에서 만든 예제 Notebook에서 사용할 변수를 정의합니다. Unity 카탈로그의 카탈로그, 스키마 및 볼륨 이름이 필요합니다.

팁

카탈로그 및 스키마 이름을 모르는 경우 데이터 아이콘 을 클릭합니다.사이드바의 카탈로그입니다. 작업 영역 카탈로그는 작업 영역과 이름을 공유하며 카탈로그 패널에 나열됩니다. 사용 가능한 스키마를 보려면 확장하세요. 무료 버전 및 평가판 사용자는 작업 영역 카탈로그와 스키마를 default 사용할 수 있습니다.

Notebook 셀에서 다음 명령을 실행하여 볼륨을 만듭니다. (값을 나타내는 <catalog_name>와 <schema_name>를 귀하의 값으로 변경하십시오.) 볼륨이 없는 경우,

CREATE VOLUME IF NOT EXISTS <catalog_name>.<schema_name>.my_volume

다음 코드를 복사하고 새로운 빈 Notebook 셀에 붙여넣습니다. <catalog-name>, <schema-name>및 <volume-name>를 Unity 카탈로그 볼륨의 카탈로그, 스키마 및 볼륨 이름으로 교체하세요. 필요에 따라 table_name 값을 원하는 테이블 이름으로 바꿉니다. 이 문서의 뒷부분에서 아기 이름 데이터를 이 표에 저장합니다.

셀을 실행하고 새 빈 셀을 만들려면 Shift+Enter를 누릅니다.

파이썬

catalog = "<catalog_name>"
schema = "<schema_name>"
volume = "<volume_name>"
download_url = "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv"
file_name = "baby_names.csv"
table_name = "baby_names"
path_volume = "/Volumes/" + catalog + "/" + schema + "/" + volume
path_table = catalog + "." + schema
print(path_table) # Show the complete path
print(path_volume) # Show the complete path

스칼라

val catalog = "<catalog_name>"
val schema = "<schema_name>"
val volume = "<volume_name>"
val downloadUrl = "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv"
val fileName = "baby_names.csv"
val tableName = "baby_names"
val pathVolume = s"/Volumes/${catalog}/${schema}/${volume}"
val pathTable = s"${catalog}.${schema}"
print(pathVolume) // Show the complete path
print(pathTable) // Show the complete path

R 프로그래밍 언어

catalog <- "<catalog_name>"
schema <- "<schema_name>"
volume <- "<volume_name>"
download_url <- "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv"
file_name <- "baby_names.csv"
table_name <- "baby_names"
path_volume <- paste("/Volumes/", catalog, "/", schema, "/", volume, sep = "")
path_table <- paste(catalog, ".", schema, sep = "")
print(path_volume) # Show the complete path
print(path_table) # Show the complete path

3단계: CSV 파일 가져오기

이 단계에서는 health.data.ny.gov에서 아기 이름 데이터가 포함된 CSV 파일을 Unity 카탈로그 볼륨으로 가져옵니다. 다음 방법 중 하나를 선택합니다.

작업 영역 UI를 사용하여 업로드 - Databricks Free Edition에 있거나 옵션 B의 코드 다운로드가 네트워크 오류와 함께 실패하는 경우 이 메서드를 사용합니다. 무료 버전 및 기타 서버리스 컴퓨팅 환경은 아웃바운드 인터넷 액세스를 제한하므로 로컬 컴퓨터에서 파일을 업로드해야 합니다.
코드를 사용하여 다운로드 - 컴퓨팅 환경에 아웃바운드 인터넷 액세스 권한이 있는 경우 이 메서드를 사용합니다.

옵션 A: 작업 영역 UI를 사용하여 업로드

로컬 컴퓨터에서 브라우저에서 health.data.ny.gov/api/views/jxy9-yhdk/rows.csv 엽니다. 파일이 컴퓨터로 다운로드됩니다 rows.csv.
컴퓨터에서 다운로드한 파일을 찾아 이름을 바꿉니다 rows.csvbaby_names.csv. 이는 2단계에서 정의한 file_name 변수와 일치합니다.
Azure Databricks 작업 영역으로 돌아갑니다. 사이드바에서 새로 > 추가 또는 데이터 업로드를 클릭합니다.
볼륨에 파일 업로드를 클릭합니다.
찾아보기를 클릭하고 파일을 선택 baby_names.csv 하거나 업로드 영역으로 끌어서 놓습니다.
대상 볼륨에서 2단계에서 지정한 볼륨을 선택합니다.
업로드가 완료되면 전자 필기장으로 돌아가 서 4단계를 계속 진행합니다.

파일 업로드에 대한 자세한 내용은 Unity 카탈로그 볼륨의 파일 작업을 참조하세요.

옵션 B: 코드를 사용하여 다운로드

다음 코드를 복사하고 새로운 빈 Notebook 셀에 붙여넣습니다. 이 코드는 rows.csv dbutils 명령을 사용하여 health.data.ny.gov 파일을 Unity 카탈로그 볼륨으로 복사합니다.

Shift+Enter 키를 눌러 셀을 실행하고 다음 셀로 이동합니다.

파이썬

dbutils.fs.cp(f"{download_url}", f"{path_volume}" + "/" + f"{file_name}")

스칼라

dbutils.fs.cp(downloadUrl, s"${pathVolume}/${fileName}")

R 프로그래밍 언어

dbutils.fs.cp(download_url, paste(path_volume, "/", file_name, sep = ""))

4단계: DataFrame에 CSV 데이터 로드

이 단계에서는 df 메서드를 사용하여 이전에 Unity 카탈로그 볼륨에 로드한 CSV 파일에서 이라는 DataFrame을 만듭니다.

다음 코드를 복사하고 새로운 빈 Notebook 셀에 붙여넣습니다. 이 코드는 CSV 파일에서 DataFrame df에 베이비 이름 데이터를 로드합니다.

Shift+Enter 키를 눌러 셀을 실행하고 다음 셀로 이동합니다.

파이썬

df = spark.read.csv(f"{path_volume}/{file_name}",
  header=True,
  inferSchema=True,
  sep=",")

스칼라

val df = spark.read
    .option("header", "true")
    .option("inferSchema", "true")
    .option("delimiter", ",")
    .csv(s"${pathVolume}/${fileName}")

R 프로그래밍 언어

# Load the SparkR package that is already preinstalled on the cluster.
library(SparkR)

df <- read.df(paste(path_volume, "/", file_name, sep=""),
  source="csv",
  header = TRUE,
  inferSchema = TRUE,
  delimiter = ",")

지원되는 다양한 파일 형식에서 데이터를 로드할 수 있습니다.

5단계: Notebook에서 데이터 시각화

이 단계에서는 display() 메서드를 사용하여 Notebook의 테이블에 있는 DataFrame의 내용을 표시한 다음 Notebook의 Word 클라우드 차트에서 데이터를 시각화합니다.

다음 코드를 복사하여 빈 전자 필기장 셀에 붙여넣은 다음 셀 실행을 클릭하여 테이블에 데이터를 표시합니다.

파이썬
```
display(df)
```
스칼라
```
display(df)
```
R 프로그래밍 언어
```
display(df)
```
테이블의 결과를 검토합니다.
표 탭 옆에 있는 + 클릭한 다음 시각화클릭합니다.
시각화 편집기에서 시각적 개체 유형을 클릭하고 단어 클라우드가 선택되어 있는지 확인합니다.
단어 열에서에 있는 First Name가 선택되어 있는지 확인합니다.
빈도 제한에서 35을 클릭합니다.
저장을 클릭합니다.

6단계: 테이블에 DataFrame 저장

중요합니다

DataFrame을 Unity 카탈로그에 저장하려면 카탈로그 및 스키마에 CREATE 테이블 권한이 있어야 합니다. Unity 카탈로그의 권한 정보에 대해서는 Unity 카탈로그의 권한 및 보안 개체 및 권한 관리를 참조하세요.

다음 코드를 복사한 후 빈 Notebook 셀에 붙여넣습니다. 이 코드는 열 이름의 공백을 대체합니다. 특수 문자(예: 공백)는 열 이름에 허용되지 않습니다. 이 코드는 Apache Spark withColumnRenamed() 메서드를 사용합니다.

파이썬

df = df.withColumnRenamed("First Name", "First_Name")
df.printSchema

스칼라

val dfRenamedColumn = df.withColumnRenamed("First Name", "First_Name")
// when modifying a DataFrame in Scala, you must assign it to a new variable
dfRenamedColumn.printSchema()

R 프로그래밍 언어

df <- withColumnRenamed(df, "First Name", "First_Name")
printSchema(df)

다음 코드를 복사한 후 빈 Notebook 셀에 붙여넣습니다. 이 코드는 이 문서의 시작 부분에 정의한 테이블 이름 변수를 사용하여 DataFrame의 내용을 Unity 카탈로그의 테이블에 저장합니다.

파이썬
```
df.write.mode("overwrite").saveAsTable(f"{path_table}" + "." + f"{table_name}")
```
스칼라
```
dfRenamedColumn.write.mode("overwrite").saveAsTable(s"${pathTable}.${tableName}")
```
R 프로그래밍 언어
```
saveAsTable(df, paste(path_table, ".", table_name), mode = "overwrite")
```
테이블이 저장되었는지 확인하려면 왼쪽 사이드바에서 카탈로그 클릭하여 카탈로그 탐색기 UI를 엽니다. 카탈로그를 연 다음 스키마를 열어 테이블이 표시되는지 확인합니다.
테이블을 클릭하여 개요 탭에서 테이블 스키마를 봅니다.
샘플 데이터를 클릭하여 테이블에서 100개 행의 데이터를 확인합니다.

데이터 Notebook 가져오기 및 시각화

다음 전자 필기장 중 하나를 사용하여 이 문서의 단계를 수행합니다. <catalog-name>, <schema-name>및 <volume-name>를 Unity 카탈로그 볼륨의 카탈로그, 스키마 및 볼륨 이름으로 교체하세요. 필요에 따라 table_name 값을 원하는 테이블 이름으로 바꿉니다.

파이썬

Python을 사용하여 CSV에서 데이터 가져오기

노트북 가져오기

스칼라

Scala를 사용하여 CSV에서 데이터 가져오기

노트북 가져오기

R 프로그래밍 언어

R을 사용하여 CSV에서 데이터 가져오기

노트북 가져오기

다음 단계

EDA(예비 데이터 분석) 기술에 대한 자세한 내용은 자습서: Databricks Notebooks사용하는 EDA 기법을 참조하세요.
ETL(추출, 변환 및 로드) 파이프라인을 빌드하는 방법에 대한 자세한 내용은 자습서: Lakeflow 파이프라인을 사용하여 ETL 파이프라인 빌드 및 자습서: Databricks 플랫폼에서 Apache Spark를 사용하여 ETL 파이프라인 빌드를 참조하세요.

추가 리소스

피드백

이 페이지가 도움이 되었나요?

Last updated on 2026-03-31