이 페이지에는 표준 컴퓨팅에 대한 요구 사항 및 제한 사항 목록이 포함되어 있습니다. 클래식 컴퓨팅을 사용하는 경우 워크로드가 아래에 나열된 제한 사항 중 하나에 종속되지 않는 한 Databricks는 표준 액세스 모드를 사용하는 것이 좋습니다.
중요합니다
Init 스크립트 및 라이브러리는 액세스 모드와 Databricks Runtime 버전 간에 서로 다른 지원을 제공합니다. Init 스크립트를 설치할 수 있는 위치 및 컴퓨팅 범위 라이브러리를 참조하세요.
현재 표준 컴퓨팅 제한 사항
다음 섹션에서는 최신 Databricks 런타임 버전을 기반으로 하는 표준 컴퓨팅에 대한 제한 사항을 나열합니다. 이전 Databricks 런타임 버전에 적용되는 제한 사항은 런타임 종속 제한을 참조하세요.
워크로드에 이러한 기능이 필요한 경우 전용 컴퓨팅 을 대신 사용합니다.
일반 표준 컴퓨팅 제한 사항
- ML용 Databricks 런타임은 지원되지 않습니다. 대신 Databricks 런타임과 함께 번들로 묶지 않은 ML 라이브러리를 컴퓨팅 범위 라이브러리로 설치합니다.
- GPU 사용 컴퓨팅은 지원되지 않습니다.
- Spark 제출 작업은 지원되지 않습니다. 대신 JAR 작업 사용합니다.
- DBUtils 및 기타 클라이언트는 외부 위치를 사용하여 클라우드 스토리지에서만 읽을 수 있습니다.
- 사용자 지정 컨테이너는 지원되지 않습니다.
- DBFS 루트 및 탑재는 FUSE를 지원하지 않습니다.
언어 제한 사항
- R은 지원되지 않습니다.
Spark API 제한 사항
- Spark 컨텍스트(
sc)spark.sparkContext및sqlContextScala에 대해 지원되지 않습니다.- Azure Databricks는 변수를
spark사용하여 인스턴스와SparkSession상호 작용하는 것이 좋습니다. - 다음
sc함수도 지원되지 않습니다.emptyRDD,range,init_batched_serializer,parallelize,pickleFile,textFile,wholeTextFiles,binaryFiles,binaryRecords,sequenceFile,newAPIHadoopFile,newAPIHadoopRDD,hadoopFile,hadoopRDD,union,runJob,setSystemProperty,uiWebUrl,stop,setJobGroup,setLocalProperty,getConf.
- Azure Databricks는 변수를
-
Spark 구성 속성
spark.executor.extraJavaOptions지원되지 않습니다. - 를 사용하여
spark.createDataFrame로컬 데이터에서 DataFrame을 만들 때 행 크기는 128MB를 초과할 수 없습니다. - RDD API는 지원되지 않습니다.
- 최신 버전의 Databricks Runtime에서 사용되는 Spark Connect는 분석 및 이름 확인을 실행 시간으로 연기하여 코드의 동작을 변경할 수 있습니다. Spark Connect와 Spark 클래식 비교를 참조하세요.
UDF 제한 사항
- Hive UDF는 지원되지 않습니다. 대신 Unity 카탈로그에서 UDF를 사용합니다.
스트리밍 제한 사항
비고
나열된 Kafka 옵션 중 일부는 Azure Databricks에서 지원되는 구성에 사용되는 경우 지원이 제한됩니다. 나열된 모든 Kafka 제한 사항은 일괄 처리 및 스트림 처리 모두에 유효합니다. Apache Kafka 및 Azure Databricks를 사용한 스트림 처리를 참조하세요.
-
statestore및state-metadata형식을 사용하여 상태 저장 스트리밍 쿼리에 대한 상태 정보를 쿼리할 수 없습니다. - 소켓 원본 사용은 지원되지 않습니다.
-
sourceArchiveDir을 Unity 카탈로그에서 관리하는 데이터 원본과 함께 사용할 때,option("cleanSource", "archive")는 원본과 동일한 외부 위치에 있어야 합니다. - Kafka 원본 및 싱크의 경우 다음 옵션은 지원되지 않습니다.
kafka.sasl.client.callback.handler.classkafka.sasl.login.callback.handler.classkafka.sasl.login.classkafka.partition.assignment.strategy
네트워크 및 파일 시스템 제한 사항
- 표준 컴퓨팅은 낮은 권한의 사용자로 명령을 실행하여 파일 시스템의 중요한 부분에 액세스하는 것을 금지합니다.
-
DBFS에 대한 POSIX 스타일 경로(
/) 는 지원되지 않습니다. - 작업 영역 관리자와 ANY FILE 권한이 있는 사용자만 DBFS를 사용하여 파일과 직접 상호 작용할 수 있습니다.
- 인스턴스 메타데이터 서비스 또는 Azure WireServer에 연결할 수 없습니다.
Scala 커널 제한 사항
표준 컴퓨팅에서 scala 커널을 사용하는 경우 다음과 같은 제한 사항이 적용됩니다.
- 코드에서 특정 클래스가 내부 아몬드 커널 라이브러리와 충돌하는 경우, 특히
Input사용할 수 없습니다. 아몬드의 정의된 수입 목록은 아몬드 수입참조하세요. - log4j에 직접 로깅은 지원되지 않습니다.
- UI에서 데이터 프레임 스키마 드롭다운은 지원되지 않습니다.
- 드라이버가 OOM에 도달하면 Scala REPL이 종료되지 않습니다.
-
//connector/sql-aws-connectors:sql-aws-connectors가 Scala REPL의 바젤 대상에 없으면ClassNotFoundException에 영향을 줍니다. - Scala 커널은 SQLImplicits와 호환되지 않습니다.
런타임 종속 제한 사항
다음 제한 사항은 런타임 업데이트를 통해 해결되었지만 이전 런타임을 사용하는 경우에도 워크로드에 적용될 수 있습니다.
언어 지원
| 특징 | 필수 Databricks 런타임 버전 |
|---|---|
| Scala | 13.3 이상 |
| 기본적으로 사용 가능한 모든 런타임 번들 Java 및 Scala 라이브러리 | 15.4 LTS 이상(15.3 이하, 설정 spark.databricks.scala.kernel.fullClasspath.enabled=true) |
Spark API 지원
| 특징 | 필수 Databricks 런타임 버전 |
|---|---|
| Spark ML | 17.0 이상 |
Python: SparkContext (sc), spark.sparkContextsqlContext |
14.0 이상 |
Scala Dataset ops: map,mapPartitions, foreachPartition, flatMapreduce,filter |
15.4 LTS 이상 |
UDF 지원
| 특징 | 필수 Databricks 런타임 버전 |
|---|---|
applyInPandas, mapInPandas |
14.3 LTS 이상 |
| Scala 스칼라 UDF 및 Scala UDAF | 14.3 LTS 이상 |
| PySpark UDF의 Git 폴더, 작업 영역 파일 또는 볼륨에서 모듈 가져오기 | 14.3 LTS 이상 |
Notebook 또는 grpc 컴퓨팅 범위 라이브러리를 통해 또는 PySpark UDF에서 사용자 지정 버전 사용 pyarrowprotobuf |
14.3 LTS 이상 |
| Spark의 UDAF, UDF 및 Pandas를 비롯한 비 스칼라 Python 및 Pandas UDF | 14.3 LTS 이상 |
| Python 스칼라 UDF 및 Pandas UDF | 13.3 LTS 이상 |
스트리밍 지원
| 특징 | 필수 Databricks 런타임 버전 |
|---|---|
transformWithStateInPandas |
16.3 이상 |
applyInPandasWithState |
14.3 LTS 이상 |
스칼라 foreach |
16.1 이상 |
Scala foreachBatch 및 flatMapGroupsWithState |
16.2 이상 |
스칼라 from_avro |
14.2 이상 |
Kafka 옵션 kafka.ssl.truststore.location 및 kafka.ssl.keystore.location (지정된 위치는 Unity 카탈로그에서 관리하는 외부 위치여야 합니다.) |
13.3 LTS 이상 |
스칼라 StreamingQueryListener |
16.1 이상 |
Unity 카탈로그 관리 개체와 상호 작용하는 Python StreamingQueryListener |
14.3 LTS 이상 |
또한 Python foreachBatch 의 경우 Databricks Runtime 14.0 이상에서 다음과 같은 동작이 변경됩니다.
-
print()명령은 드라이버 로그에 출력을 씁니다. - 함수 내의
dbutils.widgets하위 코드에 액세스할 수 없습니다. - 함수에서 참조되는 모든 파일, 모듈 또는 개체는 직렬화 가능하며 Spark에서 사용할 수 있어야 합니다.
네트워크 및 파일 시스템 지원
| 특징 | 필수 Databricks 런타임 버전 |
|---|---|
| 80 및 443 이외의 포트에 대한 연결 | 12.2 LTS 이상 |