다음을 통해 공유


표준 컴퓨팅 요구 사항 및 제한 사항

이 페이지에는 표준 컴퓨팅에 대한 요구 사항 및 제한 사항 목록이 포함되어 있습니다. 클래식 컴퓨팅을 사용하는 경우 워크로드가 아래에 나열된 제한 사항 중 하나에 종속되지 않는 한 Databricks는 표준 액세스 모드를 사용하는 것이 좋습니다.

중요합니다

Init 스크립트 및 라이브러리는 액세스 모드와 Databricks Runtime 버전 간에 서로 다른 지원을 제공합니다. Init 스크립트를 설치할 수 있는 위치컴퓨팅 범위 라이브러리를 참조하세요.

현재 표준 컴퓨팅 제한 사항

다음 섹션에서는 최신 Databricks 런타임 버전을 기반으로 하는 표준 컴퓨팅에 대한 제한 사항을 나열합니다. 이전 Databricks 런타임 버전에 적용되는 제한 사항은 런타임 종속 제한을 참조하세요.

워크로드에 이러한 기능이 필요한 경우 전용 컴퓨팅 을 대신 사용합니다.

일반 표준 컴퓨팅 제한 사항

  • ML용 Databricks 런타임은 지원되지 않습니다. 대신 Databricks 런타임과 함께 번들로 묶지 않은 ML 라이브러리를 컴퓨팅 범위 라이브러리로 설치합니다.
  • GPU 사용 컴퓨팅은 지원되지 않습니다.
  • Spark 제출 작업은 지원되지 않습니다. 대신 JAR 작업 사용합니다.
  • DBUtils 및 기타 클라이언트는 외부 위치를 사용하여 클라우드 스토리지에서만 읽을 수 있습니다.
  • 사용자 지정 컨테이너는 지원되지 않습니다.
  • DBFS 루트 및 탑재는 FUSE를 지원하지 않습니다.

언어 제한 사항

  • R은 지원되지 않습니다.

Spark API 제한 사항

  • Spark 컨텍스트(sc) spark.sparkContextsqlContext Scala에 대해 지원되지 않습니다.
    • Azure Databricks는 변수를 spark 사용하여 인스턴스와 SparkSession 상호 작용하는 것이 좋습니다.
    • 다음 sc 함수도 지원되지 않습니다. emptyRDD, range, init_batched_serializer, parallelize, pickleFile, textFile, wholeTextFiles, binaryFiles, binaryRecords, sequenceFile, newAPIHadoopFile, newAPIHadoopRDD, hadoopFile, hadoopRDD, union, runJob, setSystemProperty, uiWebUrl, stop, setJobGroup, setLocalProperty, getConf.
  • Spark 구성 속성 spark.executor.extraJavaOptions 지원되지 않습니다.
  • 를 사용하여 spark.createDataFrame로컬 데이터에서 DataFrame을 만들 때 행 크기는 128MB를 초과할 수 없습니다.
  • RDD API는 지원되지 않습니다.
  • 최신 버전의 Databricks Runtime에서 사용되는 Spark Connect는 분석 및 이름 확인을 실행 시간으로 연기하여 코드의 동작을 변경할 수 있습니다. Spark Connect와 Spark 클래식 비교를 참조하세요.

UDF 제한 사항

스트리밍 제한 사항

비고

나열된 Kafka 옵션 중 일부는 Azure Databricks에서 지원되는 구성에 사용되는 경우 지원이 제한됩니다. 나열된 모든 Kafka 제한 사항은 일괄 처리 및 스트림 처리 모두에 유효합니다. Apache Kafka 및 Azure Databricks를 사용한 스트림 처리를 참조하세요.

  • statestorestate-metadata 형식을 사용하여 상태 저장 스트리밍 쿼리에 대한 상태 정보를 쿼리할 수 없습니다.
  • 소켓 원본 사용은 지원되지 않습니다.
  • sourceArchiveDir을 Unity 카탈로그에서 관리하는 데이터 원본과 함께 사용할 때, option("cleanSource", "archive")는 원본과 동일한 외부 위치에 있어야 합니다.
  • Kafka 원본 및 싱크의 경우 다음 옵션은 지원되지 않습니다.
    • kafka.sasl.client.callback.handler.class
    • kafka.sasl.login.callback.handler.class
    • kafka.sasl.login.class
    • kafka.partition.assignment.strategy

네트워크 및 파일 시스템 제한 사항

  • 표준 컴퓨팅은 낮은 권한의 사용자로 명령을 실행하여 파일 시스템의 중요한 부분에 액세스하는 것을 금지합니다.
  • DBFS에 대한 POSIX 스타일 경로(/) 는 지원되지 않습니다.
  • 작업 영역 관리자와 ANY FILE 권한이 있는 사용자만 DBFS를 사용하여 파일과 직접 상호 작용할 수 있습니다.
  • 인스턴스 메타데이터 서비스 또는 Azure WireServer에 연결할 수 없습니다.

Scala 커널 제한 사항

표준 컴퓨팅에서 scala 커널을 사용하는 경우 다음과 같은 제한 사항이 적용됩니다.

  • 코드에서 특정 클래스가 내부 아몬드 커널 라이브러리와 충돌하는 경우, 특히 Input사용할 수 없습니다. 아몬드의 정의된 수입 목록은 아몬드 수입참조하세요.
  • log4j에 직접 로깅은 지원되지 않습니다.
  • UI에서 데이터 프레임 스키마 드롭다운은 지원되지 않습니다.
  • 드라이버가 OOM에 도달하면 Scala REPL이 종료되지 않습니다.
  • //connector/sql-aws-connectors:sql-aws-connectors가 Scala REPL의 바젤 대상에 없으면 ClassNotFoundException에 영향을 줍니다.
  • Scala 커널은 SQLImplicits와 호환되지 않습니다.

런타임 종속 제한 사항

다음 제한 사항은 런타임 업데이트를 통해 해결되었지만 이전 런타임을 사용하는 경우에도 워크로드에 적용될 수 있습니다.

언어 지원

특징 필수 Databricks 런타임 버전
Scala 13.3 이상
기본적으로 사용 가능한 모든 런타임 번들 Java 및 Scala 라이브러리 15.4 LTS 이상(15.3 이하, 설정 spark.databricks.scala.kernel.fullClasspath.enabled=true)

Spark API 지원

특징 필수 Databricks 런타임 버전
Spark ML 17.0 이상
Python: SparkContext (sc), spark.sparkContextsqlContext 14.0 이상
Scala Dataset ops: map,mapPartitions, foreachPartition, flatMapreduce,filter 15.4 LTS 이상

UDF 지원

특징 필수 Databricks 런타임 버전
applyInPandas, mapInPandas 14.3 LTS 이상
Scala 스칼라 UDF 및 Scala UDAF 14.3 LTS 이상
PySpark UDF의 Git 폴더, 작업 영역 파일 또는 볼륨에서 모듈 가져오기 14.3 LTS 이상
Notebook 또는 grpc 컴퓨팅 범위 라이브러리를 통해 또는 PySpark UDF에서 사용자 지정 버전 사용 pyarrowprotobuf 14.3 LTS 이상
Spark의 UDAF, UDF 및 Pandas를 비롯한 비 스칼라 Python 및 Pandas UDF 14.3 LTS 이상
Python 스칼라 UDF 및 Pandas UDF 13.3 LTS 이상

스트리밍 지원

특징 필수 Databricks 런타임 버전
transformWithStateInPandas 16.3 이상
applyInPandasWithState 14.3 LTS 이상
스칼라 foreach 16.1 이상
Scala foreachBatchflatMapGroupsWithState 16.2 이상
스칼라 from_avro 14.2 이상
Kafka 옵션 kafka.ssl.truststore.locationkafka.ssl.keystore.location (지정된 위치는 Unity 카탈로그에서 관리하는 외부 위치여야 합니다.) 13.3 LTS 이상
스칼라 StreamingQueryListener 16.1 이상
Unity 카탈로그 관리 개체와 상호 작용하는 Python StreamingQueryListener 14.3 LTS 이상

또한 Python foreachBatch 의 경우 Databricks Runtime 14.0 이상에서 다음과 같은 동작이 변경됩니다.

  • print() 명령은 드라이버 로그에 출력을 씁니다.
  • 함수 내의 dbutils.widgets 하위 코드에 액세스할 수 없습니다.
  • 함수에서 참조되는 모든 파일, 모듈 또는 개체는 직렬화 가능하며 Spark에서 사용할 수 있어야 합니다.

네트워크 및 파일 시스템 지원

특징 필수 Databricks 런타임 버전
80 및 443 이외의 포트에 대한 연결 12.2 LTS 이상