Beschränkungen des serverlosen Computing

Artikel
08/02/2024

In diesem Artikel werden die aktuellen Einschränkungen des serverlosen Computing für Notebooks und Aufträge erläutert. Beginnend mit einer Übersicht über die wichtigsten Überlegungen, gefolgt von einer umfassenden Referenzliste der Einschränkungen.

Übersicht über die Einschränkungen

Bevor Sie neue Workloads erstellen oder Workloads auf serverloses Computing migrieren, sollten Sie zunächst die folgenden Einschränkungen berücksichtigen:

Python und SQL sind die einzigen unterstützten Sprachen.
Es werden nur Spark connect-APIs unterstützt. Spark-RDD-APIs werden nicht unterstützt.
JAR-Bibliotheken werden nicht unterstützt. Behelfslösungen finden Sie unter Bewährte Methoden für das serverlose Computing.
Alle Arbeitsbereichsbenutzer haben uneingeschränkten Zugriff für serverloses Computing.
Notebook-Tags werden nicht unterstützt.
Bei Streaming kann nur inkrementelle Batchlogik verwendet werden. Es gibt keine Unterstützung für Standard- oder zeitbasierte Triggerintervalle. Weitere Informationen finden Sie unter Streamingbeschränkungen.

Referenzliste für Einschränkungen

In den folgenden Abschnitten werden die aktuellen Einschränkungen des serverlosen Computing aufgeführt.

Serverloses Computing basiert auf der gemeinsam genutzten Computearchitektur. Im Anschluss werden die relevantesten Einschränkungen aufgeführt, die von gemeinsam genutztem Computing geerbt werden – zusammen mit zusätzlichen Einschränkungen für serverloses Computing. Eine vollständige Liste der Einschränkungen beim gemeinsam genutzten Computing finden Sie unter Einschränkungen des Computezugriffsmodus für Unity Catalog.

Allgemeine Einschränkungen

Scala und R werden nicht unterstützt.
ANSI SQL ist die Standardeinstellung beim Schreiben von SQL. Verlassen Sie den ANSI-Modus, indem Sie spark.sql.ansi.enabled auf false setzen.
Spark-RDD-APIs werden nicht unterstützt.
Spark-Kontext (Spark Context, sc), spark.sparkContext und sqlContext werden nicht unterstützt.
Databricks-Containerdienste werden nicht unterstützt.
Das Webterminal wird nicht unterstützt.
Abfragen können maximal 48 Stunden dauern.
Sie müssen Unity Catalog verwenden, um eine Verbindung mit externen Datenquellen herzustellen. Verwenden Sie externe Speicherorte, um auf Cloudspeicher zuzugreifen.
Die Unterstützung von Datenquellen ist auf AVRO, BINARYFILE, CSV, DELTA, JSON, KAFKA, ORC, PARQUET, ORC, TEXT und XML beschränkt.
Benutzerdefinierte Funktionen (User-Defined Functions, UDFs) können nicht auf das Internet zugreifen.
Einzelne Zeilen dürfen maximal 128 MB groß sein.
Die Spark-Benutzeroberfläche ist nicht verfügbar. Verwenden Sie stattdessen das Abfrageprofil, um Informationen zu Ihren Spark-Abfragen anzuzeigen. Siehe Abfrageprofil.
Python-Clients, die Databricks-Endpunkte verwenden, können SSL-Überprüfungsfehler wie "CERTIFICATE_VERIFY_FAILED" aufzeigen. Um diese Fehler zu umgehen, konfigurieren Sie den Client so, dass er der CA-Datei vertraut, die sich in /etc/ssl/certs/ca-certificates.crt befindet. Führen Sie beispielsweise den folgenden Befehl am Anfang eines serverlosen Notizbuchs oder Auftrags aus: import os; os.environ['SSL_CERT_FILE'] = '/etc/ssl/certs/ca-certificates.crt'
Arbeitsbereichübergreifende API-Anforderungen werden nicht unterstützt.

Streamingbeschränkungen

Es gibt keine Unterstützung für Standard- oder zeitbasierte Triggerintervalle. Nur Trigger.AvailableNow wird unterstützt. Weitere Informationen finden Sie unter Konfigurieren von Triggerintervallen für strukturiertes Streaming.
Alle Einschränkungen für das Streaming im Modus für den freigegebenen Zugriff gelten ebenfalls. Weitere Informationen finden Sie unter Streamingeinschränkungen für den gemeinsamen Zugriff auf Unity Catalog.

Einschränkungen für maschinelles Lernen

Databricks Runtime für Machine Learning und Apache Spark MLlib werden nicht unterstützt.
GPUs werden nicht unterstützt.

Einschränkungen für Notebooks

Notebooks haben Zugriff auf 8 GB Arbeitsspeicher. Dies ist nicht konfigurierbar.
Notebook-bezogene Bibliotheken werden nicht über Entwicklungssitzungen hinweg zwischengespeichert.
Das Freigeben von TEMP-Tabellen und -Sichten beim Freigeben eines Notebooks unter Benutzern wird nicht unterstützt.
AutoVervollständigen und Variablen-Explorer für Dataframes in Notebooks werden nicht unterstützt.

Einschränkungen für Workflows

Die Treibergröße für serverloses Computing für Aufträge ist derzeit fest vorgegeben und kann nicht geändert werden.
Aufgabenprotokolle werden nicht pro Aufgabenausführung isoliert. Protokolle enthalten die Ausgabe aus mehreren Aufgaben.
Aufgabenbibliotheken werden für Notebookaufgaben nicht unterstützt. Verwenden Sie stattdessen Notebook-bezogene Bibliotheken. Informationen finden Sie unter Python-Bibliotheken im Notebook-Bereich.

Compute-spezifische Einschränkungen

Folgende Compute-spezifische Features werden nicht unterstützt:

Compute-Richtlinien
Compute-bezogene Initialisierungsskripts
Compute-bezogene Bibliotheken (einschließlich benutzerdefinierter Datenquellen und Spark-Erweiterungen). Verwenden Sie stattdessen Notebook-bezogene Bibliotheken.
Konfigurationen für den Datenzugriff auf Computeebene, einschließlich Instanzprofilen. Daher ist es nicht möglich, über HMS an Cloudpfaden oder mithilfe von DBFS-Einbindungen ohne eingebettete Anmeldeinformationen auf Tabellen und Dateien zuzugreifen.
Instanzenpools
Compute von Ereignisprotokollen
Apache Spark-Computekonfigurationen und -Umgebungsvariablen

Freigeben über