Delen via


Aanbevolen procedures voor serverloze berekeningen

In dit artikel vindt u aanbevelingen voor beste praktijken voor het gebruik van serverloze computing in uw notebooks en taken.

Door deze aanbevelingen te volgen, verbetert u de productiviteit, kostenefficiëntie en betrouwbaarheid van uw workloads in Azure Databricks.

Workloads migreren naar serverloze computing

Om de isolatie van gebruikerscode in de gedeelde serverloze rekenomgeving te waarborgen, maakt Azure Databricks gebruik van Lakeguard om gebruikerscode te isoleren van de Spark-engine en van andere gebruikers.

Daarom zijn voor sommige workloads codewijzigingen vereist om verder te werken aan serverloze berekeningen. Zie Serverloze rekenbeperkingen voor een lijst met beperkingen.

Bepaalde workloads zijn eenvoudiger te migreren dan andere workloads. Workloads die voldoen aan de volgende vereisten, zijn het eenvoudigst te migreren:

  • De gegevens die worden geopend, moeten worden opgeslagen in Unity Catalog.
  • De workload moet compatibel zijn met standaard berekenen.
  • De workload moet compatibel zijn met Databricks Runtime 14.3 of hoger.

Als u wilt testen of een workload werkt op serverloze berekeningen, voert u deze uit op een klassieke rekenresource met de standaardtoegangsmodus en een Databricks Runtime van 14.3 of hoger. Als de uitvoering is geslaagd, is de workload gereed voor migratie.

Veel oudere workloads worden niet naadloos gemigreerd. Azure Databricks raadt aan om de serverloze rekencompatibiliteit te prioriteren wanneer u nieuwe workloads maakt, in plaats van alles opnieuw op te geven.

Python-pakketversies opgeven

Wanneer u migreert naar serverloze compute, moet u uw Python-pakketten vastmaken aan specifieke versies om reproduceerbare omgevingen te garanderen. Als u geen versie opgeeft, kan het pakket worden omgezet in een andere versie op basis van de serverloze omgevingsversie, waardoor de latentie kan toenemen wanneer nieuwe pakketten moeten worden geïnstalleerd.

Uw bestand moet bijvoorbeeld requirements.txt specifieke pakketversies bevatten, zoals deze:

numpy==2.2.2
pandas==2.2.3

Serverloze omgevingsversies

Serverloze berekening maakt gebruik van omgevingsversies in plaats van traditionele Databricks Runtime-versies. Dit vertegenwoordigt een verschuiving in de wijze waarop u workloadcompatibiliteit beheert:

  • Databricks Runtime-benadering: u selecteert een specifieke Databricks Runtime-versie voor uw workload en beheert upgrades handmatig om de compatibiliteit te behouden.
  • Serverloze benadering: u schrijft code op basis van een omgevingsversie en Azure Databricks werkt de onderliggende server onafhankelijk bij.

Omgevingsversies bieden een stabiele client-API die ervoor zorgt dat uw workload compatibel blijft terwijl Azure Databricks onafhankelijk prestatieverbeteringen, beveiligingsverbeteringen en oplossingen voor fouten levert zonder dat er codewijzigingen in uw workloads nodig zijn.

Elke omgevingsversie bevat bijgewerkte systeembibliotheken, functies en bugfixes, terwijl achterwaartse compatibiliteit voor workloads behouden blijft. Azure Databricks ondersteunt elke omgevingsversie gedurende drie jaar vanaf de releasedatum, waardoor u een voorspelbare levenscyclus hebt voor het plannen van upgrades.

Zie Een omgevingsversie selecteren voor uw serverloze workload om een omgevingsversie te selecteren. Zie Serverloze omgevingsversies voor meer informatie over beschikbare omgevingsversies en hun functies.

Gegevens opnemen van externe systemen

Omdat serverloze berekening geen ondersteuning biedt voor de installatie van JAR-bestanden, kunt u geen JDBC- of ODBC-stuurprogramma gebruiken om gegevens op te nemen uit een externe gegevensbron.

Alternatieve strategieën die u voor opname kunt gebruiken, zijn onder andere:

Alternatieven voor opname

Wanneer u serverloze berekeningen gebruikt, kunt u ook de volgende functies gebruiken om query's uit te voeren op uw gegevens zonder deze te verplaatsen.

  • Als u gegevensduplicatie wilt beperken of wilt garanderen dat u query's uitvoert op de meest recente gegevens, raadt Databricks het gebruik van Delta Sharing aan. Zie Wat is Delta Sharing?.
  • Als u ad-hocrapportage en proof-of-concept-werk wilt uitvoeren, raadt Databricks aan om de juiste keuze te proberen, wat mogelijk Lakehouse Federation is. Lakehouse Federation maakt het mogelijk om volledige databases te synchroniseren met Azure Databricks vanaf externe systemen en wordt beheerd door Unity Catalog. Zie Wat is Lakehouse Federation?.

Probeer een of beide functies en kijk of ze voldoen aan de prestatievereisten van uw query.

Ondersteunde Spark-configuraties

Om de configuratie van Spark op serverloze berekeningen te automatiseren, heeft Azure Databricks de ondersteuning verwijderd voor het handmatig instellen van de meeste Spark-configuraties. Zie Spark-eigenschappen configureren voor serverloze notebooks en taken om een lijst met ondersteunde Spark-configuratieparameters weer te geven.

Taakuitvoeringen op serverloze rekencapaciteit zullen mislukken als u een niet-ondersteunde Spark-configuratie instelt.

De kosten van serverloze compute bewaken

Er zijn meerdere functies die u kunt gebruiken om de kosten van serverloze berekeningen te bewaken: