Azure Databricks-rekenkracht gebruiken met uw taken

Artikel
04/19/2024

Wanneer u een Azure Databricks-taak uitvoert, worden de taken die zijn geconfigureerd als onderdeel van de taak uitgevoerd op Azure Databricks Compute, serverloze berekeningen, een cluster of een SQL Warehouse, afhankelijk van het taaktype. Het selecteren van het rekentype en de configuratieopties is belangrijk bij het operationeel maken van een taak. Dit artikel bevat aanbevelingen voor het gebruik van Azure Databricks-rekenresources om uw taken uit te voeren.

Zie Uw Azure Databricks-taak uitvoeren met serverloze berekeningen voor werkstromen voor meer informatie over het gebruik van serverloze berekeningen met uw Azure Databricks-taken.

Notitie

Geheimen worden niet bewerkt vanuit het Spark-stuurprogrammalogboek stdout en stderr de streams van een cluster. Als u gevoelige gegevens wilt beveiligen, kunnen spark-stuurprogrammalogboeken standaard alleen worden weergegeven door gebruikers met de machtiging CAN MANAGE voor de taak, de modus voor toegang van één gebruiker en clusters in de modus voor gedeelde toegang. Als u wilt dat gebruikers met de machtiging CAN ATTACH TO of CAN RESTART hebben om de logboeken op deze clusters weer te geven, stelt u de volgende Spark-configuratie-eigenschap in de clusterconfiguratie in: spark.databricks.acl.needAdminPermissionToViewLogs false

In clusters in de modus Geen isolatie voor gedeelde toegang kunnen de Spark-stuurprogrammalogboeken worden weergegeven door gebruikers met de machtiging CAN ATTACH TO of CAN MANAGE. Als u wilt beperken wie de logboeken kan lezen voor alleen gebruikers met de machtiging CAN MANAGE, stelt u in spark.databricks.acl.needAdminPermissionToViewLogs op true.

Zie De Spark-configuratie voor meer informatie over het toevoegen van Spark-eigenschappen aan een clusterconfiguratie.

Gedeelde taakclusters gebruiken

Gebruik gedeelde taakclusters om het resourcegebruik te optimaliseren met taken die meerdere taken organiseren. Met een gedeeld taakcluster kunnen meerdere taken in dezelfde taak worden uitgevoerd om het cluster opnieuw te gebruiken. U kunt één taakcluster gebruiken om alle taken uit te voeren die deel uitmaken van de taak of meerdere taakclusters die zijn geoptimaliseerd voor specifieke workloads. Een gedeeld taakcluster gebruiken:

Selecteer Nieuwe taakclusters wanneer u een taak maakt en de clusterconfiguratie voltooit.
Selecteer het nieuwe cluster bij het toevoegen van een taak aan de taak of maak een nieuw taakcluster. Elk cluster dat u configureert wanneer u Nieuwe taakclusters selecteert, is beschikbaar voor elke taak in de taak.

Een gedeeld taakcluster is gericht op één taakuitvoering en kan niet worden gebruikt door andere taken of uitvoeringen van dezelfde taak.

Bibliotheken kunnen niet worden gedeclareerd in een configuratie van een gedeeld taakcluster. U moet afhankelijke bibliotheken toevoegen in taakinstellingen.

Het juiste clustertype voor uw taak kiezen

Nieuwe taakclusters zijn toegewezen clusters voor een taak of taakuitvoering. Er wordt een gedeeld taakcluster gemaakt en gestart wanneer de eerste taak die het cluster gebruikt, wordt gestart en beëindigd nadat de laatste taak met behulp van het cluster is voltooid. Het cluster wordt niet beëindigd wanneer het niet actief is, maar pas nadat alle taken zijn voltooid. Als een gedeeld taakcluster mislukt of wordt beëindigd voordat alle taken zijn voltooid, wordt er een nieuw cluster gemaakt. Een cluster dat is gericht op één taak, wordt gemaakt en gestart wanneer de taak wordt gestart en beëindigd wanneer de taak is voltooid. In productie raadt Databricks aan om nieuwe gedeelde of taakbereikende clusters te gebruiken, zodat elke taak of taak wordt uitgevoerd in een volledig geïsoleerde omgeving.
Wanneer u een taak uitvoert op een nieuw cluster, wordt de taak behandeld als een data engineering-workload (taak), afhankelijk van de prijzen van de taakworkload. Wanneer u een taak uitvoert op een bestaand cluster met alle doeleinden, wordt de taak behandeld als een gegevensanalyseworkload (alle doeleinden), afhankelijk van de prijzen van workloads voor alle doeleinden.
Als u een beëindigd bestaand cluster selecteert en de taakeigenaar de machtiging CAN RESTART heeft, start Azure Databricks het cluster wanneer de taak volgens de planning moet worden uitgevoerd.
Bestaande clusters voor alle doeleinden werken het beste voor taken, zoals het bijwerken van dashboards met regelmatige tussenpozen .

Een pool gebruiken om de begintijden van het cluster te verminderen

Als u de begintijd van het nieuwe taakcluster wilt verminderen, maakt u een pool en configureert u het cluster van de taak om de pool te gebruiken.

Azure Databricks-rekenkracht gebruiken met uw taken

Gedeelde taakclusters gebruiken

Het juiste clustertype voor uw taak kiezen

Een pool gebruiken om de begintijden van het cluster te verminderen

Feedback

Feedback

Aanvullende resources