Werkstromen voor gegevensverwerking en -analyse implementeren met Taken

Artikel
03/25/2024

U kunt een Azure Databricks-taak gebruiken om uw pijplijnen voor gegevensverwerking, machine learning of gegevensanalyse in te delen op het Databricks-platform. Azure Databricks-taken ondersteunen een aantal workloadtypen, waaronder notebooks, scripts, Delta Live Tables-pijplijnen, Databricks SQL-query's en dbt-projecten . De volgende artikelen helpen u bij het gebruik van de functies en opties van Azure Databricks-taken voor het implementeren van uw gegevenspijplijnen.

Uw gegevens transformeren, analyseren en visualiseren met een Azure Databricks-taak

U kunt een taak gebruiken om een gegevenspijplijn te maken die gegevens opneemt, transformeert, analyseert en visualiseert. In het voorbeeld in Databricks SQL in een Azure Databricks-taak wordt een pijplijn gebouwd die:

Gebruikt een Python-script om gegevens op te halen met behulp van een REST API.
Maakt gebruik van Delta Live Tables om de opgehaalde gegevens op te nemen en te transformeren en de getransformeerde gegevens op te slaan in Delta Lake.
Maakt gebruik van de integratie van taken met Databricks SQL om de getransformeerde gegevens te analyseren en grafieken te maken om de resultaten te visualiseren.

Dbt-transformaties in een taak gebruiken

Gebruik het dbt taaktype als u gegevenstransformatie uitvoert met een dbt-kernproject en dat project wilt integreren in een Azure Databricks-taak, of als u nieuwe dbt-transformaties wilt maken en deze transformaties in een taak wilt uitvoeren. Zie Dbt-transformaties gebruiken in een Azure Databricks-taak.

Een Python-pakket in een taak gebruiken

Python-wielbestanden zijn een standaardmethode voor het verpakken en distribueren van de bestanden die nodig zijn om een Python-toepassing uit te voeren. U kunt eenvoudig een taak maken die gebruikmaakt van Python-code die is verpakt als een Python-wielbestand met het Python wheel taaktype. Zie Een Python-wielbestand gebruiken in een Azure Databricks-taak.

Code gebruiken die is verpakt in een JAR

Bibliotheken en toepassingen die zijn geïmplementeerd in een JVM-taal, zoals Java en Scala, worden meestal verpakt in een JAR-bestand (Java Archive). Azure Databricks Jobs ondersteunt code die is verpakt in een JAR met het JAR taaktype. Zie Een JAR gebruiken in een Azure Databricks-taak.

Notebooks of Python-code gebruiken die wordt onderhouden in een centrale opslagplaats

Een veelgebruikte manier om versiebeheer en samenwerking voor productieartefacten te beheren, is door een centrale opslagplaats zoals GitHub te gebruiken. Azure Databricks Jobs ondersteunt het maken en uitvoeren van taken met behulp van notebooks of Python-code die is geïmporteerd uit een opslagplaats, waaronder GitHub- of Databricks Git-mappen. Zie Versiebeheerde broncode gebruiken in een Azure Databricks-taak.

Uw taken organiseren met Apache Airflow

Databricks raadt u aan om Azure Databricks-taken te gebruiken om uw werkstromen te organiseren. Apache Airflow wordt echter vaak gebruikt als een systeem voor werkstroomindeling en biedt systeemeigen ondersteuning voor Azure Databricks-taken. Hoewel Azure Databricks Jobs een visuele gebruikersinterface biedt voor het maken van uw werkstromen, maakt Airflow gebruik van Python-bestanden om uw gegevenspijplijnen te definiëren en te implementeren. Zie Azure Databricks-taken organiseren met Apache Airflow voor een voorbeeld van het maken en uitvoeren van een taak met Airflow.

Een taak uitvoeren met behulp van een service-principal

U kunt uw taken uitvoeren als een serviceaccount met behulp van een Microsoft Entra ID-toepassing (voorheen Azure Active Directory) en service-principal. Als u een taak als een serviceaccount uitvoert in plaats van een afzonderlijke gebruiker, dan kunt u de toegang tot de taak beheren, ervoor zorgen dat de taak de benodigde machtigingen heeft en problemen voorkomen als een taakeigenaar uit een werkruimte wordt verwijderd. Zie Een taak uitvoeren met een Microsoft Entra ID-service-principal voor een zelfstudie over het maken en gebruiken van een service-principal voor Azure Databricks.

Delen via