Azure Databricks voor Scala-ontwikkelaars
Dit artikel bevat een handleiding voor het ontwikkelen van notebooks en taken in Azure Databricks met behulp van de Scala-taal. De eerste sectie bevat koppelingen naar zelfstudies voor algemene werkstromen en taken. De tweede sectie bevat koppelingen naar API's, bibliotheken en belangrijke hulpprogramma's.
Een eenvoudige werkstroom voor het aan de slag gaan is:
- Importeer code en voer deze uit met behulp van een interactief Databricks-notebook: importeer uw eigen code uit bestanden of Git-opslagplaatsen of probeer een zelfstudie die hieronder wordt vermeld.
- Voer uw code uit op een cluster: maak een eigen cluster of zorg ervoor dat u gemachtigd bent om een gedeeld cluster te gebruiken. Koppel uw notebook aan het cluster en voer het notebook uit.
Verder kunt u zich vertakken naar meer specifieke onderwerpen:
- Werken met grotere gegevenssets met Apache Spark
- Visualisaties toevoegen
- Uw workload automatiseren als een taak
- Ontwikkelen in IDE's
Zelfstudies
De onderstaande zelfstudies bevatten voorbeeldcode en notebooks voor meer informatie over algemene werkstromen. Zie Een notitieblok importeren voor instructies over het importeren van notebookvoorbeelden in uw werkruimte.
- Zelfstudie: Gegevens laden en transformeren met Apache Spark DataFrames
- Zelfstudie: Delta Lake biedt Scala-voorbeelden.
- Quickstart Java en Scala helpt u bij het bijhouden van machine learning-trainingsuitvoeringen met behulp van MLflow in Scala.
- XGBoost gebruiken in Azure Databricks biedt een Scala-voorbeeld.
Verwijzing
De onderstaande subsecties bevatten de belangrijkste functies en tips waarmee u kunt beginnen met ontwikkelen in Azure Databricks met Scala.
Scala-API
Deze koppelingen bieden een inleiding tot en verwijzing voor de Apache Spark Scala-API.
- Zelfstudie: Gegevens laden en transformeren met Apache Spark DataFrames
- Query's uitvoeren op JSON-tekenreeksen
- Inleiding tot Gestructureerd streamen
- Naslaginformatie over de Apache Spark Core-API
- Naslaginformatie over de Apache Spark ML-API
Code beheren met notebooks en Databricks Git-mappen
Databricks-notebooks ondersteunen Scala. Deze notebooks bieden functionaliteit die vergelijkbaar is met die van Jupyter, maar met toevoegingen zoals ingebouwde visualisaties met behulp van big data, Apache Spark-integraties voor foutopsporing en prestatiebewaking en MLflow-integraties voor het bijhouden van machine learning-experimenten. Ga aan de slag door een notebook te importeren. Zodra u toegang hebt tot een cluster, kunt u een notebook aan het cluster koppelen en het notebook uitvoeren.
Tip
Als u de status van uw notebook volledig opnieuw wilt instellen, kan het handig zijn om de kernel opnieuw op te starten. Voor Jupyter-gebruikers komt de optie 'kernel opnieuw opstarten' in Jupyter overeen met het loskoppelen en opnieuw koppelen van een notebook in Databricks. Als u de kernel opnieuw wilt starten in een notebook, klikt u op de rekenkiezer op de notebookwerkbalk en beweegt u de muisaanwijzer over het gekoppelde cluster of SQL Warehouse in de lijst om een zijmenu weer te geven. Selecteer Loskoppelen en opnieuw koppelen. Hierdoor wordt het notebook losgekoppeld van uw cluster en wordt het opnieuw gekoppeld, waardoor het proces opnieuw wordt gestart.
Met Databricks Git-mappen kunnen gebruikers notebooks en andere bestanden synchroniseren met Git-opslagplaatsen. Databricks Git-mappen helpen bij het maken van codeversies en samenwerking en het importeren van een volledige opslagplaats met code in Azure Databricks, het weergeven van eerdere notebookversies en het integreren met IDE-ontwikkeling. Ga aan de slag door een externe Git-opslagplaats te klonen. Vervolgens kunt u notebooks openen of maken met de kloon van de opslagplaats, het notebook koppelen aan een cluster en het notebook uitvoeren.
Clusters en bibliotheken
Azure Databricks Compute biedt rekenbeheer voor clusters van elke grootte: van clusters met één knooppunt tot grote clusters. U kunt clusterhardware en -bibliotheken aanpassen aan uw behoeften. Gegevenswetenschappers werken over het algemeen door een cluster te maken of een bestaand gedeeld cluster te gebruiken. Zodra u toegang hebt tot een cluster, kunt u een notebook aan het cluster koppelen of een taak uitvoeren op het cluster.
- Voor kleine workloads waarvoor slechts één knooppunt nodig is, kunnen gegevenswetenschappers rekenkracht van één knooppunt gebruiken voor kostenbesparingen.
- Zie Aanbevelingen voor compute-configuratie voor gedetailleerde tips
- Beheerders kunnen clusterbeleid instellen om het maken van clusters te vereenvoudigen en te begeleiden.
Azure Databricks-clusters maken gebruik van een Databricks Runtime, die veel populaire bibliotheken biedt, zoals Apache Spark, Delta Lake en meer. U kunt ook extra bibliotheken van derden of aangepaste bibliotheken installeren voor gebruik met notebooks en taken.
- Begin met de standaardbibliotheken in de releaseversies en compatibiliteit van Databricks Runtime. Zie de releaseversies en compatibiliteit van Databricks Runtime voor volledige lijsten met vooraf geïnstalleerde bibliotheken.
- U kunt scala-bibliotheken ook installeren in een cluster.
- Zie Bibliotheken voor meer informatie.
Visualisaties
Azure Databricks Scala-notebooks bieden ingebouwde ondersteuning voor veel soorten visualisaties. U kunt ook verouderde visualisaties gebruiken:
Interoperabiliteit
In deze sectie worden functies beschreven die ondersteuning bieden voor interoperabiliteit tussen Scala en SQL.
Projecten
U kunt Scala-workloads automatiseren als geplande of geactiveerde taken in Azure Databricks. Taken kunnen notebooks en JAR's uitvoeren.
- Zie Databricks-taken configureren en bewerken voor meer informatie over het maken van een taak via de gebruikersinterface.
- Met de Databricks SDK's kunt u taken programmatisch maken, bewerken en verwijderen.
- De Databricks CLI biedt een handige opdrachtregelinterface voor het automatiseren van taken.
IDE's, hulpprogramma's voor ontwikkelaars en SDK's
Naast het ontwikkelen van Scala-code in Azure Databricks-notebooks, kunt u extern ontwikkelen met behulp van geïntegreerde ontwikkelomgevingen (IDE's), zoals IntelliJ IDEA. Er zijn verschillende opties om werk tussen externe ontwikkelomgevingen en Azure Databricks te synchroniseren:
- Code: U kunt code synchroniseren met Behulp van Git. Zie Git-integratie voor Databricks Git-mappen.
- Bibliotheken en taken: u kunt bibliotheken extern maken en uploaden naar Azure Databricks. Deze bibliotheken kunnen worden geïmporteerd in Azure Databricks-notebooks of ze kunnen worden gebruikt om taken te maken. Zie Bibliotheken en Werkstromen plannen en organiseren.
- Uitvoering van externe machines: u kunt code uitvoeren vanuit uw lokale IDE voor interactieve ontwikkeling en testen. De IDE kan communiceren met Azure Databricks om grote berekeningen uit te voeren op Azure Databricks-clusters. U kunt bijvoorbeeld IntelliJ IDEA gebruiken met Databricks Connect.
Databricks biedt een set SDK's die ondersteuning bieden voor automatisering en integratie met externe hulpprogramma's. U kunt de Databricks SDK's gebruiken om resources zoals clusters en bibliotheken, code en andere werkruimteobjecten, workloads en taken, en meer te beheren. Bekijk de Databricks SDK's.
Aanvullende bronnen
- De Databricks Academy biedt cursussen in eigen tempo en door docenten geleid over veel onderwerpen.