Delen via


Azure Databricks voor Scala-ontwikkelaars

Dit artikel bevat een handleiding voor het ontwikkelen van notebooks en taken in Azure Databricks met behulp van de Scala-taal. De eerste sectie bevat koppelingen naar zelfstudies voor algemene werkstromen en taken. De tweede sectie bevat koppelingen naar API's, bibliotheken en belangrijke hulpprogramma's.

Een eenvoudige werkstroom voor het aan de slag gaan is:

Verder kunt u zich vertakken naar meer specifieke onderwerpen:

Zelfstudies

De onderstaande zelfstudies bevatten voorbeeldcode en notebooks voor meer informatie over algemene werkstromen. Zie Een notitieblok importeren voor instructies over het importeren van notebookvoorbeelden in uw werkruimte.

Verwijzing

De onderstaande subsecties bevatten de belangrijkste functies en tips waarmee u kunt beginnen met ontwikkelen in Azure Databricks met Scala.

Scala-API

Deze koppelingen bieden een inleiding tot en verwijzing voor de Apache Spark Scala-API.

Code beheren met notebooks en Databricks Git-mappen

Databricks-notebooks ondersteunen Scala. Deze notebooks bieden functionaliteit die vergelijkbaar is met die van Jupyter, maar met toevoegingen zoals ingebouwde visualisaties met behulp van big data, Apache Spark-integraties voor foutopsporing en prestatiebewaking en MLflow-integraties voor het bijhouden van machine learning-experimenten. Ga aan de slag door een notebook te importeren. Zodra u toegang hebt tot een cluster, kunt u een notebook aan het cluster koppelen en het notebook uitvoeren.

Tip

Als u de status van uw notebook volledig opnieuw wilt instellen, kan het handig zijn om de kernel opnieuw op te starten. Voor Jupyter-gebruikers komt de optie 'kernel opnieuw opstarten' in Jupyter overeen met het loskoppelen en opnieuw koppelen van een notebook in Databricks. Als u de kernel opnieuw wilt starten in een notebook, klikt u op de rekenkiezer op de notebookwerkbalk en beweegt u de muisaanwijzer over het gekoppelde cluster of SQL Warehouse in de lijst om een zijmenu weer te geven. Selecteer Loskoppelen en opnieuw koppelen. Hierdoor wordt het notebook losgekoppeld van uw cluster en wordt het opnieuw gekoppeld, waardoor het proces opnieuw wordt gestart.

Met Databricks Git-mappen kunnen gebruikers notebooks en andere bestanden synchroniseren met Git-opslagplaatsen. Databricks Git-mappen helpen bij het maken van codeversies en samenwerking en het importeren van een volledige opslagplaats met code in Azure Databricks, het weergeven van eerdere notebookversies en het integreren met IDE-ontwikkeling. Ga aan de slag door een externe Git-opslagplaats te klonen. Vervolgens kunt u notebooks openen of maken met de kloon van de opslagplaats, het notebook koppelen aan een cluster en het notebook uitvoeren.

Clusters en bibliotheken

Azure Databricks Compute biedt rekenbeheer voor clusters van elke grootte: van clusters met één knooppunt tot grote clusters. U kunt clusterhardware en -bibliotheken aanpassen aan uw behoeften. Gegevenswetenschappers werken over het algemeen door een cluster te maken of een bestaand gedeeld cluster te gebruiken. Zodra u toegang hebt tot een cluster, kunt u een notebook aan het cluster koppelen of een taak uitvoeren op het cluster.

Azure Databricks-clusters maken gebruik van een Databricks Runtime, die veel populaire bibliotheken biedt, zoals Apache Spark, Delta Lake en meer. U kunt ook extra bibliotheken van derden of aangepaste bibliotheken installeren voor gebruik met notebooks en taken.

Visualisaties

Azure Databricks Scala-notebooks bieden ingebouwde ondersteuning voor veel soorten visualisaties. U kunt ook verouderde visualisaties gebruiken:

Interoperabiliteit

In deze sectie worden functies beschreven die ondersteuning bieden voor interoperabiliteit tussen Scala en SQL.

Projecten

U kunt Scala-workloads automatiseren als geplande of geactiveerde taken in Azure Databricks. Taken kunnen notebooks en JAR's uitvoeren.

  • Zie Databricks-taken configureren en bewerken voor meer informatie over het maken van een taak via de gebruikersinterface.
  • Met de Databricks SDK's kunt u taken programmatisch maken, bewerken en verwijderen.
  • De Databricks CLI biedt een handige opdrachtregelinterface voor het automatiseren van taken.

IDE's, hulpprogramma's voor ontwikkelaars en SDK's

Naast het ontwikkelen van Scala-code in Azure Databricks-notebooks, kunt u extern ontwikkelen met behulp van geïntegreerde ontwikkelomgevingen (IDE's), zoals IntelliJ IDEA. Er zijn verschillende opties om werk tussen externe ontwikkelomgevingen en Azure Databricks te synchroniseren:

  • Code: U kunt code synchroniseren met Behulp van Git. Zie Git-integratie voor Databricks Git-mappen.
  • Bibliotheken en taken: u kunt bibliotheken extern maken en uploaden naar Azure Databricks. Deze bibliotheken kunnen worden geïmporteerd in Azure Databricks-notebooks of ze kunnen worden gebruikt om taken te maken. Zie Bibliotheken en Werkstromen plannen en organiseren.
  • Uitvoering van externe machines: u kunt code uitvoeren vanuit uw lokale IDE voor interactieve ontwikkeling en testen. De IDE kan communiceren met Azure Databricks om grote berekeningen uit te voeren op Azure Databricks-clusters. U kunt bijvoorbeeld IntelliJ IDEA gebruiken met Databricks Connect.

Databricks biedt een set SDK's die ondersteuning bieden voor automatisering en integratie met externe hulpprogramma's. U kunt de Databricks SDK's gebruiken om resources zoals clusters en bibliotheken, code en andere werkruimteobjecten, workloads en taken, en meer te beheren. Bekijk de Databricks SDK's.

Zie Ontwikkelhulpprogramma's voor meer informatie over IDE's, hulpprogramma's voor ontwikkelaars en SDK's.

Aanvullende bronnen

  • De Databricks Academy biedt cursussen in eigen tempo en door docenten geleid over veel onderwerpen.