Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Opmerking
Dit artikel is van toepassing op Databricks Connect voor Databricks Runtime 13.3 LTS en hoger.
Met Databricks Connect kunt u populaire IDE's, zoals PyCharm, notebookservers en andere aangepaste toepassingen, verbinden met Azure Databricks Compute. Zie Wat is Databricks Connect?.
In dit artikel wordt beschreven hoe u snel aan de slag kunt met Databricks Connect voor Python met behulp van PyCharm. U maakt een project in PyCharm, installeert Databricks Connect voor Databricks Runtime 13.3 LTS en hoger en voert eenvoudige code uit op klassieke berekeningen in uw Databricks-werkruimte vanuit PyCharm.
Behoeften
Als u deze zelfstudie wilt voltooien, moet u aan de volgende vereisten voldoen:
- Uw werkruimte, lokale omgeving en berekening voldoen aan de vereisten voor Databricks Connect voor Python. Zie de gebruiksvereisten voor Databricks Connect.
- U hebt PyCharm geïnstalleerd. Deze zelfstudie is getest met PyCharm Community Edition 2023.3.5. Als u een andere versie of editie van PyCharm gebruikt, kunnen de volgende instructies variëren.
- Als u klassieke berekeningen gebruikt, hebt u de cluster-id nodig. Als u de cluster-id wilt ophalen, klikt u in uw werkruimte op Compute op de zijbalk en vervolgens op de naam van het cluster. Kopieer in de adresbalk van uw webbrowser de tekenreeks tussen
clustersenconfigurationin de URL.
Stap 1: Azure Databricks-verificatie configureren
In deze zelfstudie wordt gebruikgemaakt van Azure Databricks OAuth U2M-verificatie (user-to-machine) en een Azure Databricks-configuratieprofiel voor verificatie bij uw Azure Databricks-werkruimte. Zie Verbindingseigenschappen configureren als u een ander verificatietype wilt gebruiken.
Voor het configureren van OAuth U2M-verificatie is de Databricks CLI vereist. Zie De Databricks CLI installeren of bijwerken voor informatie over het installeren van de Databricks CLI.
Start OAuth U2M-verificatie als volgt:
Gebruik de Databricks CLI om OAuth-tokenbeheer lokaal te starten door de volgende opdracht uit te voeren voor elke doelwerkruimte.
Vervang in de volgende opdracht
<workspace-url>met uw Azure Databricks URL per werkruimte, bijvoorbeeldhttps://adb-1234567890123456.7.azuredatabricks.net.databricks auth login --configure-cluster --host <workspace-url>Aanbeveling
Zie Een verbinding met serverloze berekeningen configureren met Serverless Compute om serverloze berekeningen te gebruiken met Databricks Connect.
De Databricks CLI vraagt u om de gegevens op te slaan die u hebt ingevoerd als een Azure Databricks-configuratieprofiel. Druk
Enterom de voorgestelde profielnaam te accepteren of voer de naam van een nieuw of bestaand profiel in. Elk bestaand profiel met dezelfde naam wordt overschreven met de gegevens die u hebt ingevoerd. U kunt profielen gebruiken om snel uw verificatiecontext over te schakelen tussen meerdere werkruimten.Als u een lijst met bestaande profielen wilt ophalen, gebruikt u de Databricks CLI in een afzonderlijke terminal of opdrachtprompt om de opdracht uit te voeren
databricks auth profiles. Als u de bestaande instellingen van een specifiek profiel wilt weergeven, voert u de opdrachtdatabricks auth env --profile <profile-name>uit.Voltooi in uw webbrowser de instructies op het scherm om u aan te melden bij uw Azure Databricks-werkruimte.
Gebruik de pijl-omhoog toets en de pijl-omlaag toets in de lijst met beschikbare clusters die in uw terminal of opdrachtprompt wordt weergegeven om het Azure Databricks-doelcluster in uw werkruimte te selecteren en druk vervolgens op
Enter. U kunt ook een deel van de weergavenaam van het cluster typen om de lijst met beschikbare clusters te filteren.Voer een van de volgende opdrachten uit om de huidige OAuth-tokenwaarde van een profiel en de geplande verlooptijdstempel van het token weer te geven:
databricks auth token --host <workspace-url>databricks auth token -p <profile-name>databricks auth token --host <workspace-url> -p <profile-name>
Als u meerdere profielen met dezelfde
--hostwaarde hebt, moet u mogelijk de--hosten-popties opgeven om de Databricks CLI te helpen de juiste overeenkomende OAuth-tokengegevens te vinden.
Stap 2: Het project maken
- Start PyCharm.
- Klik in het hoofdmenu op Bestand > Nieuw Project.
- Klik in het dialoogvenster Nieuw project op Pure Python.
- Klik voor Locatie op het mappictogram en voltooi de aanwijzingen op het scherm om het pad naar uw nieuwe Python-project op te geven.
- Laat Een main.py welkomstscript maken geselecteerd.
- Klik voor het type Interpreter op Project venv.
- Vouw de Python-versie uit en gebruik het mappictogram of de vervolgkeuzelijst om het pad naar de Python-interpreter op te geven uit de voorgaande vereisten.
- Klik op Create.
Stap 3: Het Databricks Connect-pakket toevoegen
- Klik in het hoofdmenu van PyCharm op Windows > Python-pakketten weergeven>.
- Typ
databricks-connectin het zoekvak. - Klik in de lijst met PyPI-opslagplaatsen op Databricks-connect.
- Selecteer in de meest recente vervolgkeuzelijst van het resultaatvenster de versie die overeenkomt met de Databricks Runtime-versie van uw cluster. Als in uw cluster bijvoorbeeld Databricks Runtime 14.3 is geïnstalleerd, selecteert u 14.3.1.
- Klik op Pakket installeren.
- Nadat het pakket is geïnstalleerd, kunt u het venster Python-pakketten sluiten.
Stap 4: Code toevoegen
Klik in het venster Project met de rechtermuisknop op de hoofdmap van het project en klik op Nieuw > Python-bestand.
Voer het Python-bestand in
main.pyen dubbelklik erop.Voer de volgende code in het bestand in en sla het bestand op, afhankelijk van de naam van uw configuratieprofiel.
Als uw configuratieprofiel uit stap 1 de naam
DEFAULTheeft, voert u de volgende code in het bestand in en slaat u het bestand op:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)Als uw configuratieprofiel uit stap 1 geen naam
DEFAULTheeft, voert u in plaats daarvan de volgende code in het bestand in. Vervang de tijdelijke aanduiding<profile-name>door de naam van uw configuratieprofiel uit stap 1 en sla het bestand op:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
Stap 5: De code uitvoeren
- Start het doelcluster in uw externe Azure Databricks-werkruimte.
- Nadat het cluster is gestart, klikt u in het hoofdmenu op Uitvoeren > Uitvoeren 'main'.
- In het venster Hulpprogramma Uitvoeren (Windows Uitvoeren weergeven >>), in het hoofdvenster van het tabblad Uitvoeren, worden de eerste 5 rijen van het
samples.nyctaxi.tripsvenster weergegeven.
Stap 6: Fouten opsporen in de code
- Terwijl het cluster nog steeds wordt uitgevoerd, klikt u in de voorgaande code op de rugmarge naast om een onderbrekingspunt in te
df.show(5)stellen. - Klik in het hoofdmenu op Hoofdopsporing >uitvoeren.
- Vouw in het venster Foutopsporingsprogramma (Windows >> Foutopsporing weergeven) in het deelvenster Variabelen van het foutopsporingsprogramma de df- en Spark-variabeleknooppunten uit om door informatie over de code en
dfvariabelen te bladeren.spark - Klik in de zijbalk van het hulpprogramma voor foutopsporing op het groene pijlpictogram (Programma hervatten).
- In het Foutopsporingsprogramma tabblad wordt in het Console venster de eerste vijf rijen van
samples.nyctaxi.tripsweergegeven.