Dela via


Snabbstart: Interaktiv dataomvandling med Apache Spark i Azure Machine Learning

Azure Machine Learning-integrering med Azure Synapse Analytics ger enkel åtkomst till Apache Spark-ramverket för att hantera interaktiva dataomvandlingar i Azure Machine Learning. Den här åtkomsten möjliggör interaktiv dataomvandling i Azure Machine Learning Notebook.

I den här snabbstartsguiden får du lära dig hur du utför interaktiva dataomvandlingar med Serverlös Spark-beräkning i Azure Machine Learning, Azure Data Lake Storage (ADLS) Gen 2-lagringskonto och genomströmning av användaridentitet.

Förutsättningar

Lagra autentiseringsuppgifter för Azure-lagringskonto som hemligheter i Azure Key Vault

Så här lagrar du autentiseringsuppgifter för Azure-lagringskontot som hemligheter i Azure Key Vault med azure-portalens användargränssnitt:

  1. Gå till ditt Azure Key Vault i Azure-portalen

  2. Välj Hemligheter i den vänstra panelen

  3. Välj + Generera/importera

    Skärmbild som visar fliken Skapa eller importera azure Key Vault-hemligheter.

  4. På skärmen Skapa en hemlighet anger du ett Namn för den hemlighet som du vill skapa

  5. Gå till Azure Blob Storage-kontot i Azure-portalen, som du ser i den här bilden:

    Skärmbild som visar skärmen Azure-åtkomstnyckel och anslutningssträng värden.

  6. Välj Åtkomstnycklar på sidan Azure Blob Storage-konto till vänster

  7. Välj Visa bredvid Nyckel 1 och sedan Kopiera till Urklipp för att hämta åtkomstnyckeln för lagringskontot

    Kommentar

    Välj lämpliga alternativ för att kopiera

    • Azure Blob Storage-token för signatur för delad åtkomst (SAS) för container med delad åtkomst
    • Autentiseringsuppgifter för Azure Data Lake Storage (ADLS) Gen 2-lagringskontots huvudnamn
      • klientorganisations-ID:
      • klient-ID och
      • hemlighet

    på respektive användargränssnitt när du skapar Azure Key Vault-hemligheterna åt dem

  8. Gå tillbaka till skärmen Skapa en hemlighet

  9. I textrutan Hemligt värde anger du åtkomstnyckelns autentiseringsuppgifter för Azure Storage-kontot, som kopierades till Urklipp i föregående steg

  10. Välj Skapa

    Skärmbild som visar skärmen för att skapa Azure-hemligheter.

Dricks

Azure CLI och Azure Key Vault hemligt klientbibliotek för Python kan också skapa Azure Key Vault-hemligheter.

Lägga till rolltilldelningar i Azure Storage-konton

Vi måste se till att sökvägarna för indata och utdata är tillgängliga innan vi startar interaktiv dataomvandling. För det första för

  • användaridentiteten för notebook-sessionens inloggade användare

    eller

  • ett huvudnamn för tjänsten

tilldela roller för läsare och lagringsblobdataläsare till användaridentiteten för den inloggade användaren. Men i vissa scenarier kanske vi vill skriva tillbaka de vridna data till Azure-lagringskontot. Rollerna Läsare och Lagringsblobdataläsare ger skrivskyddad åtkomst till användaridentiteten eller tjänstens huvudnamn. Om du vill aktivera läs- och skrivåtkomst tilldelar du rollerna Deltagare och Lagringsblobdatadeltagare till användaridentiteten eller tjänstens huvudnamn. Så här tilldelar du lämpliga roller till användaridentiteten:

  1. Öppna Microsoft Azure-portalen

  2. Sök och välj tjänsten Lagringskonton

    Utökningsbar skärmbild som visar sökning och val av tjänst för lagringskonton i Microsoft Azure-portalen.

  3. På sidan Lagringskonton väljer du Azure Data Lake Storage (ADLS) Gen 2-lagringskontot i listan. En sida som visar översikten över lagringskontot öppnas

    Utökningsbar skärmbild som visar val av Lagringskontot för Azure Data Lake Storage (ADLS) Gen 2- lagringskontot.

  4. Välj Åtkomstkontroll (IAM) på den vänstra panelen

  5. Välj Lägg till rolltilldelning

    Skärmbild som visar skärmen Azure-åtkomstnycklar.

  6. Hitta och välj rollen Storage Blob Data Contributor

  7. Välj Nästa

    Skärmbild som visar skärmen Lägg till rolltilldelning i Azure.

  8. Välj Användare, grupp eller tjänstens huvudnamn

  9. Välj + Välj medlemmar

  10. Sök efter användaridentiteten nedan Välj

  11. Välj användaridentiteten i listan så att den visas under Valda medlemmar

  12. Välj lämplig användaridentitet

  13. Välj Nästa

    Skärmbild som visar fliken Medlemmar i azure-lägg till rolltilldelning.

  14. Välj Granska + tilldela

    Skärmbild som visar skärmen Granska och tilldela rolltilldelning i Azure.

  15. Upprepa steg 2–13 för rolltilldelning för deltagare

När användaridentiteten har tilldelats lämpliga roller bör data i Azure Storage-kontot bli tillgängliga.

Kommentar

Om en ansluten Synapse Spark-pool pekar på en Synapse Spark-pool, på en Azure Synapse-arbetsyta som har ett hanterat virtuellt nätverk associerat med den, bör du konfigurera en hanterad privat slutpunkt till ett lagringskonto för att säkerställa dataåtkomst.

Säkerställa resursåtkomst för Spark-jobb

För att komma åt data och andra resurser kan Spark-jobb använda antingen en hanterad identitet eller genomströmning av användaridentitet. I följande tabell sammanfattas de olika mekanismerna för resursåtkomst när du använder Azure Machine Learning serverlös Spark-beräkning och bifogad Synapse Spark-pool.

Spark-pool Identiteter som stöds Standardidentitet
Serverlös Spark-beräkning Användaridentitet, användartilldelad hanterad identitet kopplad till arbetsytan Användaridentitet
Bifogad Synapse Spark-pool Användaridentitet, användartilldelad hanterad identitet kopplad till den anslutna Synapse Spark-poolen, systemtilldelad hanterad identitet för den anslutna Synapse Spark-poolen Systemtilldelad hanterad identitet för den anslutna Synapse Spark-poolen

Om CLI- eller SDK-koden definierar ett alternativ för att använda hanterad identitet förlitar sig Azure Machine Learning serverlös Spark-beräkning på en användartilldelad hanterad identitet som är kopplad till arbetsytan. Du kan koppla en användartilldelad hanterad identitet till en befintlig Azure Machine Learning-arbetsyta med Azure Machine Learning CLI v2 eller med ARMClient.

Nästa steg