Condividi tramite


Integrazione git definizione processo Spark

Questo articolo illustra il funzionamento dell'integrazione Git per le definizioni dei processi Spark (SJD) in Microsoft Fabric. Informazioni su come configurare una connessione al repository, gestire le modifiche alle definizioni dei processi Spark tramite il controllo del codice sorgente e distribuirle in varie aree di lavoro.

L'abilitazione dell'integrazione Git per le definizioni dei processi Spark in Azure DevOps consente di tenere traccia delle modifiche tramite la cronologia Git completa. Se è selezionato PySpark o SparkR, il file di definizione principale e il file di riferimento vengono inclusi come parte del commit. Vengono rilevate anche le modifiche apportate al codice sorgente all'interno di questi file.

Importante

Questa funzionalità è disponibile in anteprima.

Configurare una connessione

Dalle impostazioni dell'area di lavoro è possibile configurare facilmente una connessione al repository per eseguire il commit e la sincronizzazione delle modifiche. Per configurare la connessione, vedere l'articolo Introduzione all'integrazione con Git. Una volta connessi, gli elementi, ad esempio le definizioni dei processi Spark, saranno visibili nel pannello di controllo Del codice sorgente.

Screenshot del pannello di controllo del codice sorgente dell'area di lavoro.

Dopo aver eseguito il commit della definizione del processo Spark nel repository Git, la struttura della cartella di definizione del processo viene visualizzata nel repository.

Rappresentazione della definizione del processo Spark in Git

L'immagine seguente è un esempio della struttura di file di ogni elemento di definizione del processo Spark nel repository:

Screenshot della struttura del file del repository Git sjd.

Quando si esegue il commit dell'elemento di definizione del processo Spark nel repository, viene creata una cartella Git per ogni elemento e denominata in base a questo schema: <Nome> elemento + "SparkJobDefinition". Non rinominare la cartella perché viene usata per tenere traccia dell'elemento nell'area di lavoro. Ad esempio, se il nome dell'elemento è "sjd1", il nome della cartella Git sarà "sjd1SparkJobDefinition".

Nella cartella Git sono presenti due sottocartelle. Sono il principale e il riferimento. La cartella principale contiene il file di definizione principale e la cartella di riferimento contiene il file di riferimento.

Oltre ai file principali e di riferimento, è disponibile anche un file SparkJobDefinitionV1.json . Contiene i metadati per l'elemento di definizione del processo Spark, quindi non modificarli. Il file con estensione platform contiene le informazioni sulla piattaforma correlate alla configurazione> git che non deve essere modificata.

Nota

  • Se si sceglie Java o Scala come linguaggio, i file principali e di riferimento non verranno caricati come file .jar.
  • L'ambiente collegato persiste in una definizione di processo Spark dopo la sincronizzazione dal repository a un'area di lavoro infrastruttura. Attualmente, gli ambienti di riferimento tra aree di lavoro non sono supportati. Per eseguire la definizione del processo, è necessario collegarsi manualmente a un nuovo ambiente o usare le impostazioni predefinite dell'area di lavoro.
  • La definizione del processo Spark mantiene l'ID lakehouse predefinito durante la sincronizzazione dal repository a un'area di lavoro infrastruttura. Se si esegue il commit di un notebook con il lakehouse predefinito, è necessario fare riferimento manualmente a un elemento lakehouse appena creato. Per altre informazioni, vedere Integrazione di Git Lakehouse.