Bagikan melalui


Cara membuat dan memperbarui Definisi Pekerjaan Spark dengan Microsoft Fabric Rest API

Microsoft Fabric Rest API menyediakan titik akhir layanan untuk operasi CRUD item Fabric. Dalam tutorial ini, kita menelusuri skenario end-to-end tentang cara membuat dan memperbarui artefak Definisi Pekerjaan Spark. Tiga langkah tingkat tinggi terlibat:

  1. membuat item Definisi Pekerjaan Spark dengan beberapa status awal
  2. unggah file definisi utama dan file lib lainnya
  3. perbarui item Definisi Pekerjaan Spark dengan URL OneLake dari file definisi utama dan file lib lainnya

Prasyarat

  1. Token Microsoft Entra diperlukan untuk mengakses Fabric Rest API. Pustaka MSAL disarankan untuk mendapatkan token. Untuk informasi selengkapnya, lihat Dukungan alur autentikasi di MSAL.
  2. Token penyimpanan diperlukan untuk mengakses API OneLake. Untuk informasi selengkapnya, lihat MSAL untuk Python.

Membuat item Definisi Pekerjaan Spark dengan status awal

Microsoft Fabric Rest API mendefinisikan titik akhir terpadu untuk operasi CRUD item Fabric. Titik akhirnya adalah https://api.fabric.microsoft.com/v1/workspaces/{workspaceId}/items.

Detail item ditentukan di dalam isi permintaan. Berikut adalah contoh isi permintaan untuk membuat item Definisi Pekerjaan Spark:

{
    "displayName": "SJDHelloWorld",
    "type": "SparkJobDefinition",
    "definition": {
        "format": "SparkJobDefinitionV1",
        "parts": [
            {
                "path": "SparkJobDefinitionV1.json",
                "payload":"eyJleGVjdXRhYmxlRmlsZSI6bnVsbCwiZGVmYXVsdExha2Vob3VzZUFydGlmYWN0SWQiOiIiLCJtYWluQ2xhc3MiOiIiLCJhZGRpdGlvbmFsTGFrZWhvdXNlSWRzIjpbXSwicmV0cnlQb2xpY3kiOm51bGwsImNvbW1hbmRMaW5lQXJndW1lbnRzIjoiIiwiYWRkaXRpb25hbExpYnJhcnlVcmlzIjpbXSwibGFuZ3VhZ2UiOiIiLCJlbnZpcm9ubWVudEFydGlmYWN0SWQiOm51bGx9",
                "payloadType": "InlineBase64"
            }
        ]
    }
}

Dalam contoh ini, item Definisi Pekerjaan Spark dinamai sebagai SJDHelloWorld. Bidang payload adalah konten penyiapan detail yang dikodekan base64, setelah dekode, kontennya adalah:

{
    "executableFile":null,
    "defaultLakehouseArtifactId":"",
    "mainClass":"",
    "additionalLakehouseIds":[],
    "retryPolicy":null,
    "commandLineArguments":"",
    "additionalLibraryUris":[],
    "language":"",
    "environmentArtifactId":null
}

Berikut adalah dua fungsi pembantu untuk mengodekan dan mendekode penyiapan terperinci:

import base64

def json_to_base64(json_data):
    # Serialize the JSON data to a string
    json_string = json.dumps(json_data)
    
    # Encode the JSON string as bytes
    json_bytes = json_string.encode('utf-8')
    
    # Encode the bytes as Base64
    base64_encoded = base64.b64encode(json_bytes).decode('utf-8')
    
    return base64_encoded

def base64_to_json(base64_data):
    # Decode the Base64-encoded string to bytes
    base64_bytes = base64_data.encode('utf-8')
    
    # Decode the bytes to a JSON string
    json_string = base64.b64decode(base64_bytes).decode('utf-8')
    
    # Deserialize the JSON string to a Python dictionary
    json_data = json.loads(json_string)
    
    return json_data

Berikut cuplikan kode untuk membuat item Definisi Pekerjaan Spark:

import requests

bearerToken = "breadcrumb"; # replace this token with the real AAD token

headers = {
    "Authorization": f"Bearer {bearerToken}", 
    "Content-Type": "application/json"  # Set the content type based on your request
}

payload = "eyJleGVjdXRhYmxlRmlsZSI6bnVsbCwiZGVmYXVsdExha2Vob3VzZUFydGlmYWN0SWQiOiIiLCJtYWluQ2xhc3MiOiIiLCJhZGRpdGlvbmFsTGFrZWhvdXNlSWRzIjpbXSwicmV0cnlQb2xpY3kiOm51bGwsImNvbW1hbmRMaW5lQXJndW1lbnRzIjoiIiwiYWRkaXRpb25hbExpYnJhcnlVcmlzIjpbXSwibGFuZ3VhZ2UiOiIiLCJlbnZpcm9ubWVudEFydGlmYWN0SWQiOm51bGx9"

# Define the payload data for the POST request
payload_data = {
    "displayName": "SJDHelloWorld",
    "Type": "SparkJobDefinition",
    "definition": {
        "format": "SparkJobDefinitionV1",
        "parts": [
            {
                "path": "SparkJobDefinitionV1.json",
                "payload": payload,
                "payloadType": "InlineBase64"
            }
        ]
    }
}

# Make the POST request with Bearer authentication
sjdCreateUrl = f"https://api.fabric.microsoft.com//v1/workspaces/{workspaceId}/items"
response = requests.post(sjdCreateUrl, json=payload_data, headers=headers)

Mengunggah file definisi utama dan file lib lainnya

Token penyimpanan diperlukan untuk mengunggah file ke OneLake. Berikut adalah fungsi pembantu untuk mendapatkan token penyimpanan:


import msal

def getOnelakeStorageToken():
    app = msal.PublicClientApplication(
        "{client id}", # this filed should be the client id 
        authority="https://login.microsoftonline.com/microsoft.com")

    result = app.acquire_token_interactive(scopes=["https://storage.azure.com/.default"])

    print(f"Successfully acquired AAD token with storage audience:{result['access_token']}")

    return result['access_token']

Sekarang kita memiliki item Definisi Pekerjaan Spark yang dibuat, untuk membuatnya dapat dijalankan, kita perlu menyiapkan file definisi utama dan properti yang diperlukan. Titik akhir untuk mengunggah file untuk item SJD ini adalah https://onelake.dfs.fabric.microsoft.com/{workspaceId}/{sjdartifactid}. "workspaceId" yang sama dari langkah sebelumnya harus digunakan, nilai "sjdartifactid" dapat ditemukan di isi respons langkah sebelumnya. Berikut adalah cuplikan kode untuk menyiapkan file definisi utama:

import requests

# three steps are required: create file, append file, flush file

onelakeEndPoint = "https://onelake.dfs.fabric.microsoft.com/workspaceId/sjdartifactid"; # replace the id of workspace and artifact with the right one
mainExecutableFile = "main.py"; # the name of the main executable file
mainSubFolder = "Main"; # the sub folder name of the main executable file. Don't change this value


onelakeRequestMainFileCreateUrl = f"{onelakeEndPoint}/{mainSubFolder}/{mainExecutableFile}?resource=file" # the url for creating the main executable file via the 'file' resource type
onelakePutRequestHeaders = {
    "Authorization": f"Bearer {onelakeStorageToken}", # the storage token can be achieved from the helper function above
}

onelakeCreateMainFileResponse = requests.put(onelakeRequestMainFileCreateUrl, headers=onelakePutRequestHeaders)
if onelakeCreateMainFileResponse.status_code == 201:
    # Request was successful
    print(f"Main File '{mainExecutableFile}' was successfully created in onelake.")

# with previous step, the main executable file is created in OneLake, now we need to append the content of the main executable file

appendPosition = 0;
appendAction = "append";

### Main File Append.
mainExecutableFileSizeInBytes = 83; # the size of the main executable file in bytes
onelakeRequestMainFileAppendUrl = f"{onelakeEndPoint}/{mainSubFolder}/{mainExecutableFile}?position={appendPosition}&action={appendAction}";
mainFileContents = "filename = 'Files/' + Constant.filename; tablename = 'Tables/' + Constant.tablename"; # the content of the main executable file, please replace this with the real content of the main executable file
mainExecutableFileSizeInBytes = 83; # the size of the main executable file in bytes, this value should match the size of the mainFileContents

onelakePatchRequestHeaders = {
    "Authorization": f"Bearer {onelakeStorageToken}",
    "Content-Type" : "text/plain"
}

onelakeAppendMainFileResponse = requests.patch(onelakeRequestMainFileAppendUrl, data = mainFileContents, headers=onelakePatchRequestHeaders)
if onelakeAppendMainFileResponse.status_code == 202:
    # Request was successful
    print(f"Successfully Accepted Main File '{mainExecutableFile}' append data.")

# with previous step, the content of the main executable file is appended to the file in OneLake, now we need to flush the file

flushAction = "flush";

### Main File flush
onelakeRequestMainFileFlushUrl = f"{onelakeEndPoint}/{mainSubFolder}/{mainExecutableFile}?position={mainExecutableFileSizeInBytes}&action={flushAction}"
print(onelakeRequestMainFileFlushUrl)
onelakeFlushMainFileResponse = requests.patch(onelakeRequestMainFileFlushUrl, headers=onelakePatchRequestHeaders)
if onelakeFlushMainFileResponse.status_code == 200:
    print(f"Successfully Flushed Main File '{mainExecutableFile}' contents.")
else:
    print(onelakeFlushMainFileResponse.json())

Ikuti proses yang sama untuk mengunggah file lib lainnya jika diperlukan.

Perbarui item Definisi Pekerjaan Spark dengan URL OneLake dari file definisi utama dan file lib lainnya

Hingga saat ini, kami telah membuat item Definisi Pekerjaan Spark dengan beberapa status awal, mengunggah file definisi utama dan file lib lainnya, Langkah terakhir adalah memperbarui item Definisi Pekerjaan Spark untuk mengatur properti URL file definisi utama dan file lib lainnya. Titik akhir untuk memperbarui item Definisi Pekerjaan Spark adalah https://api.fabric.microsoft.com/v1/workspaces/{workspaceId}/items/{sjdartifactid}. "workspaceId" dan "sjdartifactid" yang sama dari langkah-langkah sebelumnya harus digunakan. Berikut cuplikan kode untuk memperbarui item Definisi Pekerjaan Spark:


mainAbfssPath = f"abfss://{workspaceId}@onelake.dfs.fabric.microsoft.com/{sjdartifactid}/Main/{mainExecutableFile}" # the workspaceId and sjdartifactid are the same as previous steps, the mainExecutableFile is the name of the main executable file
libsAbfssPath = f"abfss://{workspaceId}@onelake.dfs.fabric.microsoft.com/{sjdartifactid}/Libs/{libsFile}"  # the workspaceId and sjdartifactid are the same as previous steps, the libsFile is the name of the libs file
defaultLakehouseId = 'defaultLakehouseid'; # replace this with the real default lakehouse id

updateRequestBodyJson = {
    "executableFile":mainAbfssPath,
    "defaultLakehouseArtifactId":defaultLakehouseId,
    "mainClass":"",
    "additionalLakehouseIds":[],
    "retryPolicy":None,
    "commandLineArguments":"",
    "additionalLibraryUris":[libsAbfssPath],
    "language":"Python",
    "environmentArtifactId":None}

# Encode the bytes as a Base64-encoded string
base64EncodedUpdateSJDPayload = json_to_base64(updateRequestBodyJson)

# Print the Base64-encoded string
print("Base64-encoded JSON payload for SJD Update:")
print(base64EncodedUpdateSJDPayload)

# Define the API URL
updateSjdUrl = f"https://api.fabric.microsoft.com//v1/workspaces/{workspaceId}/items/{sjdartifactid}/updateDefinition"

updatePayload = base64EncodedUpdateSJDPayload
payloadType = "InlineBase64"
path = "SparkJobDefinitionV1.json"
format = "SparkJobDefinitionV1"
Type = "SparkJobDefinition"

# Define the headers with Bearer authentication
bearerToken = "breadcrumb"; # replace this token with the real AAD token

headers = {
    "Authorization": f"Bearer {bearerToken}", 
    "Content-Type": "application/json"  # Set the content type based on your request
}

# Define the payload data for the POST request
payload_data = {
    "displayName": "sjdCreateTest11",
    "Type": Type,
    "definition": {
        "format": format,
        "parts": [
            {
                "path": path,
                "payload": updatePayload,
                "payloadType": payloadType
            }
        ]
    }
}


# Make the POST request with Bearer authentication
response = requests.post(updateSjdUrl, json=payload_data, headers=headers)
if response.status_code == 200:
    print("Successfully updated SJD.")
else:
    print(response.json())
    print(response.status_code)

Untuk merekap seluruh proses, Fabric REST API dan OneLake API diperlukan untuk membuat dan memperbarui item Definisi Pekerjaan Spark. Fabric REST API digunakan untuk membuat dan memperbarui item Definisi Pekerjaan Spark, ONELake API digunakan untuk mengunggah file definisi utama dan file lib lainnya. File definisi utama dan file lib lainnya diunggah ke OneLake terlebih dahulu. Kemudian properti URL file definisi utama dan file lib lainnya diatur dalam item Definisi Pekerjaan Spark.