Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Rest-API:et för Microsoft Fabric tillhandahåller en tjänstslutpunkt för CRUD-åtgärder av infrastrukturresurser. I den här självstudien går vi igenom ett scenario från slutpunkt till slutpunkt om hur du skapar och uppdaterar en Spark-jobbdefinitionsartefakt. Det handlar om tre övergripande steg:
- skapa ett Spark-jobbdefinitionsobjekt med något initialt tillstånd
- ladda upp huvuddefinitionsfilen och andra lib-filer
- uppdatera Spark-jobbdefinitionsobjektet med OneLake-URL:en för huvuddefinitionsfilen och andra lib-filer
Förutsättningar
- En Microsoft Entra-token krävs för att få åtkomst till Rest-API:et för infrastrukturresurser. MSAL-biblioteket rekommenderas för att hämta token. Mer information finns i Stöd för autentiseringsflöde i MSAL.
- En lagringstoken krävs för att få åtkomst till OneLake-API:et. Mer information finns i MSAL för Python.
Skapa ett Spark-jobbdefinitionsobjekt med det inledande tillståndet
Rest-API:et för Microsoft Fabric definierar en enhetlig slutpunkt för CRUD-åtgärder för infrastrukturresurser. Slutpunkten är https://api.fabric.microsoft.com/v1/workspaces/{workspaceId}/items.
Objektinformationen anges i begärandetexten. Här är ett exempel på begärandetexten för att skapa ett Spark-jobbdefinitionsobjekt:
{
"displayName": "SJDHelloWorld",
"type": "SparkJobDefinition",
"definition": {
"format": "SparkJobDefinitionV1",
"parts": [
{
"path": "SparkJobDefinitionV1.json",
"payload":"eyJleGVjdXRhYmxlRmlsZSI6bnVsbCwiZGVmYXVsdExha2Vob3VzZUFydGlmYWN0SWQiOiIiLCJtYWluQ2xhc3MiOiIiLCJhZGRpdGlvbmFsTGFrZWhvdXNlSWRzIjpbXSwicmV0cnlQb2xpY3kiOm51bGwsImNvbW1hbmRMaW5lQXJndW1lbnRzIjoiIiwiYWRkaXRpb25hbExpYnJhcnlVcmlzIjpbXSwibGFuZ3VhZ2UiOiIiLCJlbnZpcm9ubWVudEFydGlmYWN0SWQiOm51bGx9",
"payloadType": "InlineBase64"
}
]
}
}
I det här exemplet namnges Spark-jobbdefinitionsobjektet som SJDHelloWorld. Fältet payload är det base64-kodade innehållet i detaljkonfigurationen. Efter avkodningen är innehållet:
{
"executableFile":null,
"defaultLakehouseArtifactId":"",
"mainClass":"",
"additionalLakehouseIds":[],
"retryPolicy":null,
"commandLineArguments":"",
"additionalLibraryUris":[],
"language":"",
"environmentArtifactId":null
}
Här är två hjälpfunktioner för att koda och avkoda den detaljerade installationen:
import base64
def json_to_base64(json_data):
# Serialize the JSON data to a string
json_string = json.dumps(json_data)
# Encode the JSON string as bytes
json_bytes = json_string.encode('utf-8')
# Encode the bytes as Base64
base64_encoded = base64.b64encode(json_bytes).decode('utf-8')
return base64_encoded
def base64_to_json(base64_data):
# Decode the Base64-encoded string to bytes
base64_bytes = base64_data.encode('utf-8')
# Decode the bytes to a JSON string
json_string = base64.b64decode(base64_bytes).decode('utf-8')
# Deserialize the JSON string to a Python dictionary
json_data = json.loads(json_string)
return json_data
Här är kodfragmentet för att skapa ett Spark-jobbdefinitionsobjekt:
import requests
bearerToken = "breadcrumb"; # replace this token with the real AAD token
headers = {
"Authorization": f"Bearer {bearerToken}",
"Content-Type": "application/json" # Set the content type based on your request
}
payload = "eyJleGVjdXRhYmxlRmlsZSI6bnVsbCwiZGVmYXVsdExha2Vob3VzZUFydGlmYWN0SWQiOiIiLCJtYWluQ2xhc3MiOiIiLCJhZGRpdGlvbmFsTGFrZWhvdXNlSWRzIjpbXSwicmV0cnlQb2xpY3kiOm51bGwsImNvbW1hbmRMaW5lQXJndW1lbnRzIjoiIiwiYWRkaXRpb25hbExpYnJhcnlVcmlzIjpbXSwibGFuZ3VhZ2UiOiIiLCJlbnZpcm9ubWVudEFydGlmYWN0SWQiOm51bGx9"
# Define the payload data for the POST request
payload_data = {
"displayName": "SJDHelloWorld",
"Type": "SparkJobDefinition",
"definition": {
"format": "SparkJobDefinitionV1",
"parts": [
{
"path": "SparkJobDefinitionV1.json",
"payload": payload,
"payloadType": "InlineBase64"
}
]
}
}
# Make the POST request with Bearer authentication
sjdCreateUrl = f"https://api.fabric.microsoft.com//v1/workspaces/{workspaceId}/items"
response = requests.post(sjdCreateUrl, json=payload_data, headers=headers)
Ladda upp huvuddefinitionsfilen och andra lib-filer
En lagringstoken krävs för att ladda upp filen till OneLake. Här är en hjälpfunktion för att hämta lagringstoken:
import msal
def getOnelakeStorageToken():
app = msal.PublicClientApplication(
"{client id}", # this filed should be the client id
authority="https://login.microsoftonline.com/microsoft.com")
result = app.acquire_token_interactive(scopes=["https://storage.azure.com/.default"])
print(f"Successfully acquired AAD token with storage audience:{result['access_token']}")
return result['access_token']
Nu har vi skapat ett Spark-jobbdefinitionsobjekt, så att det kan köras måste vi konfigurera huvuddefinitionsfilen och nödvändiga egenskaper. Slutpunkten för att ladda upp filen för det här SJD-objektet är https://onelake.dfs.fabric.microsoft.com/{workspaceId}/{sjdartifactid}. Samma "workspaceId" från föregående steg ska användas. Värdet "sjdartifactid" hittades i svarstexten i föregående steg. Här är kodfragmentet för att konfigurera huvuddefinitionsfilen:
import requests
# three steps are required: create file, append file, flush file
onelakeEndPoint = "https://onelake.dfs.fabric.microsoft.com/workspaceId/sjdartifactid"; # replace the id of workspace and artifact with the right one
mainExecutableFile = "main.py"; # the name of the main executable file
mainSubFolder = "Main"; # the sub folder name of the main executable file. Don't change this value
onelakeRequestMainFileCreateUrl = f"{onelakeEndPoint}/{mainSubFolder}/{mainExecutableFile}?resource=file" # the url for creating the main executable file via the 'file' resource type
onelakePutRequestHeaders = {
"Authorization": f"Bearer {onelakeStorageToken}", # the storage token can be achieved from the helper function above
}
onelakeCreateMainFileResponse = requests.put(onelakeRequestMainFileCreateUrl, headers=onelakePutRequestHeaders)
if onelakeCreateMainFileResponse.status_code == 201:
# Request was successful
print(f"Main File '{mainExecutableFile}' was successfully created in onelake.")
# with previous step, the main executable file is created in OneLake, now we need to append the content of the main executable file
appendPosition = 0;
appendAction = "append";
### Main File Append.
mainExecutableFileSizeInBytes = 83; # the size of the main executable file in bytes
onelakeRequestMainFileAppendUrl = f"{onelakeEndPoint}/{mainSubFolder}/{mainExecutableFile}?position={appendPosition}&action={appendAction}";
mainFileContents = "filename = 'Files/' + Constant.filename; tablename = 'Tables/' + Constant.tablename"; # the content of the main executable file, please replace this with the real content of the main executable file
mainExecutableFileSizeInBytes = 83; # the size of the main executable file in bytes, this value should match the size of the mainFileContents
onelakePatchRequestHeaders = {
"Authorization": f"Bearer {onelakeStorageToken}",
"Content-Type" : "text/plain"
}
onelakeAppendMainFileResponse = requests.patch(onelakeRequestMainFileAppendUrl, data = mainFileContents, headers=onelakePatchRequestHeaders)
if onelakeAppendMainFileResponse.status_code == 202:
# Request was successful
print(f"Successfully Accepted Main File '{mainExecutableFile}' append data.")
# with previous step, the content of the main executable file is appended to the file in OneLake, now we need to flush the file
flushAction = "flush";
### Main File flush
onelakeRequestMainFileFlushUrl = f"{onelakeEndPoint}/{mainSubFolder}/{mainExecutableFile}?position={mainExecutableFileSizeInBytes}&action={flushAction}"
print(onelakeRequestMainFileFlushUrl)
onelakeFlushMainFileResponse = requests.patch(onelakeRequestMainFileFlushUrl, headers=onelakePatchRequestHeaders)
if onelakeFlushMainFileResponse.status_code == 200:
print(f"Successfully Flushed Main File '{mainExecutableFile}' contents.")
else:
print(onelakeFlushMainFileResponse.json())
Följ samma process för att ladda upp de andra lib-filerna om det behövs.
Uppdatera Spark-jobbdefinitionsobjektet med OneLake-URL:en för huvuddefinitionsfilen och andra lib-filer
Hittills har vi skapat ett Spark-jobbdefinitionsobjekt med något initialt tillstånd, laddat upp huvuddefinitionsfilen och andra lib-filer. Det sista steget är att uppdatera objektet Spark-jobbdefinition för att ange URL-egenskaperna för huvuddefinitionsfilen och andra lib-filer. Slutpunkten för uppdatering av Spark-jobbdefinitionsobjektet är https://api.fabric.microsoft.com/v1/workspaces/{workspaceId}/items/{sjdartifactid}. Samma "workspaceId" och "sjdartifactid" från föregående steg ska användas. Här är kodfragmentet för att uppdatera Spark-jobbdefinitionsobjektet:
mainAbfssPath = f"abfss://{workspaceId}@onelake.dfs.fabric.microsoft.com/{sjdartifactid}/Main/{mainExecutableFile}" # the workspaceId and sjdartifactid are the same as previous steps, the mainExecutableFile is the name of the main executable file
libsAbfssPath = f"abfss://{workspaceId}@onelake.dfs.fabric.microsoft.com/{sjdartifactid}/Libs/{libsFile}" # the workspaceId and sjdartifactid are the same as previous steps, the libsFile is the name of the libs file
defaultLakehouseId = 'defaultLakehouseid'; # replace this with the real default lakehouse id
updateRequestBodyJson = {
"executableFile":mainAbfssPath,
"defaultLakehouseArtifactId":defaultLakehouseId,
"mainClass":"",
"additionalLakehouseIds":[],
"retryPolicy":None,
"commandLineArguments":"",
"additionalLibraryUris":[libsAbfssPath],
"language":"Python",
"environmentArtifactId":None}
# Encode the bytes as a Base64-encoded string
base64EncodedUpdateSJDPayload = json_to_base64(updateRequestBodyJson)
# Print the Base64-encoded string
print("Base64-encoded JSON payload for SJD Update:")
print(base64EncodedUpdateSJDPayload)
# Define the API URL
updateSjdUrl = f"https://api.fabric.microsoft.com//v1/workspaces/{workspaceId}/items/{sjdartifactid}/updateDefinition"
updatePayload = base64EncodedUpdateSJDPayload
payloadType = "InlineBase64"
path = "SparkJobDefinitionV1.json"
format = "SparkJobDefinitionV1"
Type = "SparkJobDefinition"
# Define the headers with Bearer authentication
bearerToken = "breadcrumb"; # replace this token with the real AAD token
headers = {
"Authorization": f"Bearer {bearerToken}",
"Content-Type": "application/json" # Set the content type based on your request
}
# Define the payload data for the POST request
payload_data = {
"displayName": "sjdCreateTest11",
"Type": Type,
"definition": {
"format": format,
"parts": [
{
"path": path,
"payload": updatePayload,
"payloadType": payloadType
}
]
}
}
# Make the POST request with Bearer authentication
response = requests.post(updateSjdUrl, json=payload_data, headers=headers)
if response.status_code == 200:
print("Successfully updated SJD.")
else:
print(response.json())
print(response.status_code)
För att sammanfatta hela processen krävs både Fabric REST API och OneLake API för att skapa och uppdatera ett Spark-jobbdefinitionsobjekt. Rest-API:et för infrastrukturresurser används för att skapa och uppdatera Spark-jobbdefinitionsobjektet. OneLake-API:et används för att ladda upp huvuddefinitionsfilen och andra lib-filer. Huvuddefinitionsfilen och andra lib-filer laddas upp till OneLake först. Sedan anges URL-egenskaperna för huvuddefinitionsfilen och andra lib-filer i spark-jobbdefinitionsobjektet.