Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
Az Azure Batch használatával hatékonyan futtathat nagy méretű párhuzamos és nagy teljesítményű feldolgozási (high-performance computing, HPC) Batch-feladatokat az Azure-ban. Ez az oktatóanyag végigvezet egy Python-példán, amely egy párhuzamos számítási feladatot futtat a Batch használatával. Megismerheti a Batch-alkalmazások általános munkafolyamatát, valamint azt, hogyan kommunikálhat programkódon keresztül a Batch- és Storage-erőforrásokkal.
- Hitelesítés Batch- és Storage-fiókokkal.
- Bemeneti fájlok feltöltése a Tárolóba.
- Számítási csomópontok készletének létrehozása egy alkalmazás futtatásához.
- Hozzon létre egy feladatot és feladatokat a bemeneti fájlok feldolgozásához.
- Tevékenység végrehajtásának figyelése.
- Kimeneti fájlok lekérése.
Ebben az oktatóanyagban mp4-médiafájlokat konvertál mp3 formátumba, párhuzamosan az ffmpeg nyílt forráskódú eszközzel.
Ha még nem rendelkezik Azure-fiókkal, első lépésként hozzon létre egy ingyenes fiókot.
Előfeltételek
Egy Azure Batch-fiók és egy társított Azure Storage-fiók. A fiókok létrehozásához lásd az Azure portal vagy az Azure CLI Batch rövid útmutatóit.
Bejelentkezés az Azure-ba
Jelentkezzen be a Azure portalra.
Fiók hitelesítő adatainak lekérése
Meg kell adnia például a Batch- és a Storage-fiók hitelesítő adatait. A szükséges hitelesítő adatokat például az Azure Portalon kérheti le egyszerűen. (A hitelesítő adatok az Azure API-k vagy parancssori eszközök használatával is lekérhetők.)
Válassza az Összes szolgáltatás>Batch-fiókja lehetőséget, majd válassza ki a Batch-fiók nevét.
A Batch hitelesítő adatainak megtekintéséhez válassza a Kulcsok lehetőséget. Másolja a Batch-fiók, az URL és az Elsődleges elérési kulcs mező értékét egy szövegszerkesztőbe.
A Tárfiók nevének és kulcsainak megtekintéséhez válassza a Tárfiók lehetőséget. Másolja a Storage-fiók neve és az 1. kulcs mező értékét egy szövegszerkesztőbe.
A mintaalkalmazás letöltése és futtatása
A mintaalkalmazás letöltése
Töltse le vagy klónozza a mintaalkalmazást a GitHubról. A mintaalkalmazás adattárának Git-ügyféllel történő klónozásához használja az alábbi parancsot:
git clone https://github.com/Azure-Samples/batch-python-ffmpeg-tutorial.git
Keresse meg a batch_python_tutorial_ffmpeg.py fájlt tartalmazó könyvtárat.
A Python-környezetben a pip használatával telepítse a szükséges csomagokat.
pip install -r requirements.txt
Kódszerkesztővel nyissa meg a fájl config.py. Frissítse a Batch- és a tárfiók értékeit a fiókjaihoz egyedi nevekre. A minta a DefaultAzureCredential függvényt használja a hitelesítéshez, így a fiókkulcsok már nem szükségesek. Például:
_BATCH_ACCOUNT_NAME = 'yourbatchaccount'
_BATCH_ACCOUNT_URL = 'https://yourbatchaccount.yourbatchregion.batch.azure.com'
_STORAGE_ACCOUNT_NAME = 'mystorageaccount'
A minta futtatása előtt jelentkezzen be a Azure CLI (az login), vagy egyéb módon konfiguráljon egy hitelesítő adatot, amelyet DefaultAzureCredential felderíthet (például felügyelt identitás, Visual Studio Code vagy környezeti változók). Győződjön meg arról, hogy a bejelentkezett identitás megfelelő Azure RBAC-szerepköröket kap a Batch-fiókban (például Azure Batch Közreműködő vagy Reader) és a Storage-fiókban (például Storage Blob Data Contributor).
Az alkalmazás futtatása
A szkript futtatásához:
python batch_python_tutorial_ffmpeg.py
A mintaalkalmazás futtatásakor a konzol kimenete az alábbihoz hasonló lesz. A futtatás során szünetet tapasztalhat Monitoring all tasks for 'Completed' state, timeout in 00:30:00...-nál, miközben a készlet számítási csomópontjai elindulnak.
Sample start: 11/28/2018 3:20:21 PM
Container [input] created.
Container [output] created.
Uploading file LowPriVMs-1.mp4 to container [input]...
Uploading file LowPriVMs-2.mp4 to container [input]...
Uploading file LowPriVMs-3.mp4 to container [input]...
Uploading file LowPriVMs-4.mp4 to container [input]...
Uploading file LowPriVMs-5.mp4 to container [input]...
Creating pool [LinuxFFmpegPool]...
Creating job [LinuxFFmpegJob]...
Adding 5 tasks to job [LinuxFFmpegJob]...
Monitoring all tasks for 'Completed' state, timeout in 00:30:00...
Success! All tasks completed successfully within the specified timeout period.
Deleting container [input]....
Sample end: 11/28/2018 3:29:36 PM
Elapsed time: 00:09:14.3418742
A készlet, a számítási csomópontok, a feladat és a tevékenységek monitorozásához lépjen az Azure Portalon a Batch-fiókjába. Ha például látni szeretné a készlet számítási csomópontjainak hőtérképét, válassza a Készletek>LinuxFFmpegPool lehetőséget.
A tevékenységek futásakor a hőtérkép az alábbihoz hasonló:
A végrehajtási idő általában körülbelül 5 perc , amikor az alkalmazást az alapértelmezett konfigurációban futtatja. A legtöbb időt a tár létrehozása veszi igénybe.
Kimeneti fájlok lekérése
Az Azure Portallal letöltheti az ffmpeg tevékenységek által létrehozott kimenti MP3-fájlokat.
- Kattintson a Minden szolgáltatás>Storage-fiókok lehetőségre, majd kattintson a Storage-fiók nevére.
- Kattintson a Blobok>Kimenet elemre.
- Kattintson a jobb gombbal az egyik kimeneti MP3-fájlra, majd kattintson a Letöltés gombra. Kövesse a böngészőben megjelenő utasításokat a fájl megnyitásához vagy mentéséhez.
Bár ebben a mintában nem látható, programozott módon is letöltheti a fájlokat a számítási csomópontokról vagy a Storage-tárolóból.
A kód áttekintése
A következő szakaszok a mintaalkalmazást felosztják azokra a lépésekre, amelyeket az alkalmazás végrehajt a számítási feladatok a Batch szolgáltatásban történő feldolgozásához. A cikk további részeinek elolvasása közben tekintse meg a Python-kódot, mivel a minta nem minden kódsorát tárgyalja.
Blob- és Batch-ügyfelek hitelesítése
A minta a azure-identity csomagból származó DefaultAzureCredential használatával a Storage és a Batch szolgáltatásnál is hitelesít.
DefaultAzureCredential több hitelesítő adattípust próbál meg sorrendben (környezeti változók, felügyelt identitás, Azure CLI bejelentkezés stb.), így ugyanaz a kód működik a helyi fejlesztésben és éles környezetben a fiókkulcsok tárolása nélkül.
A tárfiókok használatához az alkalmazás az azure-storage-blobcsomag használatával hoz létre egy BlobServiceClient objektumot, amely a hitelesítő adatokat használja.
credential = DefaultAzureCredential()
blob_service_client = BlobServiceClient(
account_url=f"https://{_STORAGE_ACCOUNT_NAME}.blob.core.windows.net/",
credential=credential)
Az alkalmazás létrehoz egy BatchClient-objektumot , amely készleteket, feladatokat és feladatokat hoz létre és kezel a Batch szolgáltatásban. A Batch-ügyfélprogram ugyanazt a DefaultAzureCredential használja a Microsoft Entra ID-n keresztüli hitelesítésre Microsoft Entra ID.
batch_client = BatchClient(
endpoint=_BATCH_ACCOUNT_URL,
credential=credential)
Bemeneti fájlok feltöltése
Az alkalmazás a blob_client referencia segítségével létrehoz egy tárolót a bemeneti MP4-fájlokhoz és egy tárolót a feladat kimenetéhez. Ezután meghívja a upload_file_to_container függvényt, hogy töltsön fel MP4-fájlokat a helyi InputFiles könyvtárba a tárolóba. A tárolóban lévő fájlokat a rendszer a Batch által később a számítási csomópontra letölthető Batch ResourceFile-objektumként határozza meg.
blob_service_client.create_container(input_container_name)
blob_service_client.create_container(output_container_name)
input_file_paths = []
for folder, subs, files in os.walk(os.path.join(sys.path[0], './InputFiles/')):
for filename in files:
if filename.endswith(".mp4"):
input_file_paths.append(os.path.abspath(
os.path.join(folder, filename)))
# Upload the input files. This is the collection of files that are to be processed by the tasks.
input_files = [
upload_file_to_container(blob_service_client, input_container_name, file_path)
for file_path in input_file_paths]
Számításicsomópont-készlet létrehozása
A következő lépésben a minta létrehozza a számítási csomópontok készletét a Batch-fiókban a create_pool hívásával. Ez a definiált függvény a Batch BatchPoolCreateOptions osztály használatával állítja be a csomópontok számát, a virtuális gép méretét és a készletkonfigurációt. Itt egy VirtualMachineConfiguration objektum egy, az Azure Marketplace-en közzétett Ubuntu Server 20.04 LTS-rendszerképre mutató BatchVmImageReference elemet ad meg. A Batch az Azure Marketplace virtuálisgép-rendszerképeinek széles választékát támogatja, de egyéni rendszerképeket is használhat.
A csomópontok száma és a virtuális gépek mérete meghatározott állandókkal van megadva. A Batch támogatja a dedikált csomópontokat és a Spot csomópontokat, és vagy mindkettőt használhatja a készletekben. A dedikált csomópontok ki vannak jelölve a készlet számára. A spot csomópontok alacsonyabb áron érhetők el a többlet virtuálisgép-kapacitásból az Azure-ban. A kihasználatlan csomópontok elérhetetlenné válnak, ha az Azure nem rendelkezik elegendő kapacitással. A minta alapértelmezés szerint egy készletet hoz létre, amely csak öt darab, Standard_A1_v2 méretű Spot csomópontot tartalmaz.
A fizikai csomópont tulajdonságai mellett ez a készletkonfiguráció egy BatchStartTask objektumot is tartalmaz. A BatchStartTask minden csomóponton fut, amikor a csomópont csatlakozik a készlethez, és minden alkalommal, amikor egy csomópont újraindul. Ebben a példában a BatchStartTask Bash-rendszerhéj-parancsokat futtat az ffmpeg-csomag és a csomópontok függőségeinek telepítéséhez.
A create_pool metódus elküldi a készletet a Batch szolgáltatásnak.
new_pool = models.BatchPoolCreateOptions(
id=pool_id,
virtual_machine_configuration=models.VirtualMachineConfiguration(
image_reference=models.BatchVmImageReference(
publisher="Canonical",
offer="UbuntuServer",
sku="20.04-LTS",
version="latest"
),
node_agent_sku_id="batch.node.ubuntu 20.04"),
vm_size=_POOL_VM_SIZE,
target_dedicated_nodes=_DEDICATED_POOL_NODE_COUNT,
target_low_priority_nodes=_LOW_PRIORITY_POOL_NODE_COUNT,
start_task=models.BatchStartTask(
command_line="/bin/bash -c \"apt-get update && apt-get install -y ffmpeg\"",
wait_for_success=True,
user_identity=models.UserIdentity(
auto_user=models.AutoUserSpecification(
scope=models.AutoUserScope.POOL,
elevation_level=models.ElevationLevel.ADMIN)),
)
)
batch_client.create_pool(pool=new_pool)
Feladat létrehozása
Egy Batch-feladat meghatároz egy készletet, amelyen futtathatók tevékenységek, valamint opcionális beállításokat, például a prioritást és az ütemezést a munkához. A minta a create_job hívásával létrehoz egy feladatot. Ez a definiált függvény a BatchJobCreateOptions osztály használatával hoz létre feladatot a készleten. A create_job metódus elküldi a készletet a Batch szolgáltatásnak. A feladat kezdetben nem rendelkezik feladatokkal.
job = models.BatchJobCreateOptions(
id=job_id,
pool_info=models.BatchPoolInfo(pool_id=pool_id))
batch_client.create_job(job=job)
Feladatok létrehozása
Az alkalmazás feladatokat hoz létre a munkában egy hívással add_tasks. Ez a definiált függvény létrehozza a tevékenységobjektumok listáját a BatchTaskCreateOptions osztály használatával. Minden tevékenység ffmpeg futtatásával feldolgoz egy bemeneti resource_files objektumot egy command_line paraméter használatával. Az ffmpeg már korábban, a készlet létrehozásakor telepítve lett minden egyes csomóponton. Itt a parancssor az ffmpeg futtatásával konvertálja az egyes bemeneti MP4-videofájlokat MP3-hangfájllá.
A minta a parancssor futtatása után létrehoz egy OutputFile objektumot az MP3-fájlhoz. Az egyes tevékenységek kimeneti fájljai (ebben az esetben az egyik) a csatolt tárfiók egyik tárolójába kerülnek a tevékenység tulajdonságának output_files használatával.
Ezután az alkalmazás hozzáadja a feladathoz a create_tasks metódust, amely várólistára állítja őket a számítási csomópontokon való futtatáshoz.
tasks = list()
for idx, input_file in enumerate(input_files):
input_file_path = input_file.file_path
output_file_path = "".join((input_file_path).split('.')[:-1]) + '.mp3'
command = "/bin/bash -c \"ffmpeg -i {} {} \"".format(
input_file_path, output_file_path)
tasks.append(models.BatchTaskCreateOptions(
id='Task{}'.format(idx),
command_line=command,
resource_files=[input_file],
output_files=[models.OutputFile(
file_pattern=output_file_path,
destination=models.OutputFileDestination(
container=models.OutputFileBlobContainerDestination(
container_url=output_container_sas_url)),
upload_options=models.OutputFileUploadConfiguration(
upload_condition=models.OutputFileUploadCondition.TASK_SUCCESS))]
)
)
batch_client.create_tasks(job_id=job_id, task_collection=tasks)
Tevékenységek figyelése
Amikor tevékenységeket ad hozzá egy feladathoz, a Batch automatikusan várólistára állítja és ütemezi őket a kapcsolódó készlet számítási csomópontjain való végrehajtásra. A megadott beállítások alapján a Batch kezeli az összes feladatsorolást, ütemezést, újrapróbálkozást és egyéb feladatfelügyeleti feladatot.
A feladatvégrehajtás monitorozásának számos módszere van. A wait_for_tasks_to_complete jelen példában szereplő függvény a BatchTaskState objektummal figyeli egy adott állapot tevékenységeit, ebben az esetben a befejezett állapotot egy időkorláton belül.
while datetime.datetime.now() < timeout_expiration:
print('.', end='')
sys.stdout.flush()
tasks = batch_client.list_tasks(job_id=job_id)
incomplete_tasks = [task for task in tasks if
task.state != models.BatchTaskState.COMPLETED]
if not incomplete_tasks:
print()
return True
else:
time.sleep(1)
...
Erőforrások tisztítása
A tevékenységek futtatása után az alkalmazás automatikusan törli a létrehozott bemeneti Storage-tárolót, és felkínálja a Batch-készlet és -feladat törlésének lehetőségét. A BatchClient JobOperations és PoolOperations osztályai egyaránt rendelkeznek törlési metódusokkal, amelyeket a rendszer meghív, ha megerősíti a törlést. Habár magukért a munkákért és feladatokért nem kell fizetnie, a számítási csomópontokért igen. Éppen ezért javasoljuk, hogy csak szükség esetén ossza ki a készleteket. Amikor a készletet törli, a csomópontokon lévő összes feladat kimenete is törlődik. A bemeneti és kimeneti fájlok azonban a tárfiókban maradnak.
Ha már nincs rájuk szükség, törölje az erőforráscsoportot, a Batch-fiókot és a Storage-fiókot. Ehhez az Azure Portalon válassza ki a Batch-fiók erőforráscsoportját, és válassza az Erőforráscsoport törlése lehetőséget.
Következő lépések
Ez az oktatóanyag bemutatta, hogyan végezheti el az alábbi műveleteket:
- Hitelesítés Batch- és Storage-fiókokkal.
- Bemeneti fájlok feltöltése a Tárolóba.
- Számítási csomópontok készletének létrehozása egy alkalmazás futtatásához.
- Hozzon létre egy feladatot és feladatokat a bemeneti fájlok feldolgozásához.
- Tevékenység végrehajtásának figyelése.
- Kimeneti fájlok lekérése.
A Batch-számítási feladatok ütemezésére és feldolgozására a Python API használatával kapcsolatos további példákért tekintse meg a Batch Python-mintákat a GitHubon.