Megosztás a következőn keresztül:


Programozott módon kezelheti a munkaterület fájljait

Az Azure Databricksben tárolt munkaterület-fájlokat programozott módon kezelheti. Ez olyan feladatokat tesz lehetővé, mint például:

  • Kis adatfájlok tárolása a jegyzetfüzetek és a kód mellett.
  • Naplófájlok írása a Gittel szinkronizált könyvtárakba.
  • Modulok importálása relatív elérési utak használatával.
  • Környezeti specifikációs fájl létrehozása vagy módosítása.
  • Kimenet írása jegyzetfüzetekből.
  • Kimenet írása kódtárak( például Tensorboard) végrehajtásából.

A Databricks Runtime 11.3 LTS és újabb verziókban programozott módon hozhat létre, szerkeszthet és törölhet munkaterületfájlokat.

Feljegyzés

Ha le szeretné tiltani a munkaterület fájljaiba való írást, állítsa be a fürtkörnyezet változót WSFS_ENABLE_WRITE_SUPPORT=false. További információ: Környezeti változók.

Feljegyzés

A Databricks Runtime 14.0-s vagy újabb verziójában a helyileg végrehajtott kód alapértelmezett aktuális munkakönyvtára (CWD) a futtatandó jegyzetfüzetet vagy szkriptet tartalmazó könyvtár. Ez a Databricks Runtime 13.3 LTS és az alábbi viselkedésbeli változás. Lásd : Mi az alapértelmezett aktuális munkakönyvtár?.

A fájlok helyének olvasása

A rendszerhéjparancsokkal beolvashatja a fájlok helyét, például egy adattárban vagy a helyi fájlrendszerben.

A fájlok helyének meghatározásához adja meg a következőket:

%sh ls
  • A fájlok nincsenek adattárban: A parancs a fájlrendszert /databricks/driveradja vissza.
  • A fájlok adattárban találhatók: A parancs egy virtualizált adattárat ad vissza, például /Workspace/Repos/name@domain.com/public_repo_2/repos_file_system.

Adat-munkaterület fájljainak olvasása

Programozott módon beolvashatja a kis adatfájlokat, például .csv a .json jegyzetfüzetek kódjából származó fájlokat. Az alábbi példa a Pandas használatával kérdezi le a címtárban /data tárolt fájlokat a projekt-adattár gyökeréhez képest:

import pandas as pd
df = pd.read_csv("./data/winequality-red.csv")
df

A Spark használatával adatfájlokat olvashat. A Sparknak meg kell adnia a teljes elérési utat.

  • A Git-mappákban lévő munkaterületfájlok az elérési utat file:/Workspace/Repos/<user-folder>/<repo-name>/path/to/filehasználják.
  • A személyes címtárban lévő munkaterületfájlok a következő elérési utat használják: file:/Workspace/Users/<user-folder>/path/to/file.

Az abszolút vagy relatív elérési utat átmásolhatja egy fájlba a fájl melletti legördülő menüből:

fájl legördülő menüje

Az alábbi példa a teljes elérési út lekérésének {os.getcwd()} használatát mutatja be.

import os
spark.read.format("csv").load(f"file:{os.getcwd()}/my_data.csv")

Az Azure Databricks fájljaival kapcsolatos további információkért lásd : Fájlok használata az Azure Databricksben.

Fájlok és könyvtárak programozott létrehozása, frissítése és törlése

A Databricks Runtime 11.3 LTS és újabb verziókban közvetlenül módosíthatja a munkaterület fájljait az Azure Databricksben. Az alábbi példák standard Python-csomagokat és funkciókat használnak fájlok és könyvtárak létrehozásához és kezeléséhez.

# Create a new directory

os.mkdir('dir1')

# Create a new file and write to it

with open('dir1/new_file.txt', "w") as f:
    f.write("new content")

# Append to a file

with open('dir1/new_file.txt', "a") as f:
    f.write(" continued")

# Delete a file

os.remove('dir1/new_file.txt')

# Delete a directory

os.rmdir('dir1')