Programozott módon kezelheti a munkaterület fájljait
Az Azure Databricksben tárolt munkaterület-fájlokat programozott módon kezelheti. Ez olyan feladatokat tesz lehetővé, mint például:
- Kis adatfájlok tárolása a jegyzetfüzetek és a kód mellett.
- Naplófájlok írása a Gittel szinkronizált könyvtárakba.
- Modulok importálása relatív elérési utak használatával.
- Környezeti specifikációs fájl létrehozása vagy módosítása.
- Kimenet írása jegyzetfüzetekből.
- Kimenet írása kódtárak( például Tensorboard) végrehajtásából.
A Databricks Runtime 11.3 LTS és újabb verziókban programozott módon hozhat létre, szerkeszthet és törölhet munkaterületfájlokat.
Feljegyzés
Ha le szeretné tiltani a munkaterület fájljaiba való írást, állítsa be a fürtkörnyezet változót WSFS_ENABLE_WRITE_SUPPORT=false
. További információ: Környezeti változók.
Feljegyzés
A Databricks Runtime 14.0-s vagy újabb verziójában a helyileg végrehajtott kód alapértelmezett aktuális munkakönyvtára (CWD) a futtatandó jegyzetfüzetet vagy szkriptet tartalmazó könyvtár. Ez a Databricks Runtime 13.3 LTS és az alábbi viselkedésbeli változás. Lásd : Mi az alapértelmezett aktuális munkakönyvtár?.
A fájlok helyének olvasása
A rendszerhéjparancsokkal beolvashatja a fájlok helyét, például egy adattárban vagy a helyi fájlrendszerben.
A fájlok helyének meghatározásához adja meg a következőket:
%sh ls
- A fájlok nincsenek adattárban: A parancs a fájlrendszert
/databricks/driver
adja vissza. - A fájlok adattárban találhatók: A parancs egy virtualizált adattárat ad vissza, például
/Workspace/Repos/name@domain.com/public_repo_2/repos_file_system
.
Adat-munkaterület fájljainak olvasása
Programozott módon beolvashatja a kis adatfájlokat, például .csv
a .json
jegyzetfüzetek kódjából származó fájlokat. Az alábbi példa a Pandas használatával kérdezi le a címtárban /data
tárolt fájlokat a projekt-adattár gyökeréhez képest:
import pandas as pd
df = pd.read_csv("./data/winequality-red.csv")
df
A Spark használatával adatfájlokat olvashat. A Sparknak meg kell adnia a teljes elérési utat.
- A Git-mappákban lévő munkaterületfájlok az elérési utat
file:/Workspace/Repos/<user-folder>/<repo-name>/path/to/file
használják. - A személyes címtárban lévő munkaterületfájlok a következő elérési utat használják:
file:/Workspace/Users/<user-folder>/path/to/file
.
Az abszolút vagy relatív elérési utat átmásolhatja egy fájlba a fájl melletti legördülő menüből:
Az alábbi példa a teljes elérési út lekérésének {os.getcwd()}
használatát mutatja be.
import os
spark.read.format("csv").load(f"file:{os.getcwd()}/my_data.csv")
Az Azure Databricks fájljaival kapcsolatos további információkért lásd : Fájlok használata az Azure Databricksben.
Fájlok és könyvtárak programozott létrehozása, frissítése és törlése
A Databricks Runtime 11.3 LTS és újabb verziókban közvetlenül módosíthatja a munkaterület fájljait az Azure Databricksben. Az alábbi példák standard Python-csomagokat és funkciókat használnak fájlok és könyvtárak létrehozásához és kezeléséhez.
# Create a new directory
os.mkdir('dir1')
# Create a new file and write to it
with open('dir1/new_file.txt', "w") as f:
f.write("new content")
# Append to a file
with open('dir1/new_file.txt', "a") as f:
f.write(" continued")
# Delete a file
os.remove('dir1/new_file.txt')
# Delete a directory
os.rmdir('dir1')