Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
U kunt de unzip
Bash-opdracht gebruiken om gecomprimeerde zip-bestanden of mappen met bestanden uit te vouwen. Als u een bestand of map downloadt of tegenkomt dat eindigt met .zip
, pak dan de gegevens uit voordat u doorgaat.
Apache Spark biedt systeemeigen codecs voor interactie met gecomprimeerde Parquet-bestanden. De meeste Parquet-bestanden die zijn geschreven door Azure Databricks eindigen met .snappy.parquet
, waarmee wordt aangegeven dat ze snappy-compressie gebruiken.
Hoe gegevens uit te pakken
Met de Magic-opdracht van Azure Databricks %sh
kunt u willekeurige Bash-code uitvoeren, inclusief de unzip
opdracht.
In het volgende voorbeeld wordt een gezipt CSV-bestand gebruikt dat is gedownload van internet. Zie Gegevens downloaden van internet.
Gebruik de Databricks Utilities om bestanden te verplaatsen naar de tijdelijke opslag die aan het stuurprogramma is gekoppeld voordat u ze uitbreidt.
Deze code gebruikt curl
om de gegevens te downloaden en vervolgens unzip
uit te vouwen:
%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip
Gebruik dbutils om het uitgebreide bestand als volgt te verplaatsen naar een Unity Catalog-volume:
dbutils.fs.mv("file:/LoanStats3a.csv", "/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
In dit voorbeeld bevatten de gedownloade gegevens een opmerking in de eerste rij en een koptekst in de tweede. Nu u de gegevens hebt verplaatst en uitgebreid, gebruikt u standaardopties voor het lezen van CSV-bestanden, zoals in het volgende voorbeeld:
df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)