Opciones de formato de datos
Azure Databricks tiene enlaces de palabras clave integrados para todos los formatos de datos compatibles de forma nativa con Apache Spark. Azure Databricks usa Delta Lake como protocolo predeterminado para leer y escribir datos y tablas, mientras que Apache Spark usa Parquet.
En estos artículos se proporciona información general sobre muchas de las opciones y configuraciones disponibles al consultar datos en Azure Databricks.
Los formatos de datos siguientes tienen configuraciones de palabras clave integradas en dataframes de Apache Spark y SQL:
Azure Databricks también proporciona una palabra clave personalizada para cargar experimentos de MLflow.
Formatos de datos con consideraciones especiales
Algunos formatos de datos necesitan configuración adicional o consideraciones especiales para su uso:
- Databricks recomienda cargar las imágenes como
binary
datos. - Azure Databricks puede leer directamente archivos comprimidos en muchos formatos de archivo. También puede descomprimir archivos comprimidos en Azure Databricks si es necesario.
- LZO requiere la instalación de un códec.
Para más información sobre los orígenes de datos de Apache Spark, consulte los artículos sobre funciones genéricas de carga/guardado y opciones genéricas de origen de archivo.