Septiembre de 2020

Artículo
03/22/2024

Estas características y mejoras de la plataforma Azure Databricks se publicaron en septiembre de 2020.

Nota:

Las versiones se publican por fases. Es posible que su cuenta de Azure Databricks no se actualice hasta una semana después de la fecha de lanzamiento inicial.

Databricks Runtime 7.3, 7.3 ML y 7.3 Genomics ya están en fase de disponibilidad general

24 de septiembre de 2020

Databricks Runtime 7.3, Databricks Runtime 7.3 for Machine Learning y Databricks Runtime 7.3 for Genomics ya están disponibles con carácter general. Incluyen muchas características y mejoras, entre otras:

Las optimizaciones de rendimiento de Delta Lake reducen significativamente la sobrecarga
Métricas de clonación
Mejoras de MERGE INTO de Delta Lake
Especificación de la posición inicial de Structured Streaming de Delta Lake
Mejoras de Auto Loader
Ejecución de consultas adaptables
Control de la longitud de columna del conector de Azure Synapse Analytics
Comportamiento mejorado de dbutils.credentials.showRoles
Conversión simplificada de Pandas a DataFrame de Spark
Nuevo maxResultSize en la llamada a toPandas()
Depuración de las UDF de Pandas y PySpark
(Solo ML) Activación de Conda en los trabajos
(Solo Genomics) Compatibilidad con la lectura de archivos BGEN con genotipos sin comprimir o comprimidos con zstd
Actualizaciones de bibliotecas

Para obtener más información, consulte Databricks Runtime 7.3 LTS (sin soporte técnico) y Databricks Runtime 7.3 LTS para Machine Learning (sin soporte técnico).

Clústeres de nodo único (versión preliminar pública)

Del 23 al 29 de septiembre de 2020: versión 3.29

Un clúster de nodo único es un clúster que consta de un controlador de Spark y ningún trabajo de Spark. Por el contrario, los clústeres en modo estándar requieren al menos un trabajo de Spark para ejecutar trabajos de Spark. Los clústeres en modo de nodo único son útiles en las situaciones siguientes:

Ejecución de cargas de trabajo de aprendizaje automático de nodo único que necesitan Spark para cargar y guardar datos
Análisis de datos exploratorios (EDA) ligeros

Para obtener más detalles, consulte Proceso de nodo único o de varios nodos.

Limitación de velocidad de la API REST de DBFS

Del 23 al 29 de septiembre de 2020: versión 3.29

Para garantizar un servicio de alta calidad cuando hay mucha carga, Azure Databricks hace cumplir los límites de velocidad de la API en todas las llamadas de DBFS API. Los límites se establecen por área de trabajo, con el fin de garantizar un uso justo y una alta disponibilidad. Los reintentos automáticos están disponibles mediante la versión 0.12.0 de la CLI de Databricks y las versiones superiores. Recomendamos a todos los clientes que cambien a la versión más reciente de la CLI de Databricks.

Del 23 al 29 de septiembre de 2020

Hemos actualizado la barra lateral en la interfaz de usuario de las áreas de trabajo de Azure Databricks. No es gran cosa, pero creemos que los nuevos iconos tienen un aspecto bastante bueno.

barra lateral

Aumento del límite de trabajos en ejecución

Del 23 al 29 de septiembre de 2020: versión 3.29

El límite de ejecución de trabajos en ejecución simultánea ha aumentado de 150 a 1000 por área de trabajo. Ya no se van a poner en cola más de 150 en estado pendiente. En lugar de una cola para ejecutar solicitudes por encima de las ejecuciones simultáneas, se devuelve una respuesta 429 Too Many Requests cuando se solicita una ejecución que no se puede iniciar de inmediato. Este aumento del límite se ha implantado gradualmente y ahora está disponible en todas las áreas de trabajo de todas las regiones.

Listas de control de acceso (ACL) de artefactos en MLflow

Del 23 al 29 de septiembre de 2020: versión 3.29

Los permisos de experimento de MLflow ahora se aplican a los artefactos de MLflow Tracking, lo que permite controlar fácilmente el acceso a los modelos, conjuntos de datos y otros archivos. De manera predeterminada, al crear un experimento, sus artefactos de ejecución ahora se almacenan en una ubicación administrada por MLflow. Los cuatro niveles de permisos de experimento de MLflow (NINÚN PERMISO, PUEDE LEER, PUEDE EDITAR y PUEDE ADMINISTRAR) se aplican automáticamente a la ejecución de artefactos almacenados en ubicaciones administradas por MLflow como se muestra a continuación:

Para registrar artefactos de ejecución en un experimento, se necesitan permisos PUEDE EDITAR o PUEDE ADMINISTRAR.
Para enumerar y descargar artefactos de ejecución de un experimento, se necesita el permiso PUEDE LEER.

Para más información, consulte ACL de experimento de MLFlow.

Mejoras en la facilidad de uso de MLflow

Del 23 al 29 de septiembre de 2020: versión 3.29

Esta versión incluye las siguientes mejoras de facilidad de uso de MLflow:

Las páginas Experiment (Experimento) y Registered Models (Modelos registrados) de MLflow ahora tienen sugerencias para ayudar a los nuevos usuarios a empezar a trabajar.
La tabla de versiones de modelos ahora muestra el texto de descripción de una versión del modelo. Una nueva columna muestra los primeros 32 caracteres o la primera línea (lo que sea más corto) de la descripción.

Nuevo conector de Power BI de Azure Databricks (versión preliminar pública)

22 de septiembre de 2020

Power BI Desktop, versión 2.85.681.0, incluye un nuevo conector de Power BI para Azure Databricks que hace que la integración entre Azure Databricks y Power BI sea mucho más fluida y confiable. El nuevo conector incluye las siguientes mejoras:

Configuración de conexión simple: el nuevo conector Power BI Azure Databricks está integrado en Power BI y se configura mediante un sencillo cuadro de diálogo con un par de clics.
Autenticación basada en credenciales de Microsoft Entra ID (ya no es preciso que los administradores configuren tokens de PAT).
Importaciones más rápidas y las llamadas de metadatos optimizadas, gracias al nuevo controlador ODBC de Azure Databricks, que incluye importantes mejoras de rendimiento.
El acceso a los datos de Azure Databricks mediante Power BI respeta el control de acceso a tablas de Azure Databricks y los permisos de la cuenta de Azure Storage asociados a la identidad de Microsoft Entra ID.

Para más información, consulte Conexión de Power BI a Azure Databricks.

Uso de claves administradas por el cliente para la raíz de DBFS (versión preliminar pública)

15 de septiembre de 2020

Ahora puede usar su propia clave de cifrado en Azure Key Vault para cifrar la cuenta de almacenamiento de DBFS. Consulte Claves administradas por el cliente para la raíz DBFS.

Los nuevos controladores JDBC y ODBC aportan inteligencia empresarial más rápida y con menor latencia

15 de septiembre de 2020

Hemos publicado nuevas versiones de los controladores ODBC y JDBC de Databricks (descarga) con las siguientes mejoras:

Rendimiento: Menor latencia de conexión y de consultas cortas, mejora en la velocidad de transferencia de resultados en función de la serialización de Apache Arrow, y mejora en el rendimiento de la recuperación de metadatos.
Experiencia del usuario: autenticación mediante tokens de acceso de OAuth2 de Microsoft Entra ID, mejora en los mensajes de error y reintento automático al conectarse a un clúster de apagado, así como un control más sólido de los reintentos en caso de errores de red intermitentes.
Compatibilidad con conexiones que usan proxy HTTP.

Para obtener más información sobre la conexión a herramientas de BI mediante JDBC y ODBC, consulte Controladores ODBC y JDBC de Databricks.

Servicio de modelos de MLflow (versión preliminar pública)

Del 9 al 15 de septiembre de 2020: versión 3.28

MLflow Model Serving ya está disponible en versión preliminar pública. MLflow Model Serving permite implementar un modelo de MLflow registrado en Model Registry como punto de conexión de API REST hospedado y administrado por Azure Databricks. Al habilitar el servicio de modelos para un modelo registrado, Azure Databricks crea un clúster e implementa todas las versiones no archivadas de ese modelo.

Puede consultar todas las versiones del modelo mediante solicitudes de API REST con autenticación estándar de Azure Databricks. Los derechos de acceso del modelo se heredan de Model Registry: Cualquier persona con derechos de lectura para un modelo registrado puede consultar cualquiera de las versiones del modelo implementadas. Aunque este servicio está en versión preliminar, se recomienda su uso para aplicaciones de bajo rendimiento que no sean críticas.

Para obtener más información, consulte Servicio de modelos MLflow heredado en Azure Databricks.

Mejoras de la interfaz de usuario de clústeres

Del 9 al 15 de septiembre de 2020: versión 3.28

La página Clústeres ahora tiene pestañas independientes para All-Purpose Clusters (Clústeres multiuso) y Job Clusters (Clústeres de trabajo). La lista de cada pestaña ahora está paginada. Además, hemos corregido el retraso que a veces se producía entre la creación de un clúster y que aparecía en la interfaz de usuario.

Controles de visibilidad para trabajos, clústeres, cuadernos y otros objetos del área de trabajo

Del 9 al 15 de septiembre de 2020: versión 3.28

De manera predeterminada, cualquier usuario puede ver todos los trabajos, clústeres, cuadernos y carpetas de su área de trabajo que se muestran en la interfaz de usuario de Azure Databricks, y puede enumerarlos mediante la API de Databricks, incluso cuando el control de acceso está habilitado para esos objetos y el usuario no tiene permisos para esos objetos.

Ahora, cualquier administrador de Azure Databricks puede habilitar los controles de visibilidad para cuadernos y carpetas (objetos de áreas de trabajo), clústeres y trabajos para asegurarse de que los usuarios solo puedan ver aquellos objetos a los que se les ha concedido acceso a través del control de acceso al área de trabajo, el clúster o los trabajos.

Consulte Las listas de controles de acceso ya no se pueden deshabilitar.

La capacidad para crear tokens deja de estar permitida de manera predeterminada

Del 9 al 15 de septiembre de 2020: versión 3.28

En el caso de las áreas de trabajo creadas después del lanzamiento de la plataforma de Azure Databricks, versión 3.28, los usuarios ya no tendrán la capacidad de generar tokens de acceso personal de manera predeterminada. Los administradores deben conceder explícitamente esos permisos, ya sea a todo el grupo users, o de manera independiente a cada usuario o grupo. Las áreas de trabajo creadas antes de la versión 3.28 mantendrán los permisos que ya estaban operativos.

Consulte Supervisión y administración de tokens de acceso personal.

9 de septiembre de 2020

Azure Databricks ahora admite el acceso al registro de modelos desde varias áreas de trabajo. Ahora puede registrar modelos, realizar un seguimiento de las ejecuciones de modelos y cargar modelos entre áreas de trabajo. Ahora varios equipos pueden compartir el acceso a los modelos, y las organizaciones pueden usar varias áreas de trabajo para controlar las distintas fases de desarrollo. Para obtener más información, consulte Uso compartido de modelos entre áreas de trabajo.

Esta funcionalidad requiere el cliente Python de MLflow, versión 1.11.0 o posterior.

Databricks Runtime 7.3 (beta)

3 de septiembre de 2020

Databricks Runtime 7.3, Databricks Runtime 7.3 for Machine Learning y Databricks Runtime 7.3 for Genomics ya están disponibles como versión beta.

Para obtener más información, consulte Databricks Runtime 7.3 LTS (sin soporte técnico) y Databricks Runtime 7.3 LTS para Machine Learning (sin soporte técnico).

Cambie del nombre del tipo de la carga de trabajo de Azure Databricks

1 de septiembre de 2020

Se han cambiado los nombres de los tipos de carga de trabajo usados por los clústeres:

Ingeniería de datos -> Proceso de trabajos
Ingeniería de datos ligera -> Proceso de trabajos ligero
Análisis de datos -> Proceso multiuso

Estos nuevos nombres aparecerán en las facturas y en el portal de EA en combinación con el plan de precios (por ejemplo, "Premium - Proceso de trabajos - DBU"). Para obtener más información, consulte Medidores de Azure Databricks.

La interfaz de usuario también ha cambiado en la versión 3.27 de la plataforma (destinada a la publicación en fases entre el 25 de agosto y el 3 de septiembre):

En la página Clústeres, los encabezados de lista han cambiado:

Interactive Clusters (Clústeres interactivos) -> All-Purpose Clusters (Clústeres multiuso)
Automated Clusters (Clústeres automatizados) -> Job Clusters (Clústeres de trabajo)

Al configurar un clúster para un trabajo, las opciones de tipo de clúster han cambiado:

New Automated Clusters (Nuevos clústeres automatizados) -> New Job Cluster (Nuevo clúster de trabajo)
Existing Interactive Cluster (Clúster interactivo existente) -> Existing All-Purpose Cluster (Clúster multiuso existente)

Septiembre de 2020

Databricks Runtime 7.3, 7.3 ML y 7.3 Genomics ya están en fase de disponibilidad general

Clústeres de nodo único (versión preliminar pública)

Limitación de velocidad de la API REST de DBFS

Nuevos iconos en la barra lateral

Aumento del límite de trabajos en ejecución

Listas de control de acceso (ACL) de artefactos en MLflow

Mejoras en la facilidad de uso de MLflow

Nuevo conector de Power BI de Azure Databricks (versión preliminar pública)

Uso de claves administradas por el cliente para la raíz de DBFS (versión preliminar pública)

Los nuevos controladores JDBC y ODBC aportan inteligencia empresarial más rápida y con menor latencia

Servicio de modelos de MLflow (versión preliminar pública)

Mejoras de la interfaz de usuario de clústeres

Controles de visibilidad para trabajos, clústeres, cuadernos y otros objetos del área de trabajo

La capacidad para crear tokens deja de estar permitida de manera predeterminada

Databricks Runtime 7.3 (beta)

Cambie del nombre del tipo de la carga de trabajo de Azure Databricks

Recursos adicionales

Septiembre de 2020

Databricks Runtime 7.3, 7.3 ML y 7.3 Genomics ya están en fase de disponibilidad general

Clústeres de nodo único (versión preliminar pública)

Limitación de velocidad de la API REST de DBFS

Nuevos iconos en la barra lateral

Aumento del límite de trabajos en ejecución

Listas de control de acceso (ACL) de artefactos en MLflow

Mejoras en la facilidad de uso de MLflow

Nuevo conector de Power BI de Azure Databricks (versión preliminar pública)

Uso de claves administradas por el cliente para la raíz de DBFS (versión preliminar pública)

Los nuevos controladores JDBC y ODBC aportan inteligencia empresarial más rápida y con menor latencia

Servicio de modelos de MLflow (versión preliminar pública)

Mejoras de la interfaz de usuario de clústeres

Controles de visibilidad para trabajos, clústeres, cuadernos y otros objetos del área de trabajo

La capacidad para crear tokens deja de estar permitida de manera predeterminada

El registro de modelos de MLflow admite el uso compartido de modelos en las áreas de trabajo

Databricks Runtime 7.3 (beta)

Cambie del nombre del tipo de la carga de trabajo de Azure Databricks

Recursos adicionales