¿Qué es Databricks Data Science & Engineering? (ingeniería y ciencia de datos de Databricks)

Databricks Data Science & Engineering (a veces llamada simplemente "área de trabajo") es una plataforma de análisis basada en Apache Spark. Está integrada con Azure para proporcionar una configuración con un solo clic, flujos de trabajo optimizados y un área de trabajo interactiva que permite la colaboración entre ingenieros de datos, científicos de datos e ingenieros de aprendizaje automático.

What is Azure Databricks?

Para una canalización de macrodatos, los datos (estructurados o sin formato) se ingieren en Azure mediante Azure Data Factory en lotes o transmitidos casi en tiempo real con Apache Kafka, Event Hub o IoT Hub. Estos datos llegan a un lago de datos para un almacenamiento persistente a largo plazo en Azure Blob Storage o Azure Data Lake Storage. Como parte del flujo de trabajo de análisis, use Azure Databricks para leer datos desde varios orígenes de datos, como Azure Blob Storage, Azure Data Lake Storage, Azure Cosmos DB o Azure SQL Data Warehouse, y convertirlos en conclusiones importante sobre el uso de Spark.

Databricks pipeline

Plataforma de análisis de Apache Spark

Databricks Data Science & Engineering consta de todas las tecnologías y funcionalidades de un clúster de Apache Spark de código abierto. Spark en Databricks Data Science & Engineering incluye los siguientes componentes:

Apache Spark in Azure Databricks

  • Spark SQL y DataFrames: Spark SQL es el módulo de Spark para trabajar con datos estructurados. Una trama de datos es una colección distribuida de datos que se organizan en columnas con nombre. Es conceptualmente equivalente a una tabla en una base de datos relacional o a una trama de datos en R/Python.

  • Streaming: procesamiento y análisis de datos en tiempo real para aplicaciones analíticas e interactivas. Se integra con HDFS, Flume y Kafka.

  • MLlib: biblioteca de Machine Learning que consta de algoritmos y utilidades de aprendizaje comunes, como la clasificación, la regresión, la agrupación en clústeres, el filtrado colaborativo, la reducción de dimensionalidad y las primitivas de optimización subyacentes.

  • GraphX: grafos y cálculo de grafos para una amplia gama de casos de uso, desde los análisis cognitivos hasta la exploración de datos.

  • Spark Core API: incluye compatibilidad con R, SQL, Python, Scala y Java.

Apache Spark en Azure Databricks

Azure Databricks proporciona una plataforma en la nube sin administración basada en las funcionalidades de Spark que incluye:

  • Clústeres de Spark completamente administrados
  • Un área de trabajo interactiva de exploración y visualización
  • Una plataforma para activar las aplicaciones de Spark favoritas

Clústeres de Apache Spark completamente administrados en la nube

Azure Databricks tiene un entorno de producción seguro y confiable en la nube, administrado y con el soporte técnico de expertos en Spark. Puede:

  • Crear clústeres en segundos.
  • Escalar y reducir clústeres automática y dinámicamente en vertical y compartirlos entre equipos.
  • Usar clústeres mediante programación al invocar las API REST.
  • Utilizar funcionalidades seguras de integración de datos basadas en Spark que permiten unificar los datos sin centralización.
  • Acceder inmediatamente a las últimas características de Apache Spark con cada versión.

Entorno de tiempo de ejecución de Databricks

Databricks Runtime se basa en Apache Spark y se ha creado de forma nativa para la nube de Azure.

Azure Databricks abstrae completamente la complejidad de la infraestructura y la necesidad de experiencia especializada para instalar y configurar la infraestructura de datos.

Para los ingenieros de datos, a quienes interesa el rendimiento de las tareas de producción, Azure Databricks proporciona un motor de Spark más rápido y eficiente gracias a varias optimizaciones en la capa de E/S y la de procesamiento (Databricks E/S).

Área de trabajo para la colaboración

Mediante un entorno de colaboración integrado, Databricks Data Science & Engineering simplifica el proceso de exploración de datos, la creación de prototipos y la ejecución de aplicaciones basadas en datos en Spark.

  • Determine cómo usar los datos con una exploración de datos sencilla.
  • Documente el progreso en blocs de notas en R, Python, Scala o SQL.
  • Visualice los datos en unos clics y use herramientas conocidas como Matplotlib, ggplot o d3.
  • Use paneles interactivos para crear informes dinámicos.
  • Use Spark e interactúe con los datos al mismo tiempo.

Seguridad de la empresa

Azure Databricks proporciona seguridad empresarial de Azure, incluida la integración de Azure Active Directory, controles basados en roles y Acuerdos de Nivel de Servicio que protegen los datos y la empresa.

  • La integración con Azure Active Directory permite ejecutar soluciones completas basadas en Azure con Azure Databricks.
  • El acceso basado en roles de Azure Databricks permite permisos de usuario específicos para los cuadernos, los clústeres, los trabajos y los datos.
  • Acuerdos de Nivel de Servicio de clase empresarial.

Importante

Azure Databricks es un servicio propio de Microsoft Azure que se implementa en la infraestructura global de la nube pública de Azure. Todas las comunicaciones entre los componentes del servicio, incluidas aquellas entre las direcciones IP públicas del plano de control y el plano de datos del cliente, permanecen dentro de la red troncal de Microsoft Azure. Consulte también Red global de Microsoft.

Integración con servicios de Azure

Databricks Data Science & Engineering se integra totalmente con los almacenes y las bases de datos de Azure: Synapse Analytics, Cosmos DB, Data Lake Store y Blob Storage.

Integración con Power BI

Mediante la integración enriquecida con Power BI, Databricks Data Science & Engineering permite descubrir y compartir información valiosa de manera rápida y sencilla. También puede usar otras herramientas de BI, como Tableau Software.

Pasos siguientes