Diseño de una solución de análisis e integración de datos con Azure Databricks

Completado

Azure Databricks es una plataforma de macrodatos y Machine Learning totalmente administrada basada en la nube, que permite a los desarrolladores acelerar la inteligencia artificial y la innovación. Azure Databricks proporciona a los equipos de ciencia de datos e ingeniería una sola plataforma para el procesamiento de macrodatos y Machine Learning. La plataforma de Apache Spark administrada Azure Databricks facilita la ejecución de cargas de trabajo de Spark a gran escala.

Cosas que se deben saber sobre Azure Databricks

Azure Databricks se basa completamente en Apache Spark y es una excelente herramienta para los usuarios que ya están familiarizados con el marco de informática de clústeres de código abierto. Databricks está diseñado específicamente para el procesamiento de macrodatos. Los científicos de datos pueden aprovechar las ventajas de la API básica integrada para lenguajes principales, como SQL, Java, Python, R y Scala.

Azure Databricks tiene un plano de control y un plano de proceso:

  • Plano de control: hospeda trabajos de Databricks, cuadernos con resultados de consulta y el administrador de clústeres. El plano de control también tiene la aplicación web, listas de control de acceso de seguridad (ACL) y sesiones de usuario. Microsoft administra estos componentes en colaboración con Azure Databricks.

  • Compute Plane: contiene todos los clústeres en tiempo de ejecución de Azure Databricks hospedados en el área de trabajo. Todo el procesamiento y almacenamiento de datos se realiza dentro de la suscripción del cliente.

Azure Databricks ofrece tres entornos para desarrollar aplicaciones de uso intensivo de datos.

  • Databricks SQL: Azure Databricks SQL proporciona una plataforma fácil de usar para los analistas que desean ejecutar consultas SQL en su lago de datos. Permite crear varios tipos de visualización para explorar los resultados de las consultas desde diferentes perspectivas, así como crear y compartir paneles.

  • Databricks Data Science & Ingeniería: Azure Databricks Ciencia de Datos e Ingeniería permite a los equipos de datos colaborar en un espacio de trabajo interactivo. Los datos se introducen en Azure a través de herramientas por lotes o en tiempo real, como Azure Data Factory, Kafka, Event Hubs o IoT Hub. Los datos se almacenan en Azure Blob Storage o Data Lake Storage. Databricks lee datos de estos orígenes y usa Spark para generar información.

  • Databricks Machine Learning: Azure Databricks Machine Learning es un entorno integrado de machine learning de un extremo a otro. Incorpora servicios administrados para el seguimiento de experimentos, el entrenamiento de modelos, el desarrollo y la administración de características, y el servicio de características y modelos.

Escenario empresarial

Vamos a analizar un escenario para Tailwind Traders en la división de fabricación de maquinaria pesada. Tailwind Traders usa Azure servicios en la nube para sus necesidades de macrodatos. Están trabajando con datos por lotes y datos de streaming. La división emplea a ingenieros, científicos y analistas de datos que colaboran para elaborar informes rápidos y completos para muchas partes interesadas. Para cumplir los requisitos de macrodatos, tiene previsto recomendar Azure Databricks e implementar el entorno de ciencia de datos e ingeniería.

Vamos a revisar por qué Azure Databricks puede ser la opción adecuada para cumplir estos requisitos.

  • Azure Databricks es un área de trabajo de análisis basada en Apache Spark.

  • Admite la colaboración y controla los datos estructurados y de streaming.

  • Se integra con herramientas en tiempo real como Kafka y Flume.

  • Permite a los usuarios trabajar con Python, Scala o R.

  • Se conecta a Azure bases de datos y soluciones de almacenamiento, lo que satisface las necesidades de macrodatos.

  • Funciona con Power BI para obtener conclusiones rápidas.

  • Databricks SQL y Machine Learning no son adecuados aquí, ya que no se necesitan datos no estructurados y machine learning.

Aspectos que se deben tener en cuenta al usar Azure Databricks

Puede usar Azure Databricks como solución para varios escenarios. Tenga en cuenta cómo el servicio puede beneficiar a la solución de integración de datos para Tailwind Traders.

  • Preparación de los datos para la ciencia de datos. Cree, clone y edite clústeres de datos complejos y no estructurados. Convierta los clústeres de datos en trabajos específicos. Ofrezca los resultados a los científicos de datos y analistas de datos para su revisión.

  • Considere la posibilidad de obtener información sobre los datos. Implemente Azure Databricks para crear motores de recomendación, análisis de renovación y detección de intrusiones.

  • Considere la productividad entre los equipos de datos y análisis. Cree un entorno de colaboración y áreas de trabajo compartidas para ingenieros de datos, analistas y científicos. Los equipos pueden trabajar juntos en todo el ciclo de vida de la ciencia de datos con áreas de trabajo compartidas, y esto ayuda a ahorrar tiempo y recursos valiosos.

  • Considere cargas de trabajo de Big Data. Use Azure Data Lake y el motor para obtener el mejor rendimiento y confiabilidad para las cargas de trabajo de macrodatos. Cree canalizaciones de datos de varios pasos sin problemas.

  • Considere la posibilidad de usar programas de aprendizaje automático. Aproveche las ventajas del entorno de aprendizaje automático integrado de un extremo a otro. Incorpora servicios administrados para el seguimiento de experimentos, el entrenamiento de modelos, el desarrollo y la administración de características, y el servicio de características y modelos.

Sugerencia

Obtenga más información con el entrenamiento autodirigido, Explore Azure Databricks.