Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Un marco de plataforma de inteligencia artificial y datos modernos
Para analizar el ámbito de la plataforma de inteligencia de datos de Databricks, es útil definir primero un marco básico para la plataforma moderna de datos e inteligencia artificial:
Introducción al ámbito del almacén de lago de datos
Databricks Data Intelligence Platform cubre el marco de plataforma de datos moderno completo. Se construye sobre la arquitectura lakehouse y funciona con un motor de inteligencia de datos que comprende las cualidades únicas de tus datos. Es una base abierta y unificada para las cargas de trabajo ETL, ML/AI y DWH/BI, y tiene Unity Catalog como la solución central de gobernanza de datos e inteligencia artificial.
Personas del marco de plataforma
El marco abarca a los miembros principales del equipo de datos (personas) que trabajan con las aplicaciones dentro del marco.
- Los ingenieros de datos proporcionan a los científicos de datos y analistas de negocios datos precisos y reproducibles para la toma de decisiones oportuna y la información en tiempo real. Implementan procesos ETL altamente coherentes y confiables para aumentar la confianza del usuario y la confianza en los datos. Garantizan que los datos están bien integrados con los distintos pilares de la empresa y suelen seguir los procedimientos recomendados de ingeniería de software.
- Los científicos de datos combinan conocimientos analíticos y conocimientos empresariales para transformar los datos en información estratégica y modelos predictivos. Son expertos en traducir desafíos empresariales en soluciones controladas por datos, ya sea a través de conclusiones analíticas retrospectivas o modelado predictivo de futuro. Aprovechando las técnicas de modelado de datos y aprendizaje automático, diseñan, desarrollan e implementan modelos que desvelan patrones, tendencias y previsiones de datos. Actúan como puente, convirtiendo narrativas de datos complejas en historias comprensibles, lo que garantiza que las partes interesadas de la empresa no solo comprendan, sino que también puedan actuar basándose en las recomendaciones controladas por datos, a su vez impulsando un enfoque centrado en los datos para resolver problemas dentro de una organización.
- Los ingenieros de ML (ingenieros de aprendizaje automático) dirigen la aplicación práctica de la ciencia de datos en productos y soluciones mediante la creación, implementación y mantenimiento de modelos de aprendizaje automático. Su principal enfoque se centra en el aspecto de ingeniería del desarrollo y la implementación de modelos. Los ingenieros de ML garantizan la solidez, la confiabilidad y la escalabilidad de los sistemas de aprendizaje automático en entornos activos, abordando los desafíos relacionados con la calidad de los datos, la infraestructura y el rendimiento. Al integrar modelos de inteligencia artificial y aprendizaje automático en procesos empresariales operativos y productos orientados al usuario, facilitan el uso de la ciencia de datos en la resolución de desafíos empresariales, lo que garantiza que los modelos no solo permanezcan en la investigación, sino que impulsan el valor empresarial tangible.
- analistas de negocios y usuarios empresariales: los analistas de negocios proporcionan a las partes interesadas y a los equipos empresariales datos accionables. A menudo interpretan los datos y crean informes u otra documentación para la administración mediante herramientas de BI estándar. Normalmente son el primer punto de contacto para los usuarios empresariales y compañeros de operaciones no técnicos para preguntas de análisis rápidos. Los usuarios empresariales pueden usar directamente paneles y aplicaciones empresariales que se entregan en la plataforma de Databricks.
- Los desarrolladores de aplicaciones crean aplicaciones de inteligencia artificial y datos seguros en la plataforma de datos y comparten esas aplicaciones con usuarios empresariales.
- Los socios comerciales son una parte interesada importante en un mundo empresarial cada vez más interconectado. Se definen como una empresa o personas con la que una empresa tiene una relación formal para lograr un objetivo común y pueden incluir proveedores, vendedores, distribuidores y otros asociados de terceros. El uso compartido de datos es un aspecto importante de las asociaciones empresariales, ya que permite la transferencia y el intercambio de datos para mejorar la colaboración y la toma de decisiones controladas por datos.
Dominios del marco de plataforma
La plataforma consta de varios dominios:
- Almacenamiento: En la nube, los datos se almacenan principalmente en el almacenamiento de objetos escalable, eficaz y resistente en proveedores de nube.
- Gobernanza: funcionalidades relacionadas con la gobernanza de datos, por ejemplo, control de acceso, auditoría, administración de metadatos, seguimiento de linaje y supervisión de todos los recursos de datos e IA.
- Motor de IA: el motor de IA proporciona funcionalidades de IA generativa para toda la plataforma.
- Ingesta y transformación: Las funcionalidades de las cargas de trabajo de ETL.
- Análisis avanzado, ML e IA:: todas las funcionalidades relacionadas con el aprendizaje automático, la IA, la IA generativa y también el análisis de streaming.
- Almacenamiento de datos: El dominio que admite casos de uso de DWH y BI.
- Automation: administración de flujos de trabajo para el procesamiento de datos, el aprendizaje automático, las canalizaciones de análisis, incluida la compatibilidad con CI/CD y MLOps.
- Herramientas de ciencia de datos y ETL: Las herramientas de front-end que los ingenieros de datos, los científicos de datos y los ingenieros de APRENDIZAJE automático usan principalmente para el trabajo.
- Herramientas de BI: las herramientas de front-end que los analistas de BI usan principalmente para el trabajo.
- Aplicaciones de datos e inteligencia artificial Herramientas que compilan y hospedan aplicaciones que usan los datos administrados por la plataforma subyacente y aprovechan sus funcionalidades de análisis e inteligencia artificial de forma segura y compatible con la gobernanza.
- Colaboración: funcionalidades para compartir datos entre dos o más partes.
Ámbito de la plataforma de Databricks
Databricks Data Intelligence Platform y sus componentes se pueden asignar al marco de trabajo de la siguiente manera:
Descarga: ámbito del almacén de lago de datos: componentes de Databricks
Cargas de trabajo de datos en Azure Databricks
Lo más importante es que Databricks Data Intelligence Platform cubre todas las cargas de trabajo pertinentes para el dominio de datos en una plataforma, con Apache Spark/Photon como motor:
Ingerir y transformar
Databricks ofrece varias formas de ingesta de datos:
- Databricks Lakeflow Connect ofrece conectores integrados para la ingesta de aplicaciones y bases de datos empresariales. La canalización de ingestión resultante se rige por Unity Catalog y se impulsa con computación sin servidor y canalizaciones declarativas de Lakeflow.
- Auto Loader procesa automáticamente e incrementalmente los archivos que llegan al almacenamiento en la nube en trabajos programados o continuos, sin necesidad de administrar la información de estado. Una vez ingeridos, es necesario transformar los datos sin procesar para que esté listo para BI y ML/AI. Databricks proporciona eficaces funcionalidades ETL para ingenieros de datos, científicos de datos y analistas.
Las canalizaciones declarativas de Lakeflow permiten escribir trabajos ETL de forma declarativa, lo que simplifica todo el proceso de implementación. La calidad de los datos se puede mejorar definiendo las expectativas de los datos.
Análisis avanzado, ML e IA
La plataforma incluye Databricks Mosaic AI, un conjunto de herramientas de aprendizaje automático e inteligencia artificial totalmente integradas para el aprendizaje automático tradicional y el aprendizaje profundo, así como la inteligencia artificial generativa y modelos de lenguaje grande (LLM). Abarca todo el flujo de trabajo, desde la preparación de datos a la creación de modelos de aprendizaje automático y aprendizaje profundo, y al servicio de modelos de Mosaic AI.
Spark Structured Streaming y Lakeflow Declarative Pipelines permiten el análisis en tiempo real.
Almacenamiento de datos
La plataforma de inteligencia de datos de Databricks también tiene una solución de almacenamiento de datos completa con Databricks SQL, que se rige centralmente por el catálogo de Unity con control de acceso específico.
las funciones de inteligencia artificial son funciones SQL integradas que permiten aplicar inteligencia artificial en los datos directamente desde SQL. La integración de la inteligencia artificial en los trabajos de análisis proporciona acceso a la información inaccesible a los analistas y les permite tomar decisiones más informadas, administrar riesgos y mantener una ventaja competitiva a través de la innovación y eficiencia controladas por datos.
Resumen de las áreas de características de Azure Databricks
Esta es una asignación de las características de Databricks Data Intelligence Platform a las demás capas del marco, de abajo a arriba:
Almacenamiento en la nube
Todos los datos de lakehouse se almacenan en el almacenamiento de objetos del proveedor de nube. Databricks admite tres proveedores de nube: AWS, Azure y GCP. Los archivos en varios formatos estructurados y semiestructurados (por ejemplo, Parquet, CSV, JSON y Avro), así como formatos no estructurados (como imágenes y documentos), se ingieren y transforman mediante procesos por lotes o de streaming.
Delta Lake es el formato de datos recomendado para lakehouse (transacciones de archivos, confiabilidad, coherencia, actualizaciones, etc.). También es posible leer tablas delta mediante clientes de Apache Iceberg.
No se usan formatos de datos propietarios en la Plataforma de inteligencia de datos de Databricks: Delta Lake y Iceberg son de código abierto para evitar la dependencia del proveedor.
gobernanza de datos e inteligencia artificial
Además de la capa de almacenamiento, Unity Catalog ofrece una amplia gama de funcionalidades de gobernanza de datos e inteligencia artificial, incluida la administración de metadatos en el metastore, el control de acceso, la auditoría, la detección de datos y el linaje de datos.
La supervisión de Lakehouse proporciona métricas de calidad integradas para los activos de datos y de inteligencia artificial, y paneles generados automáticamente para visualizar estas métricas.
Los orígenes SQL externos se pueden integrar en el almacén de lago de datos y en Unity Catalog a través de la federación del almacén de lago de datos.
Motor de IA
La plataforma de inteligencia de datos se basa en la arquitectura lakehouse y se mejora con las características con tecnología de inteligencia artificial de Databricks. Databricks AI combina IA generativa con las ventajas de unificación de la arquitectura lakehouse para comprender la semántica única de sus datos. Búsqueda inteligente y Databricks Assistant son ejemplos de servicios con tecnología de IA que simplifican el trabajo con la plataforma para cada usuario.
Orquestación
Los trabajos de Lakeflow le permiten ejecutar diversas cargas de trabajo para el ciclo de vida completo de los datos y la inteligencia artificial en cualquier nube. Permiten orquestar trabajos, así como las Canalizaciones Declarativas de Lakeflow para SQL, Spark, cuadernos, DBT, modelos de aprendizaje automático, y más.
Herramientas de ETL y DS
En la capa de consumo, los ingenieros de datos y los ingenieros de ML suelen trabajar con la plataforma mediante IDE. Los científicos de datos suelen preferir cuadernos y usar los entornos de ejecución de ML e IA, y el sistema de flujo de trabajo de aprendizaje automático MLflow para realizar un seguimiento de los experimentos y administrar el ciclo de vida del modelo.
Herramientas de BI
Normalmente, los analistas de negocios usan su herramienta de BI preferida para acceder al almacenamiento de datos de Databricks. Databricks SQL se puede consultar mediante diferentes herramientas de análisis y BI, consulte BI y visualización
Además, la plataforma ofrece herramientas de consulta y análisis lista para usar:
- Paneles de IA/BI para arrastrar y colocar visualizaciones de datos y compartir información.
- Expertos en dominios, como analistas de datos, configuran espacios de Genie de IA/BI con conjuntos de datos, consultas de ejemplo y directrices de texto para ayudar a Genie a traducir preguntas empresariales en consultas analíticas. Después de la configuración, los usuarios empresariales pueden formular preguntas y generar visualizaciones para comprender los datos operativos.
- Editor de SQL para analistas de SQL para analizar datos.
Aplicaciones de datos e inteligencia artificial
Databricks Apps permite a los desarrolladores crear aplicaciones de inteligencia artificial y datos seguros en la plataforma de Databricks y compartir esas aplicaciones con los usuarios.
Colaboración
Delta Sharing es un protocolo abierto desarrollado por Databricks para proteger el uso compartido de datos con otras organizaciones, independientemente de las plataformas informáticas que usen.
Databricks Marketplace, es un foro abierto para intercambiar productos de datos. Aprovecha delta sharing para proporcionar a los proveedores de datos las herramientas para compartir productos de datos de forma segura y los consumidores de datos la capacidad de explorar y expandir su acceso a los datos y los servicios de datos que necesitan.
Las salas limpias usan el uso compartido delta y el proceso sin servidor para proporcionar un entorno seguro y de protección de la privacidad en el que varias partes pueden trabajar conjuntamente en datos empresariales confidenciales sin acceso directo a los datos de los demás.