Compartir a través de


Aplicación de inteligencia artificial en datos mediante Azure Databricks AI Functions

Importante

Esta característica está en versión preliminar pública.

En este artículo se describen Azure Databricks AI Functions y las funciones admitidas.

¿Qué son las funciones de IA?

Las funciones de IA son funciones integradas que puede usar para aplicar inteligencia artificial, como la traducción de texto o el análisis de sentimiento, en los datos almacenados en Databricks. Se pueden ejecutar desde cualquier lugar de Databricks, incluidos Databricks SQL, notebooks, canalizaciones declarativas de Lakeflow y flujos de trabajo.

Las funciones de IA son fáciles de usar, rápidas y escalables. Los analistas pueden usarlos para aplicar la inteligencia de datos a sus datos propietarios, mientras que los científicos de datos y los ingenieros de aprendizaje automático pueden usarlos para crear canalizaciones por lotes de nivel de producción.

Las funciones de IA proporcionan funciones específicas de tareas y de uso general.

  • ai_query es una función de uso general que permite aplicar cualquier tipo de modelo de inteligencia artificial en los datos. Consulte Función de uso general: ai_query.
  • Las funciones específicas de tareas proporcionan funcionalidades de inteligencia artificial de alto nivel para tareas como resumir texto y traducción. Estas funciones específicas de la tarea cuentan con tecnología de modelos de IA generativos de última generación hospedados y administrados por Databricks. Consulte Funciones de IA específicas de la tarea para conocer las funciones y modelos admitidos.

Función de uso general: ai_query

La ai_query() función permite aplicar cualquier modelo de inteligencia artificial a los datos de las tareas de inteligencia artificial generativa y aprendizaje automático clásico, incluida la extracción de información, el resumen del contenido, la identificación del fraude y la previsión de los ingresos. Para obtener detalles de sintaxis y parámetros, consulte ai_query function.

En la tabla siguiente se resumen los tipos de modelo admitidos, los modelos asociados y los requisitos de configuración del punto de conexión de servicio para cada uno.

Tipo Modelos compatibles Requisitos
Modelos de base hospedados en Databricks optimizados para AI Functions Estos modelos se recomiendan para empezar a trabajar con escenarios de inferencia por lotes y flujos de trabajo de producción:
  • databricks-llama-4-maverick
  • databricks-meta-llama-3-3-70b-instruct
  • databricks-meta-llama-3-1-8b-instruct
  • databricks-gte-large-en

Otros modelos hospedados en Databricks están disponibles para su uso con AI Functions, pero no se recomiendan para flujos de trabajo de producción de inferencia por lotes a escala.
Databricks Runtime 15.4 LTS o superior es necesario para usar esta funcionalidad. No requiere ninguna configuración ni aprovisionamiento de puntos de conexión. El uso de estos modelos está sujeto a la disponibilidad de las licencias y términos aplicables para desarrolladores de modelos y a la disponibilidad de la región de AI Functions.
Modelos de base ajustados Modelos de base optimizados implementados en mosaic AI Model Serving Requiere que cree un punto de conexión de rendimiento aprovisionado en Servicio de modelos. Consulte ai_query y modelos de base personalizados o optimizados.
Modelos de Foundation hospedados fuera de Databricks Modelos disponibles mediante modelos externos. Consulte Modelos de Access Foundation hospedados fuera de Databricks. Requiere quecree un modelo de puntos de conexión de servicio externo.
Modelos de ML y DL tradicionales personalizados Cualquier modelo de ML o DL tradicional, como scikit-learn, xgboost o PyTorch Requiere que cree un modelo personalizado que sirva el punto de conexión.

Uso de ai_query con modelos de base

En el ejemplo siguiente se muestra cómo usar ai_query un modelo de base hospedado por Databricks.


SELECT text, ai_query(
    "databricks-meta-llama-3-3-70b-instruct",
    "Summarize the given text comprehensively, covering key points and main ideas concisely while retaining relevant details and examples. Ensure clarity and accuracy without unnecessary repetition or omissions: " || text
) AS summary
FROM uc_catalog.schema.table;

Utiliza ai_query con modelos tradicionales de aprendizaje automático

ai_query admite modelos tradicionales de ML, incluidos los totalmente personalizados. Estos modelos deben implementarse en los puntos de conexión de Servicio de modelos. Para obtener detalles de sintaxis y parámetros, consulte ai_query función .

SELECT text, ai_query(
  endpoint => "spam-classification",
  request => named_struct(
    "timestamp", timestamp,
    "sender", from_number,
    "text", text),
  returnType => "BOOLEAN") AS is_spam
FROM catalog.schema.inbox_messages
LIMIT 10

Funciones de IA específicas de la tarea

Las funciones específicas de la tarea se limitan a una determinada tarea para que pueda automatizar acciones rutinarias, como resúmenes sencillos y traducciones rápidas. Databricks recomienda estas funciones para empezar, ya que invocan un modelo de inteligencia artificial generativo de última generación mantenido por Databricks y no requieren ninguna personalización.

Consulte Análisis de opiniones de clientes con AI Functions para obtener un ejemplo.

En la tabla siguiente se enumeran las funciones admitidas y la tarea que realizan cada una.

Función Descripción
ai_analyze_sentiment Realice un análisis de sentimiento en el texto de entrada mediante un modelo de ia generativa de última generación.
ai_classify Clasifique el texto de entrada según las etiquetas que proporcione mediante un modelo de ia generativa de última generación.
ai_extract Extraiga las entidades especificadas por las etiquetas del texto mediante un modelo de IA generativa de última generación.
ai_corregir_gramática Corrija los errores gramaticales en el texto mediante un modelo de ia generativa de última generación.
ai_gen Responda al mensaje proporcionado por el usuario mediante un modelo de ia generativa de última generación.
ai_mask Enmascarar las entidades especificadas en el texto mediante un modelo de IA generativo de última generación.
ai_parse_document (beta) Extraiga contenido estructurado de documentos no estructurados mediante un modelo de ia generativa de última generación.
ai_similarity Compare dos cadenas y calcule la puntuación de similitud semántica mediante un modelo de ia generativa de última generación.
ai_summarize Genere un resumen del texto mediante SQL y el modelo de ia generativa de última generación.
ai_translate Traduzca texto a un idioma de destino especificado mediante un modelo de ia generativa de última generación.
ai_forecast Previsión de datos hasta un horizonte especificado. Esta función con valores de tabla está diseñada para extrapolar los datos de series temporales en el futuro.
vector_search Busque y consulte un índice de búsqueda de vectores de IA de mosaico mediante un modelo de IA generativo de última generación.

Uso de funciones de IA en flujos de trabajo de Python existentes

Las funciones de IA se pueden integrar fácilmente en flujos de trabajo de Python existentes.

A continuación se escribe la salida del ai_query en una tabla de salida:

df_out = df.selectExpr(
  "ai_query('databricks-meta-llama-3-3-70b-instruct', CONCAT('Please provide a summary of the following text: ', text), modelParameters => named_struct('max_tokens', 100, 'temperature', 0.7)) as summary"
)
df_out.write.mode("overwrite").saveAsTable('output_table')

A continuación se escribe el texto resumido en una tabla:

df_summary = df.selectExpr("ai_summarize(text) as summary")
df_summary.write.mode('overwrite').saveAsTable('summarized_table')

Uso de funciones de IA en flujos de trabajo de producción

Para la inferencia por lotes a gran escala, puede integrar funciones de inteligencia artificial específicas de tareas o la función ai_query de propósito general en sus flujos de trabajo de producción, como las canalizaciones declarativas de Lakeflow, los flujos de trabajo de Databricks y el streaming estructurado. Esto permite el procesamiento de nivel de producción a escala. Consulte Realice inferencias de LLM por lotes mediante Funciones de IA para obtener ejemplos y detalles.

Supervisión del progreso de las funciones de IA

Para comprender cuántas inferencias se han completado o producido errores y solucionar problemas de rendimiento, puede supervisar el progreso de las funciones de IA mediante la característica de perfil de consulta.

En Databricks Runtime 16.1 ML y versiones posteriores, desde la ventana de consulta del editor de SQL del área de trabajo:

  1. Seleccione el vínculo En ejecución--- en la parte inferior de la ventana Resultados sin procesar. La ventana de rendimiento aparece a la derecha.
  2. Haga clic en Ver perfil de consulta para ver los detalles del rendimiento.
  3. Haga clic en Consulta de IA para ver las métricas de esa consulta concreta, incluido el número de inferencias completadas y con errores y el tiempo total que tardó la solicitud en completarse.

Supervisión del progreso de la función de IA