Compartir a través de


Procedimientos recomendados para configurar el agente de datos

En este artículo se describen los procedimientos recomendados para configurar un agente de datos para ofrecer respuestas precisas, pertinentes y útiles a las preguntas del usuario. Al establecer instrucciones específicas del origen de datos y de nivel de agente, puede guiar cómo interpreta las consultas, selecciona los orígenes de datos y genera respuestas. Aprenderá a definir el objetivo del agente, priorizar los orígenes de datos, incorporar terminología clave y proporcionar lógica de consulta para escenarios comunes. Estas sugerencias de configuración ayudan a garantizar que el agente se realice de forma confiable en diversos entornos de datos y necesidades del usuario.

Para explorar los distintos tipos de configuraciones del agente de datos, consulte Configuraciones del agente de datos.

1. Prepara tus datos para inteligencia artificial

Para asegurarse de que el agente de datos puede generar consultas precisas, es importante que los orígenes de datos, las tablas y las columnas usen nombres claros y descriptivos. Evite etiquetas vagas o genéricas como Table1, col1o flag, lo que puede dificultar que el agente interprete la intención del usuario.

Menos eficaz:

  • Nombres de tabla: Table1, Table2
  • Nombres de columna: col1, status, flag

Mejor:

  • Nombres de tabla: CustomerOrders, ProductCatalog, SalesTransactions, OrderItems
  • Nombres de columna: customer_email_address, order_submission_date, product_unit_price

La nomenclatura descriptiva ayuda al agente a comprender la estructura de datos y mejora la calidad de las consultas generadas.

2. Creación de agentes especializados para dominios específicos

Para mejorar la precisión y la relevancia, diseñe agentes de datos centrados en un dominio específico o un caso de uso en lugar de tratar una amplia gama de preguntas. Los agentes especializados se pueden optimizar con instrucciones dirigidas, orígenes de datos relevantes y terminología específica del dominio, lo que hace que sean más confiables y eficaces.

Menos eficaz: Un agente de datos de uso general que responde a una amplia variedad de preguntas relacionadas con el cliente en diferentes roles de usuario

Mejor: Un agente de datos adaptado para apoyar al equipo directivo mediante la combinación de información de varios orígenes de datos para la preparación de la reunión

Al restringir el foco del agente, se mejora su capacidad de generar respuestas precisas y reducir la ambigüedad en la interpretación de las consultas.

3. Minimizar el ámbito del origen de datos

Incluya solo los orígenes de datos necesarios para responder a las preguntas de usuario esperadas. Dentro de cada origen de datos, seleccione solo las tablas y columnas específicas que sean relevantes para el caso de uso. Una configuración más centrada mejora la capacidad del agente para generar consultas precisas y eficaces.

Menos eficaz: Conexión de un Lakehouse completo o modelo con todas las tablas y columnas

Mejor: Selección de solo las tablas y columnas esenciales necesarias para las consultas comunes

Sugerencia

Para obtener resultados óptimos, limite el número de tablas a 25 o menos para un origen de datos determinado.

4. Ser específico sobre qué hacer, no sólo qué no hacer

En lugar de indicar solo lo que debe evitar el agente, proporcione instrucciones claras sobre el enfoque correcto. Esto ayuda al agente a responder de forma más eficaz y evita la ambigüedad en el control de casos perimetrales.

Menos eficaz: No proporcione información de pago obsoleta ni realice suposiciones sobre los datos que faltan.
Mejor: Proporcione siempre la información de pago más reciente disponible en el sistema oficial de nóminas. Si el pago falta o está incompleto, informe al empleado de que no puede localizar los registros actuales y recomiende que póngase en contacto con los recursos humanos para obtener más ayuda.

5. Definir términos empresariales, abreviaturas y sinónimos

Para asegurarse de que el agente de datos interpreta correctamente las preguntas, defina los términos que puedan ser ambiguos, específicos de la organización o específicos del dominio. Estas definiciones ayudan al agente a aplicar lógica coherente y generar respuestas precisas, especialmente cuando las preguntas del usuario hacen referencia a terminología interna o conceptos similares.

Ejemplos de qué definir

  • Conceptos similares: "calendar year" frente a "fiscal year"
  • Términos empresariales comunes: "quarter", "sales", "SKU", "shoes"
  • Abreviaturas o acrónimos: "NPS" (Net Promoter Score), "MAU" (Usuarios activos mensuales)

Dónde colocar definiciones

  • Instrucciones de nivel de agente: use esta opción para las definiciones que se aplican en todos los orígenes de datos y consultas (por ejemplo, lo que representa un "trimestre").
  • Instrucciones sobre el origen de datos: úselo para las definiciones específicas de cómo se usa un término dentro de un conjunto de datos en particular (por ejemplo, "ventas" definidas de forma diferente en diferentes sistemas).

6. Usar palabras para orientar la generación de consultas

En las instrucciones del origen de datos, puede incluir sugerencias o fragmentos de sintaxis SQL/DAX/KQL para guiar el modelo hacia la generación de consultas en un formato específico. Estas "palabras iniciales" ayudan al agente a deducir la lógica correcta al traducir el lenguaje natural al código.

Menos eficaz:
Busque todos los productos con nombres que contengan "bike".

Mejor:
Buscar todos los productos con nombres que contengan "bike"
COMO '%bike%'

La inclusión de fragmentos de sintaxis como LIKE '%...%' ayuda al modelo a reconocer que se espera una cláusula de coincidencia de patrones en la consulta. Esta técnica mejora la precisión del SQL generado, especialmente cuando se controlan coincidencias parciales, filtros o combinaciones.

7. Escribir instrucciones claras y centradas; evitar detalles innecesarios

Las instrucciones deben ser concisas y intencionadas. Incluya solo la información necesaria para ayudar al agente a generar respuestas precisas. Evite contenido impreciso, obsoleto o demasiado amplio que introduce confusión o diluye el foco del agente.

Menos eficaz:

You are an HR data agent who should try to help employees with all kinds of questions about work. You have access to many systems, like the HRIS platform, old payroll databases from previous vendors, archived employee files, scanned PDF policy documents, and maybe even some spreadsheets that HR used in the past. If someone asks about their pay, you might want to look in one of the old systems if needed. Also, sometimes data isn't updated immediately, so just do your best. Remember that the company reorganized in 2017, so department names might be different before then. Try to be friendly, but also make sure you don’t seem robotic. Sometimes HR policies change, so answers might not always be the same depending on the date. Just explain if something seems complicated.

¿Por qué esto es menos eficaz?

  • El ámbito es demasiado amplio ("todo tipo de preguntas sobre el trabajo")
  • Referencias a orígenes obsoletos o no confiables (por ejemplo, "bases de datos de nómina antiguas")
  • Falta la priorización de orígenes de datos
  • Presenta un contexto histórico innecesario
  • Crea ambigüedad con frases como "hacer lo mejor"
  • Carece de orientación clara para gestionar datos faltantes o complejos.

Mejor:

You are an HR Assistant Agent responsible for answering employee questions about employment status, job details, pay history, and leave balances.  
Use the official HR data warehouse to retrieve current and accurate records.  
If data is missing or unclear, inform the user and recommend they contact HR for further support.  
Keep responses concise, professional, and easy for employees to understand.

¿Por qué es mejor esto?

  • Clarificar el ámbito y las responsabilidades del agente
  • Hace referencia al origen de datos correcto sin sobrecargar detalles técnicos
  • Proporciona un comportamiento de respaldo claro
  • Establece el tono y el estilo de comunicación
  • Deja las especificaciones de nivel de tabla a las instrucciones del origen de datos.

8. Escribir instrucciones detalladas del agente de datos

Las instrucciones del agente definen cómo el agente interpreta las preguntas del usuario, selecciona orígenes de datos y da formato a las respuestas. Use esta sección para describir claramente el rol del agente, el comportamiento esperado, el tono y cómo debe controlar diferentes tipos de consultas. Incluya detalles específicos sobre los casos de uso previstos, los orígenes de datos preferidos y el comportamiento de reserva cuando falta información.

Sugerencia

Al escribir las instrucciones del agente, pregúntese: ¿Alguien que no está familiarizado con estos orígenes de datos podrá comprender qué orígenes usar y cómo usarlos en función de las instrucciones? Si no es así, revise las instrucciones para incluir el contexto que falta.

Menos eficaz:

You are an agent that helps with HR topics.  
Find answers if possible.  
Try not to give wrong information.  
If you cannot find something, you can tell the user to check elsewhere.  
Answer employee questions about work, pay, and other topics using available systems.  
Keep responses professional.

Mejor:

## Tone and style
Use clear, simple, and professional language.  
Sound friendly and helpful, like an internal HR support agent.  
Avoid technical jargon unless it's part of the business terminology used in the data.

## General knowledge
You are an HR Assistant Agent designed to help employees access accurate information about their employment, benefits, and pay.  
Only answer questions using the official HR data sources provided.  
If multiple records exist, prioritize the most recent and most official source.  
Do not guess or assume answers—if information is missing or unclear, advise the employee to contact HR directly.  

## Data source descriptions
- **Employee Data Warehouse**: Contains employment records including status, role, start date, and department.
- **Payroll System**: Contains pay history, compensation details, and tax withholding information.
- **Benefits Enrollment Database**: Includes information about health insurance, retirement plans, and other employee benefits.
- **HR Policy Lakehouse**: Stores official company policies, including holidays, leave policies, and onboarding documents.

## When asked about
- **Employment status (e.g., active, on leave, terminated)**: Use the *Employee Data Warehouse*  
- **Pay history or compensation**: Use the *Payroll System*  
- **Benefits and enrollment details**: Use the *Benefits Enrollment Database*  
- **Company holidays and leave of absence policies**: Use the *HR Policy Lakehouse*

9. Proporcionar instrucciones detalladas sobre el origen de datos

Las instrucciones del origen de datos deben ser específicas, estructuradas y descriptivas. Guían al agente para formar consultas precisas definiendo cómo se organizan los datos, qué tablas y columnas son relevantes y cómo se deben controlar las relaciones entre las tablas.

Use esta sección para describir:

  • Propósito del origen de datos
  • Qué tipos de preguntas está pensada para responder
  • Columnas necesarias para incluir en las respuestas
  • Lógica de unión entre tablas
  • Formatos de valor típicos (por ejemplo, abreviaturas frente a nombres completos)

Sugerencia

Imagine que un nuevo miembro del equipo usa este conjunto de datos por primera vez, ¿podrían escribir una consulta correcta siguiendo estas instrucciones?
Si no es así, agregue el contexto que falta, aclare las suposiciones o incluya consultas de ejemplo para guiarlas.

Sugerencia

El agente de datos no puede ver valores de fila individuales antes de ejecutar una consulta.
Para guiar la lógica de filtrado, incluya ejemplos de formatos y valores típicos; por ejemplo, especifique si una State columna usa abreviaturas como "CA" o nombres completos como "California".

Menos eficaz:

## General instructions
Use the EmployeeData warehouse to find answers about employees.  
Try to get useful employee details when needed.

### Employment status
You can use the EmployeeStatusFact table.  
Join to EmployeeDim if necessary.

Mejor:

## General instructions
Use the EmployeeData data warehouse to answer questions related to employee details, employment status, pay history, and organizational structure.

When generating queries:
• Use EmployeeDim as the primary table for employee details.  
• Always include the following columns in the response (if available):  
  - EmployeeID  
  - EmployeeName  
  - EmploymentStatus  
  - JobTitle  
  - DepartmentName  
• Join other tables to EmployeeDim using EmployeeID unless otherwise specified.  
• Filter for the most recent records when applicable.  

Example values:
- EmploymentStatus: "Active", "On Leave", "Terminated"  
- DepartmentName: "Finance", "HR", "Engineering"  
- State: Use U.S. state abbreviations like "CA", "NY", "TX"

## When asked about

When asked about **employee status**, use the `EmployeeStatusFact` table.  
Join it to `EmployeeDim` on `EmployeeID`.  
Filter by the most recent `StatusEffectiveDate` and return the following columns: `EmploymentStatus`, `StatusEffectiveDate`, `EmployeeName`, and `DepartmentName`.

When asked about **current job title or department**, use the `EmployeeDim` table.  
Return `JobTitle` and `DepartmentName`.  
If multiple records exist, filter for the record where `IsCurrent = True`.

10. Uso de consultas de ejemplo para expresar lógica de consulta compleja

Use consultas de ejemplo para ayudar al agente de datos a comprender cómo construir consultas precisas, especialmente cuando la lógica es compleja o matizada. Estos ejemplos actúan como plantillas de las que el agente puede generalizar, incluso si la pregunta del usuario no es una coincidencia exacta.

  • Incluya consultas de ejemplo para tipos de preguntas comunes o representativos.
  • Céntrese en ejemplos en los que la lógica de consulta implica el filtrado, las combinaciones, las agregaciones o el control de fechas.
  • Mantenga la estructura clara y con el formato correcto, utilizando la sintaxis correcta para el origen de datos (SQL, DAX o KQL).
  • No es necesario que coincida con las preguntas del usuario textualmente; Los ejemplos deben demostrar la intención y la estructura.

Sugerencia

Proporcionar una consulta bien formada suele ser más clara y eficaz que intentar explicar la lógica compleja solo mediante texto.

Cómo se usan las consultas de ejemplo

Para cada pregunta de usuario, el agente de datos realiza una búsqueda de similitud vectorial para recuperar las tres consultas de ejemplo más relevantes principales. A continuación, se pasan al indicador aumentado del agente para orientar la generación de consultas.

Pasos siguientes