Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En este artículo se proporcionan instrucciones para administrar las cargas de trabajo de inteligencia artificial a lo largo de su ciclo de vida. Las organizaciones logran un rendimiento coherente de la inteligencia artificial cuando establecen procesos operativos estructurados, implementan una gobernanza de implementación adecuada y mantienen prácticas de supervisión completas.
Administración de operaciones de IA
Los marcos operativos proporcionan estructura para administrar proyectos complejos de inteligencia artificial. Estos marcos garantizan la coherencia entre los equipos de desarrollo y reducen los errores que ralentizan los ciclos de entrega. Debe establecer procesos operativos claros para lograr una administración confiable de cargas de trabajo de IA. A continuación se muestra cómo hacerlo:
Establezca un centro de excelencia de inteligencia artificial para obtener orientación estratégica. Un centro de excelencia de inteligencia artificial proporciona instrucciones técnicas y de supervisión estratégica para las implementaciones de inteligencia artificial en toda la organización. Este grupo garantiza que los enfoques de inteligencia artificial se alineen con los objetivos empresariales y los requisitos técnicos. Use el centro de excelencia de inteligencia artificial para evaluar qué enfoque de administración se ajusta a las necesidades de su organización y crear estándares de implementación que admitan la gobernanza y la innovación.
Seleccione el marco operativo adecuado para el tipo de carga de trabajo. Las diferentes cargas de trabajo de IA requieren enfoques operativos diferentes que afectan a los procesos de equipo y a las decisiones sobre herramientas. Esta elección determina la integración de la arquitectura tecnológica y la metodología de desarrollo. Use marcos de MLOps para flujos de trabajo de aprendizaje automático tradicionales y GenAIOps para cargas de trabajo de IA generativas.
Estandarizar las herramientas de desarrollo en todos los equipos. Las herramientas coherentes eliminan los problemas de compatibilidad entre entornos de equipo y reducen las curvas de aprendizaje para los desarrolladores. Este enfoque evita problemas de integración y acelera los ciclos de desarrollo. Defina y estandarice el uso de SDK y API para garantizar la coherencia entre los equipos de desarrollo. Para obtener más información, consulte Elija el SDK adecuado para respaldar su caso de uso.
Cree entornos sandbox dedicados para la experimentación. Los entornos de espacio aislado permiten pruebas seguras sin afectar a los sistemas de producción y proporcionan libertad a los equipos para probar nuevos enfoques. Estos entornos impiden que el código experimental afecte a cargas de trabajo estables. Utilice un entorno aislado que sea distinto de los entornos de desarrollo, prueba y producción en el ciclo de vida de desarrollo de AI. Mantenga la coherencia entre los entornos de desarrollo, pruebas y producción para evitar que se rompan los cambios durante la promoción entre entornos.
Simplifique las operaciones siempre que sea posible. Las nuevas funcionalidades facilitan la personalización e implementación de agentes y modelos optimizados sin experiencia especializada. El ajuste fino tradicional requiere que los científicos de datos expertos curen conjuntos de datos y construyan flujos de trabajo específicos de tareas, lo que crea complejidad operativa. Use Optimización de Copilot (versión preliminar) en Microsoft 365 para ajustar modelos para tareas internas sin necesidad de conocimientos especializados.
Administrar la implementación de la IA
La administración de implementación de IA define quién puede implementar recursos de inteligencia artificial y rige estos puntos de conexión. Un enfoque estructurado garantiza que las organizaciones equilibran la velocidad de desarrollo con los requisitos de gobernanza. Debe establecer una autoridad de implementación clara para lograr una administración coherente de los recursos de inteligencia artificial. A continuación se muestra cómo hacerlo:
Conceda a los equipos de carga de trabajo la autoridad de implementación dentro de los límites de gobernanza definidos. Los equipos de carga de trabajo aceleran el desarrollo cuando controlan la implementación de recursos de IA sin esperar a procesos de aprobación central. Esta autonomía reduce los cuellos de botella y permite una respuesta rápida a los requisitos empresariales al tiempo que mantiene los estándares de la organización. Use Azure Policy para aplicar la gobernanza de forma coherente en entornos de carga de trabajo y crear directivas de inteligencia artificial que aborden las brechas de gobernanza. Para Microsoft Foundry, implemente una instancia por unidad de negocio y use proyectos foundry para cada caso de uso dentro de la unidad de negocio en lugar de crear un recurso compartido centralizado entre unidades de negocio.
Defina directivas claras de implementación de IA para ambos enfoques de administración. Las directivas de inteligencia artificial proporcionan barreras de protección que impiden el desfase de configuración y las brechas de seguridad al tiempo que garantizan el cumplimiento de los estándares de la organización. Estas directivas reducen el riesgo de uso de recursos de IA no autorizados. Cree directivas de inteligencia artificial para aplicar la configuración del filtro de contenido y evitar el uso de modelos no permitidos y, a continuación, comunique estas directivas claramente a todos los equipos. Realice auditorías periódicas para garantizar el cumplimiento.
Cree canalizaciones de integración y entrega continuas para la implementación. Las canalizaciones automatizadas reducen los errores manuales y garantizan implementaciones coherentes entre entornos, a la vez que proporcionan procesos repetibles que detectan problemas al principio. Estas canalizaciones mantienen estándares de calidad a lo largo del desarrollo. Cree canalizaciones de datos que cubran las comprobaciones de calidad del código, las pruebas unitarias y las pruebas de integración y los flujos de experimentación. Incluya pasos de implementación de producción con procesos de aprobación manual para promover las versiones. Mantenga la separación entre modelos e interfaces de cliente para garantizar actualizaciones de componentes independientes.
Administración de modelos de IA
La administración de modelos de IA implica estructuras de gobernanza, supervisión continua y mantenimiento del rendimiento a lo largo del tiempo. Este proceso ayuda a las organizaciones a alinear modelos con estándares éticos, realizar un seguimiento del rendimiento del modelo y garantizar que los sistemas de inteligencia artificial sigan siendo eficaces y alineados con los objetivos empresariales. Debe establecer procesos completos de administración de modelos para lograr un rendimiento confiable de la inteligencia artificial. A continuación se muestra cómo hacerlo:
Defina una línea base de medición de IA para el seguimiento del rendimiento. Las líneas base de medición garantizan que los modelos de inteligencia artificial se alineen con los objetivos empresariales y los estándares éticos. Estas líneas base proporcionan criterios objetivos para evaluar el rendimiento del modelo y el cumplimiento de inteligencia artificial responsable en toda la organización. Establezca KPI relacionados con principios de inteligencia artificial responsables, como equidad, transparencia y precisión, y, a continuación, asigne estos KPI a cargas de trabajo de INTELIGENCIA ARTIFICIAL específicas.
Identifique las causas principales de los problemas de rendimiento rápidamente. La visibilidad de cada fase de las interacciones de inteligencia artificial ayuda a aislar problemas e implementar acciones correctivas de forma eficaz, lo que evita errores en cascada entre sistemas. Por ejemplo, determina si los errores del chatbot se originan a partir de la elaboración del mensaje o la comprensión del contexto del modelo. Use herramientas integradas como Azure Monitor y Application Insights para identificar los cuellos de botella de rendimiento y las anomalías de forma proactiva.
Vuelva a entrenar los modelos de IA en función de los criterios de rendimiento. Los modelos se degradan con el tiempo debido a cambios de datos y requieren un nuevo entrenamiento para mantener la relevancia. El reentrenamiento normal garantiza que los sistemas de inteligencia artificial se mantengan al día con las necesidades empresariales y los patrones de datos. Programe el reentrenamiento en función de las métricas de rendimiento del modelo o los requisitos empresariales para mantener relevantes los sistemas de inteligencia artificial. Evalúe los costos de entrenamiento iniciales para evaluar la frecuencia de reentrenamiento óptima, ya que el reentrenamiento puede ser costoso. Mantenga el control de versiones para los modelos y asegure la existencia de mecanismos de restauración para las versiones de bajo rendimiento.
Establezca procesos de promoción de modelos con puertas de calidad. Las puertas de calidad garantizan que solo los modelos validados lleguen a entornos de producción. Estos procesos impiden que los modelos de bajo rendimiento afecten a las operaciones empresariales y mantengan estándares de calidad coherentes. Use criterios de rendimiento para promover modelos entrenados, ajustados y reentrenados a entornos superiores. Defina criterios de rendimiento únicos para cada aplicación y establezca flujos de trabajo de promoción claros que incluyan pasos de prueba y validación.
Realice un seguimiento de las programaciones de retirada del modelo para evitar interrupciones del servicio. El seguimiento de retirada de modelos evita problemas de rendimiento cuando finaliza el soporte técnico del proveedor. Las organizaciones que pierden fechas de retirada se enfrentan a problemas inesperados de degradación del servicio o compatibilidad. Supervise las fechas de retirada de los modelos entrenados previamente para mantener la funcionalidad cuando los proveedores desusan los servicios. Por ejemplo, actualice los modelos generativos de IA antes de su eliminación para mantener la funcionalidad del sistema. Use el portal de Foundry para ver las fechas de retirada del modelo para todas las implementaciones.
Administrar los costes de la IA
La administración de costos de IA garantiza que las organizaciones controle los gastos al tiempo que mantienen el rendimiento en el uso de proceso, almacenamiento y token. Las organizaciones necesitan estrategias estructuradas de supervisión y optimización de costos para evitar saturaciones presupuestarias y maximizar la eficiencia de los recursos. Debe establecer procesos completos de administración de costos para lograr gastos predecibles de inteligencia artificial. A continuación se muestra cómo hacerlo:
Implemente los procedimientos recomendados de administración de costos para cada herramienta Foundry. Las distintas herramientas de Foundry tienen modelos de precios únicos y características de optimización que afectan al costo total de propiedad. Comprender las estructuras de costos específicas del servicio ayuda a las organizaciones a seleccionar las opciones más rentables para sus cargas de trabajo. Por ejemplo, siga las instrucciones de administración de costos de Foundry para optimizar los gastos de cada tipo de servicio.
Supervise los patrones de uso para maximizar la eficacia de la facturación. Comprender los puntos de interrupción de costos evita cargos innecesarios y ayuda a las organizaciones a optimizar la asignación de recursos. El seguimiento de patrones de uso revela oportunidades para ajustar modelos y arquitecturas para mejorar el rendimiento de los costos. Supervise los tokens por minuto (TPM) y las solicitudes por minuto (RPM) para comprender los patrones de uso y, a continuación, ajuste los modelos y la arquitectura en función de estos patrones. Use umbrales de precio fijo para servicios como la generación de imágenes o el ajuste por hora para evitar cargos inesperados. Considere los modelos de facturación basados en el compromiso para patrones de uso coherentes para reducir los costos generales.
Establecer alertas y supervisión automatizadas de costos. Las alertas automatizadas impiden las saturaciones presupuestarias mediante la notificación a los equipos de cargos inesperados antes de que afecten a los presupuestos del proyecto. Estas alertas permiten la administración proactiva de costos y ayudan a las organizaciones a mantener el control financiero sobre las iniciativas de inteligencia artificial. Configure alertas de presupuesto en Azure Cost Management para realizar un seguimiento del gasto frente a umbrales predefinidos y establecer estrategias de presupuesto que se alineen con los objetivos empresariales. Cree alertas en varios umbrales para proporcionar una advertencia temprana de los aumentos de costos.
Administrar datos de IA
La administración de datos de IA garantiza la precisión, la integridad y el cumplimiento a lo largo del ciclo de vida de la inteligencia artificial. Las organizaciones necesitan procesos estructurados de control de calidad y gobernanza de datos para mantener un rendimiento confiable de la inteligencia artificial. Debe establecer prácticas completas de administración de datos para lograr resultados de inteligencia artificial coherentes. A continuación se muestra cómo hacerlo:
Cree y mantenga conjuntos de datos dorados para una validación coherente. Los conjuntos de datos Golden proporcionan pruebas comparativas estandarizadas para probar modelos de inteligencia artificial en diferentes entornos y versiones. Estos conjuntos de datos autoritativos garantizan criterios de evaluación coherentes y ayudan a detectar la degradación del rendimiento a lo largo del tiempo. Desarrolle conjuntos de datos dorados que representen los patrones de datos de producción y usen estos conjuntos de datos para pruebas y validación periódicas en todas las cargas de trabajo de IA. Actualice los conjuntos de datos dorados con regularidad para reflejar los requisitos empresariales actuales y los patrones de datos.
Implemente canalizaciones de datos seguras con controles de integridad. La integridad de la canalización de datos evita daños y garantiza un rendimiento confiable del modelo de IA. Las canalizaciones seguras protegen la información confidencial y mantienen la calidad de los datos de la recopilación a través del preprocesamiento y el almacenamiento. Cree canalizaciones de datos personalizadas que incluyan comprobaciones de validación en cada fase e implemente controles de seguridad para proteger los datos en todo el proceso de canalización. Use pruebas automatizadas para comprobar la calidad y la coherencia de los datos antes de alimentar los datos en modelos de IA.
Supervise las clasificaciones de confidencialidad de los datos y responda a los cambios. Las clasificaciones de confidencialidad de datos cambian debido a los requisitos empresariales y las actualizaciones normativas. Las organizaciones deben realizar un seguimiento de estos cambios y actualizar los sistemas de inteligencia artificial en consecuencia para mantener el cumplimiento y la seguridad. Desarrolle procesos para identificar cuándo cambia la sensibilidad de los datos e implemente procedimientos para quitar o reemplazar datos confidenciales en sistemas de inteligencia artificial posteriores. Use Microsoft Defender for Cloud y Microsoft Purview para etiquetar y administrar datos confidenciales en toda la organización. Cuando se produzcan cambios de confidencialidad, identifique todos los modelos de inteligencia artificial que usan los datos afectados y vuelva a entrenar modelos con conjuntos de datos que excluyen la información confidencial reclasificada.
Administrar la continuidad del negocio de la IA
La administración de continuidad empresarial protege los sistemas de inteligencia artificial frente a interrupciones y garantiza una recuperación rápida cuando se producen incidentes. Las organizaciones necesitan estrategias de varias regiones y procedimientos de recuperación probados para mantener la disponibilidad del servicio ai. El planeamiento eficaz de la continuidad evita interrupciones extendidas que afectan a las operaciones empresariales. Debe establecer procesos de continuidad empresarial integrales para lograr una resistencia confiable del sistema de inteligencia artificial. A continuación se muestra cómo hacerlo:
Implemente la supervisión continua en todos los componentes de inteligencia artificial. Las cargas de trabajo de IA cambian con el tiempo debido a la evolución de los datos, las actualizaciones del modelo o los cambios en el comportamiento del usuario. La supervisión continua detecta estos cambios al principio y evita la degradación del rendimiento que afecta a los resultados empresariales. Supervise las implementaciones de inteligencia artificial, los modelos de IA y los datos de IA para asegurarse de que las cargas de trabajo permanecen alineadas con los KPI establecidos. Realice auditorías periódicas para evaluar los sistemas de inteligencia artificial frente a las métricas y los principios de inteligencia artificial responsables definidos.
Implemente sistemas de inteligencia artificial en varias regiones para lograr una alta disponibilidad. Las implementaciones de varias regiones impiden puntos únicos de error y garantizan que los servicios de inteligencia artificial sigan siendo accesibles durante las interrupciones regionales. Este enfoque proporciona redundancia geográfica que protege frente a errores de infraestructura y desastres naturales. Implemente sistemas de inteligencia artificial generativos y tradicionales en varias regiones de Azure e implemente la redundancia necesaria para los modelos entrenados y optimizados para evitar el reentrenamiento durante las interrupciones. Use Azure Front Door o Azure Traffic Manager para enrutar el tráfico entre regiones automáticamente.
Pruebe periódicamente los planes de recuperación ante desastres para validar la eficacia. Las pruebas periódicas identifican brechas en los procedimientos de recuperación y garantizan que los equipos puedan restaurar los sistemas de inteligencia artificial de forma eficaz durante incidentes reales. Estas pruebas validan que todos los componentes funcionan correctamente después de la recuperación y ayudan a las organizaciones a refinar sus procedimientos de respuesta. Realice pruebas trimestrales de planes de recuperación ante desastres que incluyan procesos de restauración de datos y procedimientos de validación para todos los componentes de inteligencia artificial. Documente los resultados de las pruebas y actualice los procedimientos de recuperación en función de las lecciones aprendidas de cada ciclo de prueba.
Implemente el control de versiones para todos los componentes del sistema de IA. Los sistemas de control de versiones realizan un seguimiento de los cambios y habilitan la restauración rápida de configuraciones anteriores durante escenarios de recuperación. Este enfoque proporciona seguimientos de auditoría para modificaciones y garantiza que los equipos puedan identificar y revertir los cambios problemáticos de forma eficaz. Use Git para administrar los cambios en los modelos, las canalizaciones de datos y las configuraciones del sistema en todas las cargas de trabajo de IA. Implemente la auditoría automatizada que realiza un seguimiento de los cambios del modelo y del sistema para que los equipos puedan identificar y revertir rápidamente modificaciones no planeadas que afecten al rendimiento.
Cree estrategias de copia de seguridad automatizadas para los recursos de inteligencia artificial. Las copias de seguridad automatizadas garantizan que los componentes críticos de inteligencia artificial permanezcan protegidos sin intervención manual. Estas estrategias impiden la pérdida de datos y reducen el tiempo de recuperación cuando los sistemas necesitan la restauración después de incidentes. Establezca programaciones automatizadas de copia de seguridad para modelos entrenados, conjuntos de datos y archivos de configuración mediante Azure Backup o Azure Storage con opciones con redundancia geográfica. Almacene copias de seguridad en regiones independientes de las implementaciones principales para garantizar la disponibilidad durante las interrupciones regionales.
Documente los procedimientos de recuperación con responsabilidades claras. La documentación clara garantiza que los equipos puedan ejecutar procedimientos de recuperación de forma coherente durante situaciones de alto estrés. Los procedimientos documentados reducen el tiempo de recuperación y evitan errores que se producen cuando los equipos operan sin directrices establecidas. Cree runbooks que definan procedimientos de recuperación paso a paso para distintos escenarios de error y asignen roles y responsabilidades específicos a los miembros del equipo para cada tarea de recuperación. Actualice la documentación periódicamente para reflejar los cambios en los procesos de recuperación y arquitectura de inteligencia artificial.