Tablas de clasificación de modelos en el portal de Microsoft Foundry (versión preliminar)

Importante

Los elementos marcados (versión preliminar) en este artículo se encuentran actualmente en versión preliminar pública. Esta versión preliminar se ofrece sin acuerdo de nivel de servicio y no se recomienda para las cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas. Para obtener más información, vea Supplemental Terms of Use for Microsoft Azure Previews.

Las tablas de clasificación de modelos (versión preliminar) en el portal de Foundry le ayudan a comparar modelos en el catálogo de modelos foundry mediante pruebas comparativas de modelos estándar del sector.

Para comenzar, compara y selecciona modelos mediante la tabla de clasificación de modelos en el portal de Foundry.

Puede revisar la metodología de pruebas comparativas detallada para cada categoría de tabla de clasificación:

Pruebas comparativas de calidad de los modelos de lenguaje para comprender el rendimiento de los modelos en tareas básicas, como el razonamiento, el conocimiento, la respuesta a preguntas, las matemáticas y la codificación.
Pruebas comparativas de seguridad de los modelos de lenguaje para comprender cómo los modelos seguros están en contra de la generación de comportamientos perjudiciales.
Pruebas comparativas de rendimiento de los modelos de lenguaje para comprender cómo funcionan los modelos en términos de latencia y rendimiento.
Pruebas comparativas de costos de modelos de lenguaje para comprender el costo estimado del uso de modelos.
Pruebas comparativas de tablas de clasificación de escenarios de modelos de lenguaje que le ayudarán a encontrar el mejor modelo para su caso de uso específico o escenario.
Pruebas comparativas de calidad de los modelos de inserción para comprender el rendimiento de los modelos en las tareas basadas en la inserción, incluida la búsqueda y recuperación.

Cuando encuentre un modelo adecuado, puede abrir sus resultados de pruebas comparativas detalladas en el catálogo de modelos. Desde allí, puede implementar el modelo, probarlo en el área de juegos o evaluarlo en sus propios datos. Las tablas de clasificación admiten pruebas comparativas para modelos de lenguaje de texto (incluidos modelos de lenguaje grande (LLM) y modelos de lenguaje pequeño (SLAM) e incrustación de modelos.

Las pruebas comparativas de modelos evalúan los LLM y SLM en cuanto a calidad, seguridad, costo y rendimiento. Los modelos de inserción se evalúan mediante pruebas comparativas de calidad estándar. Las tablas de clasificación se actualizan a medida que los nuevos modelos y los conjuntos de datos de pruebas comparativas están disponibles.

Ámbito de pruebas comparativas de modelos

Las tablas de clasificación de modelos presentan una selección seleccionada de modelos de lenguaje basados en texto del catálogo de modelos foundry. Los modelos se incluyen en función de los criterios siguientes:

Modelos Directos de Azure priorizados: Se seleccionan Modelos Directos de Azure para su relevancia en escenarios comunes de Inteligencia Artificial Generativa.
Aplicabilidad de pruebas comparativas principales: los modelos deben admitir tareas de lenguaje de uso general, como el razonamiento, el conocimiento, la respuesta a preguntas, el razonamiento matemático y la codificación. No se admiten modelos especializados (por ejemplo, plegado de proteínas o aseguramiento de calidad específico del dominio) ni otras modalidades.

Este ámbito garantiza que las tablas de clasificación reflejen los modelos actuales y de alta calidad relevantes para los escenarios principales de inteligencia artificial.

Interpretación de los resultados de la tabla de clasificación

Las tablas de clasificación le ayudan a comparar modelos en varias dimensiones para que pueda elegir el modelo adecuado para su caso de uso. Estas son algunas directrices para interpretar los resultados:

Índice de calidad: un índice de mayor calidad indica un rendimiento general más sólido en el razonamiento, codificación, matemáticas y tareas de conocimiento. Compare el índice de calidad entre modelos para identificar los mejores intérpretes para tareas de lenguaje de uso general.
Puntuaciones de seguridad: las tasas de éxito de ataque más bajas indican modelos más sólidos. Considere las puntuaciones de seguridad junto con las puntuaciones de calidad, especialmente para las aplicaciones orientadas al cliente en las que la salida perjudicial es una preocupación importante.
Ventajas del rendimiento: use las métricas de latencia y rendimiento para comprender la capacidad de respuesta del mundo real de un modelo. Un modelo con alta calidad pero latencia alta podría no adaptarse a las aplicaciones en tiempo real.
Consideraciones sobre los costos: la métrica de costo estimado usa una relación de token de entrada a salida de tres a uno. Ajuste las expectativas en función de la relación de entrada y salida de la carga de trabajo real.
Tablas de clasificación de escenarios: si el caso de uso se asigna a un escenario específico (por ejemplo, codificación o matemáticas), comience con la tabla de clasificación del escenario para buscar modelos optimizados para esa tarea en lugar de confiar únicamente en el índice de calidad general.

Sugerencia

Las pruebas comparativas de tabla de clasificación proporcionan comparaciones estandarizadas entre modelos mediante conjuntos de datos públicos. Para evaluar el rendimiento del modelo en los datos específicos y el caso de uso, consulte Evaluación de las aplicaciones de IA generativas.

Pruebas comparativas de calidad de los modelos de lenguaje

Foundry evalúa la calidad de los LLM y SLM mediante puntuaciones de precisión de los conjuntos de datos de pruebas comparativas estándar que miden el razonamiento, el conocimiento, la respuesta a preguntas, las matemáticas y las funcionalidades de codificación.

Index	Description
Índice de calidad	Se calcula mediante el promedio de puntuaciones de precisión aplicables (`exact_match`, `pass@1`, `arena_hard`) entre conjuntos de datos de pruebas comparativas.

Los valores de índice de calidad oscilan entre cero y uno, donde los valores más altos indican un mejor rendimiento. Los conjuntos de datos incluidos en el índice de calidad son:

Nombre del conjunto de datos	Categoría
bigbench_hard (reducido a 1,000 ejemplos)	Razonamiento
chembench	Química
frontierscience	Razonamiento científico
gpqa	Aseguramiento de Calidad
mbppplus	Coding
mmlu_pro (reducido a 1.000 ejemplos)	Conocimientos generales
musr	Razonamiento
tau2_telecom	Selección de agentes y llamadas a herramientas

Consulte más detalles en las puntuaciones de precisión:

Métrica Description

Precisión Las puntuaciones de precisión están disponibles a nivel de conjunto de datos y modelo. A nivel de conjunto de datos, la puntuación es el valor medio de una métrica de precisión calculada sobre todos los ejemplos del conjunto de datos. La métrica de precisión utilizada es exact_match en todos los casos, excepto los conjuntos de datos HumanEval y MBPP que usan una pass@1 métrica. La coincidencia exacta compara el texto generado por el modelo con la respuesta correcta según el conjunto de datos, notificando 1 si el texto generado coincide exactamente con la respuesta y 0 en caso contrario. La métrica pass@1 mide la proporción de soluciones de modelo que pasan un conjunto de pruebas unitarias en una tarea de generación de código. A nivel de modelo, la puntuación de precisión es la media de las precisiones de nivel de conjunto de datos para cada modelo.

Métrica	Description
Precisión	Las puntuaciones de precisión están disponibles a nivel de conjunto de datos y modelo. A nivel de conjunto de datos, la puntuación es el valor medio de una métrica de precisión calculada sobre todos los ejemplos del conjunto de datos. La métrica de precisión utilizada es `exact_match` en todos los casos, excepto los conjuntos de datos HumanEval y MBPP que usan una `pass@1` métrica. La coincidencia exacta compara el texto generado por el modelo con la respuesta correcta según el conjunto de datos, notificando 1 si el texto generado coincide exactamente con la respuesta y 0 en caso contrario. La métrica `pass@1` mide la proporción de soluciones de modelo que pasan un conjunto de pruebas unitarias en una tarea de generación de código. A nivel de modelo, la puntuación de precisión es la media de las precisiones de nivel de conjunto de datos para cada modelo.

Las puntuaciones de precisión oscilan entre cero y uno, donde los valores más altos son mejores.

Pruebas comparativas de seguridad de modelos de lenguaje

Las pruebas comparativas de seguridad se seleccionan a través de un proceso estructurado de filtrado y validación diseñado para garantizar la relevancia y el rigor. Un estándar de referencia puede ser elegible para la implementación si aborda los riesgos de alta prioridad. Las tablas de clasificación de seguridad incluyen pruebas comparativas que son lo suficientemente confiables como para proporcionar señales significativas sobre temas de interés en relación con la seguridad. Las tablas de clasificación usan HarmBench para la seguridad del modelo de proxy y las tablas de clasificación del escenario se organizan de la siguiente manera:

Nombre del conjunto de datos	Escenario de tabla de clasificación	Métrica	Interpretación
HarmBench (estándar)	Comportamientos dañinos estándar	Tasa de éxito de ataques	Los valores más bajos significan una mejor solidez frente a ataques diseñados para obtener contenido dañino estándar
HarmBench (contextual)	Comportamientos contextualmente dañinos	Tasa de éxito de ataques	Los valores más bajos significan una mejor robustez frente a ataques diseñados para provocar contenido contextualmente dañino
HarmBench (infracciones de derechos de autor)	Infracciones de derechos de autor	Tasa de éxito de ataques	Los valores más bajos indican una solidez más fuerte contra las infracciones de derechos de autor
WMDP	Conocimientos sobre dominios confidenciales	Precisión	Los valores más altos indican un mayor conocimiento en dominios confidenciales
Toxigen	Detección de contenido tóxico	Puntuación F1	Los valores más altos indican un mejor rendimiento de detección

Detección de comportamientos dañinos

La prueba comparativa HarmBench mide comportamientos perjudiciales mediante avisos diseñados para evitar respuestas no seguras. Abarca siete categorías semánticas:

Ciberdelincuencia y intrusiones no autorizadas
Armas químicas y biológicas o drogas
Infracciones de derechos de autor
Información incorrecta y desinformación
Acoso
Actividades ilegales
Daño general

Estas categorías se agrupan en tres áreas funcionales:

Comportamientos dañinos estándar
Comportamientos contextualmente dañinos
Infracciones de derechos de autor

Cada categoría funcional se incluye en una tabla de clasificación de escenarios independiente. La evaluación usa indicaciones directas de HarmBench (sin ataques) y evaluadores de HarmBench para calcular la tasa de éxito de ataques (ASR). Los valores de ASR inferiores significan modelos más seguros. No se usan estrategias de ataque para la evaluación y la prueba comparativa de modelos se realiza con Foundry Guardrails (filtros de contenido previamente) desactivados.

Detección de contenido tóxico

Toxigen es un conjunto de datos a gran escala para detectar discurso de odio adversario e implícito. Incluye frases implícitamente tóxicos e benignas que hacen referencia a 13 grupos minoritarios. Foundry usa muestras anotadas de Toxigen y calcula puntuaciones F1 para medir el rendimiento de la clasificación. Las puntuaciones más altas indican una mejor detección de contenido tóxico. La prueba comparativa se realiza con los Foundry Guardrails, anteriormente denominados filtros de contenido, desactivados.

Conocimientos confidenciales de un área especializada

El Weapons of Mass Destruction Proxy (WMDP) mide el conocimiento del modelo en dominios confidenciales, como la bioseguridad, la ciberseguridad y la seguridad química. La tabla de clasificación usa puntuaciones medias de precisión en la ciberseguridad, la bioseguridad y la seguridad química. Una puntuación de precisión de WMDP más alta denota más conocimiento de las capacidades peligrosas (comportamiento peor desde el punto de vista de la seguridad). La evaluación comparativa de modelos se realiza con las directrices predeterminadas de Foundry Guardrails (anteriormente filtros de contenido) activadas. Estos límites de protección detectan y bloquean los daños en el contenido en la violencia, las autolesiones, lo sexual, el odio y la injusticia, pero no se dirigen a categorías de ciberseguridad, bioseguridad y seguridad química.

Limitaciones de las pruebas comparativas de seguridad

La seguridad es un tema complejo con varias dimensiones. Ningún banco de pruebas de código abierto único puede probar o representar la seguridad completa de un sistema en todos los escenarios. Además, muchas pruebas comparativas sufren de saturación o desalineación entre el diseño de pruebas comparativas y la definición de riesgo. Algunos puntos de referencia también carecen de documentación clara sobre cómo se conceptualizan y operacionalizan los objetivos, lo que dificulta la evaluación de si los resultados capturan con precisión los matices de los riesgos reales. Estas limitaciones pueden dar lugar a sobrestimar o infravalorar el rendimiento del modelo en escenarios de seguridad reales.

Pruebas comparativas de rendimiento de modelos de lenguaje

Las métricas de rendimiento se agregan durante 14 días con 24 pruebas al día, con dos solicitudes por prueba enviadas a intervalos de una hora. A menos que se indique lo contrario, los siguientes parámetros predeterminados se aplican tanto a las implementaciones de API sin servidor como a Azure OpenAI:

Parámetro	Importancia	Aplicable a
Región	Este de EE. UU./ Este de EE. UU. 2	implementaciones de API sin servidor y Azure OpenAI
Límite de velocidad de tokens por minuto (TPM)	30k (180 RPM basadas en Azure OpenAI) para modelos sin razonamiento y 100k para modelos de razonamiento N/A (implementaciones de API sin servidor)	Para los modelos de Azure OpenAI, la selección está disponible para los usuarios con intervalos de limitación de tasas basados en el tipo de implementación (API sin servidor, global, estándar global, etc.) En el caso de las implementaciones de API sin servidor, esta configuración se abstrae.
Número de solicitudes	Dos solicitudes en una prueba por cada hora (24 pruebas al día)	implementaciones de API sin servidor, Azure OpenAI
Número de ensayos/ejecuciones	14 días con 24 pruebas al día para 336 ejecuciones	implementaciones de API sin servidor, Azure OpenAI
Longitud del mensaje o contexto	Longitud moderada	implementaciones de API sin servidor, Azure OpenAI
Número de tokens procesados (moderado)	Proporción de 80:20 para los tokens de entrada y salida, es decir, 800 tokens de entrada a 200 tokens de salida.	implementaciones de API sin servidor, Azure OpenAI
Número de solicitudes simultáneas	Una (las solicitudes se envían secuencialmente una después de otra)	implementaciones de API sin servidor, Azure OpenAI
Data	Sintético (mensajes de entrada preparados a partir de texto estático)	implementaciones de API sin servidor, Azure OpenAI
Tipo de implementación	API sin servidor	Solo se aplica a Azure OpenAI
Transmisión en línea	Cierto	Se aplica a las implementaciones de API sin servidor y Azure OpenAI. En el caso de los modelos implementados a través de computación gestionada, o para los puntos de conexión cuando no se admite el streaming, TTFT se representa como la métrica de latencia P50.
SKU	Standard_NC24ads_A100_v4 (24 núcleos, 220 GB de RAM, 64 GB storage)	Solo se aplica a Proceso administrado (para calcular los costos y las métricas de rendimiento)

El rendimiento de los LLM y SLM se evalúa en las métricas siguientes:

Métrica	Description
Media de latencia	Promedio de tiempo en segundos para procesar una solicitud, calculada en varias solicitudes. Se envía una solicitud al punto de conexión cada hora durante dos semanas y se calcula el promedio.
Latencia P50	Latencia mediana (percentil 50). 50% de solicitudes completadas en este momento.
Latencia P90	Latencia del percentil 90. 90% de solicitudes completadas en este momento.
Latencia P95	Latencia del percentil 95. 95% de solicitudes completadas en este momento.
Latencia P99	Latencia del percentil 99. 99% de solicitudes completadas en este momento.
Rendimiento de GTPS	Los tokens generados por segundo (GTPS) son el número de tokens de salida que se generan por segundo desde el momento en que la solicitud se envía al punto de conexión.
Rendimiento de TTPS	El número total de tokens por segundo (TTPS) es el número de tokens totales procesados por segundo, incluidos los tokens de entrada y los tokens de salida generados. Para los modelos que no admiten streaming, el tiempo para el primer token (ttft) representa el valor P50 de latencia (tiempo necesario para recibir la respuesta).
Latencia de TTFT	El tiempo total del primer token (TTFT) es el tiempo necesario para que el primer token de la respuesta se devuelva desde el punto de conexión cuando el streaming esté habilitado.
Tiempo entre tokens	Esta métrica es el tiempo entre los tokens recibidos.

Foundry resume el rendimiento mediante:

Métrica	Description
Latencia	Tiempo promedio hasta el primer token. Un valor bajo es mejor.
Capacidad de procesamiento	Promedio de tokens generados por segundo. Más alto es mejor.

En el caso de las métricas de rendimiento, como la latencia o el rendimiento, el tiempo para el primer token y los tokens generados por segundo proporcionan un mejor sentido general del rendimiento y el comportamiento típicos del modelo. Los números de rendimiento se actualizan periódicamente para reflejar las configuraciones de implementación más recientes.

Pruebas comparativas de costos de modelos de lenguaje

Las pruebas comparativas de costos miden el costo real para ejecutar cada modelo en los conjuntos de datos de pruebas comparativas de calidad, en lugar de un costo estimado basado en los precios del token.

El costo de la prueba comparativa se calcula mediante:

Número real de tokens de entrada, razonamiento y salida consumidos durante la ejecución de pruebas comparativas.
Configuración del esfuerzo de razonamiento específico del modelo que se usa para la evaluación (normalmente high o xhigh).
Características y complejidad del conjunto de datos, que afectan al uso y el tiempo de ejecución del token.

A diferencia de las estimaciones basadas en una relación de tokens fija, este enfoque refleja el verdadero costo de un extremo a otro de ejecutar las cargas de trabajo de pruebas comparativas.

Interpretación de los resultados de costos

El costo se notifica en USD por ejecución de prueba comparativa en los conjuntos de datos de calidad estándar.
Los valores representan el costo de ejecución real y permiten la comparación directa entre los modelos.
Los valores más bajos indican un rendimiento más rentable en el conjunto de pruebas comparativas.

Pruebas comparativas de tablas de clasificación de escenarios

Las tablas de clasificación de escenarios agrupan conjuntos de datos de referencia según objetivos comunes de evaluación del mundo real. Puede identificar rápidamente los puntos fuertes y debilidades de un modelo por caso de uso. Cada escenario agrega uno o varios conjuntos de datos de pruebas comparativas públicas.

Use la tabla siguiente para buscar el caso de uso en la columna Escenario y, a continuación, revise los conjuntos de datos de pruebas comparativas asociados y lo que indican los resultados. En la tabla siguiente se resumen las tablas de clasificación del escenario disponibles y sus conjuntos de datos y descripciones asociados:

Escenario	Datasets	Description
Comportamiento perjudicial estándar	HarmBench (estándar)	Tasa de éxito de ataques en indicaciones dañinas estándar. Un valor bajo es mejor. Consulte Detección de comportamientos dañinos.
Comportamiento contextualmente dañino	HarmBench (contextual)	Tasa de éxito de ataques en indicaciones perjudiciales contextuales. Un valor bajo es mejor. Consulte Detección de comportamientos dañinos.
Infracciones de derechos de autor	HarmBench (copyright)	Tasa de éxito de ataque para incitaciones de violación de derechos de autor. Un valor bajo es mejor. Consulte Detección de comportamientos dañinos.
Conocimientos sobre dominios confidenciales	WMDP (bioseguridad, seguridad química, ciberseguridad)	Precisión en tres subconjuntos de dominio confidenciales. Una mayor precisión indica más conocimiento de las funcionalidades confidenciales. Consulte Información confidencial del dominio.
Detección de toxicidad	ToxiGen (anotado)	Puntuación F1 para la capacidad de detección de contenido tóxico. Más alto es mejor. Consulte Detección de contenido tóxico.
Razonamiento	BIG-Bench Hard (1000 submuestras)	Evaluación de capacidades de razonamiento. Los valores más altos son mejores.
Coding	BigCodeBench (instrucción), LiveBench (codificación), LiveCodeBench intermedio MBPPPlus	Mide la precisión en las tareas relacionadas con el código. Los valores más altos son mejores.
Conocimientos generales	MMLU-Pro (submuestra de 1K en inglés)	Submuestra de 1,000 ejemplos solo en inglés de MMLU-Pro.
Preguntas y respuestas	Arena-Hard, GPQA (diamante)	QA de preferencias humanas contradictorias (Arena-Hard) y QA multidisciplinarias de nivel de posgrado (diamante GPQA). Los valores más altos son mejores.
Matemáticas	MATH (submuestra 500)	Mide las capacidades de razonamiento matemático de los modelos de lenguaje. Los valores más altos son mejores.
Estabilidad	VerazQA (MC1)	Evaluación de la fundamentación y veracidad de modelos de lenguaje mediante elección múltiple. Los valores más altos son mejores.

Pruebas comparativas de calidad de los modelos de inserción

El índice de calidad de los modelos de inserción se define como las puntuaciones de precisión promedio de un conjunto completo de conjuntos de datos de pruebas comparativas de API sin servidor destinados a tareas de recuperación de información, agrupación en clústeres de documentos y resumen.

Métrica	Description
Precisión	La precisión es la proporción de predicciones correctas entre el número total de predicciones procesadas.
Puntuación F1	La puntuación F1 es la media ponderada de la precisión y la recuperación, donde el mejor valor es uno (precisión y recuperación perfectas) y el peor es cero.
Precisión media (MAP)	MAP evalúa la calidad de la clasificación y los sistemas de recomendación. Mide tanto la relevancia de los elementos sugeridos como la buena forma en que el sistema coloca elementos más relevantes en la parte superior. Los valores pueden oscilar entre cero y uno, y cuanto más alto sea MAP, mejor puede el sistema colocar los elementos pertinentes en alto en la lista.
Ganancia acumulativa con descuento normalizado (NDCG)	NDCG evalúa la capacidad de un algoritmo de machine learning para ordenar los elementos en función de la relevancia. Compara las clasificaciones con un orden ideal en el que todos los elementos relevantes están en la parte superior de la lista, donde k es la longitud de la lista al evaluar la calidad de la clasificación. En estos puntos de referencia, k=10, indicado por una métrica de `ndcg_at_10`, lo que significa que se evalúan los 10 primeros elementos.
Precisión	La precisión mide la capacidad del modelo para identificar las instancias de una clase determinada correctamente. Precisión muestra la frecuencia con la que un modelo de machine learning es correcto al predecir la clase de destino.
Correlación de Spearman	La correlación de Spearman basada en la similitud de coseno se calcula determinando primero la similitud de coseno entre variables y, después, clasificando estas puntuaciones y usando las clasificaciones para calcular la correlación de Spearman.
Medida V	La medida V es una métrica que se usa para evaluar la calidad de la agrupación en clústeres. La medida V se calcula como una media armónica de homogeneidad e integridad, lo que garantiza un equilibrio entre los dos para una puntuación significativa. Las puntuaciones posibles se encuentran entre cero y uno, siendo uno un etiquetado perfectamente completo.

Cálculo de puntuaciones

Puntuaciones individuales

Los resultados de las pruebas comparativas se originan en conjuntos de datos públicos que se usan habitualmente para la evaluación del modelos de lenguaje. En la mayoría de los casos, los datos se hospedan en GitHub repositorios mantenidos por los creadores o conservadores de los datos. Las canalizaciones de evaluación de Foundry descargan datos de sus fuentes originales, extraen indicaciones de cada fila de ejemplo, generan respuestas del modelo y a continuación, calculan las métricas de precisión pertinentes.

La construcción del mensaje sigue el procedimiento recomendado para cada conjunto de datos, definido por el documento que presenta el conjunto de datos y el estándar del sector. En la mayoría de los casos, cada mensaje contiene varias capturas, es decir, varios ejemplos de preguntas completas y respuestas para dar el modelo a la tarea. El número de capturas varía según el conjunto de datos y sigue la metodología especificada en la publicación original de cada conjunto de datos. Las canalizaciones de evaluación crean intervalos mediante el muestreo de preguntas y respuestas de una parte de los datos que se excluyen de la evaluación.

Limitaciones de pruebas comparativas

Todas las pruebas comparativas tienen limitaciones inherentes que debe tener en cuenta al interpretar los resultados:

Pruebas comparativas de calidad: los conjuntos de datos de pruebas comparativas se pueden saturar a lo largo del tiempo a medida que los modelos se entrenan o se ajustan en datos similares. Los resultados de la evaluación también pueden variar en función de la elaboración de instrucciones y del número utilizado de ejemplos variados.
Pruebas comparativas de rendimiento: las métricas se recopilan mediante cargas de trabajo sintéticas con una relación fija de token de entrada a salida y implementaciones de una sola región. El rendimiento real puede diferir en función de los patrones de carga de trabajo, la simultaneidad, la región y la configuración de implementación.
Pruebas comparativas de costos: las estimaciones de costos se basan en una relación de tokens de entrada a salida de tres a uno y los precios actuales en el momento de la medición. Los costos reales dependen de la carga de trabajo y están sujetos a cambios de precios.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-03-19