Compartir a través de


Parámetros de algoritmo (complementos de minería de datos de SQL Server)

Al realizar la minería de datos mediante Table Analysis Tools para Excel, no es necesario configurar el algoritmo o parámetros de minería de datos; cada herramienta analiza los datos y selecciona automáticamente los parámetros óptimos. Sin embargo, si desea modificar el modelo o crear un modelo de minería de datos desde cero, el cliente de minería de datos para Excel ofrece varias opciones para la personalización.

  • Cree manualmente un modelo de minería de datos; para ello, haga clic en Avanzado y, a continuación, haga clic en Agregar modelo a estructura.

  • Use cualquiera de los asistentes de modelado en el cliente de minería de datos y haga clic en Parámetros para controlar el comportamiento de los algoritmos de minería de datos de Microsoft.

  • Haga clic en Consulta para abrir el Asistente para modelos de consulta y, a continuación, haga clic en Opciones avanzadas para abrir el Editor de consultas avanzadas de minería de datos. En este editor, puede compilar modelos mediante plantillas DMX.

También puede modificar el comportamiento de los modelos de minería de datos que ya se han creado o puede filtrar los resultados estableciendo parámetros en el visor de modelos de minería de datos.

Lista de parámetros de algoritmo

Todos los algoritmos de Microsoft se pueden personalizar estableciendo parámetros. Dado que la mejor configuración de parámetros depende de la composición de los datos, una explicación completa de los efectos de cambiar los parámetros está fuera del ámbito de este tema.

En la tabla siguiente se enumeran los parámetros, se describe su funcionalidad y se proporcionan vínculos a información más técnica.

Nombre del parámetro Se usa en Descripción
AUTO_DETECTAR_PERIODICIDAD Algoritmo de serie temporal de Microsoft Especifica un valor numérico entre 0 y 1 que se usa para detectar la periodicidad. Establecer este valor más cerca de 1 favorece la detección de muchos patrones casi periódicos y la generación automática de sugerencias de periodicidad. Abordar muchas sugerencias de periodicidad probablemente resultará en tiempos de entrenamiento de modelos significativamente más largos y modelos más precisos. Si el valor está más cerca de 0, la periodicidad solo se detecta para datos fuertemente periódicos.

El valor predeterminado es 0.6.
Recuento_de_Clústeres Algoritmo de agrupación en clústeres de Microsoft

Algoritmo de agrupación en clústeres de secuencia de Microsoft
Especifica el número aproximado de clústeres que va a compilar el algoritmo. Si el número aproximado de clústeres no se puede compilar a partir de los datos, el algoritmo compila tantos clústeres como sea posible. Establecer el CLUSTER_COUNT en 0 hace que el algoritmo use heurística para determinar mejor el número de clústeres que se van a compilar.

El valor predeterminado es 10.
SEMILLA_DEL_CLUSTER Algoritmo de agrupación en clústeres de Microsoft Especifica el número de semilla que se usa para generar clústeres aleatoriamente en la fase inicial de la construcción del modelo.

El valor predeterminado es 0.
Método de agrupamiento Algoritmo de agrupación en clústeres de Microsoft Especifica el método de agrupación en clústeres que se va a usar para el algoritmo. Los siguientes métodos de agrupación en clústeres están disponibles: EM escalable (1), EM no escalable (2), K-Means escalable (3) y K-Means no escalable (4).

El valor predeterminado es 1.
PENALIZACIÓN_COMPLEJIDAD Algoritmo de árboles de decisión de Microsoft

Algoritmo de serie temporal de Microsoft
Controla el crecimiento del árbol de decisión. Un valor bajo aumenta el número de divisiones y un valor alto disminuye el número de divisiones. El valor predeterminado se basa en el número de atributos de un modelo determinado, como se describe en la lista siguiente:

Para los atributos de 1 a 9, el valor predeterminado es 0,5.

Para los atributos de 10 a 99, el valor predeterminado es 0,9.

Para 100 o más atributos, el valor predeterminado es 0,99.

Nota: En los modelos de serie temporal, este parámetro solo se aplica a los modelos creados mediante el algoritmo ARTxp o a los modelos mixtos.
FORCED_REGRESSOR Algoritmo de árboles de decisión de Microsoft

Algoritmo de regresión lineal de Microsoft
Obliga al algoritmo a usar las columnas indicadas como regresores, independientemente de la importancia de las columnas calculadas por el algoritmo.

Nota: Este parámetro solo se usa para árboles de decisión que predicen un atributo continuo. Por definición, un modelo de regresión lineal es un caso especial de árboles de decisión que predicen atributos continuos. Sin embargo, cualquier modelo de árbol de decisión puede contener un nodo que represente una fórmula de regresión lineal.
MÉTODO_DE_PRONÓSTICO Algoritmo de serie temporal de Microsoft Indica si se deben realizar predicciones mediante el algoritmo ARTxp, el algoritmo ARIMA o una combinación de ambos.

El valor predeterminado es MIXED.
HIDDEN_NODE_RATIO Algoritmo de red neuronal de Microsoft Especifica la relación entre las neuronas ocultas y las neuronas de entrada y salida. La fórmula siguiente determina el número inicial de neuronas en la capa oculta:

HIDDEN_NODE_RATIO * SQRT(Neuronas de entrada totales * Neuronas de salida totales)

El valor predeterminado es 4.0.
CONTEO_MODELOS_HISTÓRICOS Algoritmo de serie temporal de Microsoft Especifica el número de modelos históricos que se construirán.

El valor predeterminado es 1.
BRECHA_DEL_MODELO_HISTÓRICO Algoritmo de serie temporal de Microsoft Especifica el retraso de tiempo entre dos modelos históricos consecutivos. Por ejemplo, establecer este valor en g hace que se construyan modelos históricos con datos truncados por fragmentos de tiempo a intervalos de g, 2*g, 3*g, etc.

El valor predeterminado es 10.
Porcentaje de reserva Algoritmo de regresión logística de Microsoft

Algoritmo de red neuronal de Microsoft
Especifica el porcentaje de casos dentro de los datos de entrenamiento utilizados para calcular el error de validación, que se usa como parte de los criterios de parada al entrenar el modelo de minería.

El valor predeterminado es 30.

Nota: Este parámetro es diferente del valor de porcentaje de espera que se aplica a una estructura de minería de datos.
HOLDOUT_SEED Algoritmo de regresión logística de Microsoft

Algoritmo de red neuronal de Microsoft
Especifica un número que se usa para inicializar el generador pseudoaleatorio cuando el algoritmo determina aleatoriamente los datos de espera. Si este parámetro se establece en 0, el algoritmo genera la inicialización basada en el nombre del modelo de minería de datos, para garantizar que el contenido del modelo siga siendo el mismo durante el reprocesamiento.

El valor predeterminado es 0.

Nota: Este parámetro es diferente del valor de semilla de reserva que se aplica a una estructura de minería.
INESTABILIDAD_SENSIBILIDAD Algoritmo de serie temporal de Microsoft Controla el punto en el que la varianza de predicción supera un umbral determinado y el algoritmo ARTxp suprime las predicciones. El valor predeterminado es 1.

Nota: Este parámetro solo se aplica a modelos o modelos mixtos que usan el algoritmo ARTxp.
ATRIBUTOS_DE_ENTRADA_MÁXIMOS Algoritmo de agrupación en clústeres de Microsoft

Algoritmo de árboles de decisión de Microsoft

Algoritmo de regresión lineal de Microsoft

Algoritmo Bayes ingenuo de Microsoft

Algoritmo de red neuronal de Microsoft

Algoritmo de regresión logística de Microsoft
Define el número de atributos de entrada que el algoritmo puede controlar antes de invocar la selección de características. Establezca este valor en 0 para desactivar la selección de características.

El valor predeterminado es 255.
MAXIMUM_ITEMSET_COUNT Algoritmo de asociación de Microsoft Especifica el número máximo de conjuntos de elementos que se van a generar. Si no se especifica ningún número, el algoritmo genera todos los conjuntos de elementos posibles.

El valor predeterminado es 200000.
TAMAÑO_MÁXIMO_DEL_CONJUNTO_DE_ELEMENTOS Algoritmo de asociación de Microsoft Especifica el número máximo de elementos permitidos en un conjunto de elementos. Si se establece este valor en 0, se especifica que no hay ningún límite para el tamaño del conjunto de elementos.

El valor predeterminado es 3.
ATRIBUTOS_DE_SALIDA_MÁXIMA Algoritmo de árboles de decisión de Microsoft

Algoritmo de regresión lineal de Microsoft

Algoritmo de regresión logística de Microsoft

Algoritmo Naïve Bayes de Microsoft

Algoritmo de red neuronal de Microsoft
Define el número de atributos de salida que el algoritmo puede controlar antes de invocar la selección de características. Establezca este valor en 0 para desactivar la selección de características.

El valor predeterminado es 255.
ESTADOS_SECUENCIA_MÁXIMA Algoritmo de agrupación en clústeres de secuencia de Microsoft Especifica el número máximo de estados que puede tener una secuencia. Establecer este valor en un número mayor que 100 puede hacer que el algoritmo cree un modelo que no proporcione información significativa.

El valor predeterminado es 64.
VALOR_MÁXIMO_SERIE Algoritmo de serie temporal de Microsoft Especifica el valor máximo que se va a usar para las predicciones. Este parámetro se usa, junto con MINIMUM_SERIES_VALUE, para restringir las predicciones a algún intervalo esperado. Por ejemplo, puede especificar que la cantidad de ventas prevista para cualquier día nunca debe superar el número de productos del inventario.
ESTADOS_MÁXIMOS Algoritmo de agrupación en clústeres de Microsoft

Algoritmo de red neuronal de Microsoft

Algoritmo de agrupación en clústeres de secuencia de Microsoft
Especifica el número máximo de estados de atributo que admite el algoritmo. Si el número de estados que tiene un atributo es mayor que el número máximo de estados, el algoritmo usa los estados más populares del atributo y omite los estados restantes.

El valor predeterminado es 100.
SOPORTE MÁXIMO Algoritmo de asociación de Microsoft Especifica el número máximo de casos en los que un conjunto de elementos puede tener compatibilidad. Si este valor es menor que 1, el valor representa un porcentaje de los casos totales. Si este valor es mayor que 1, el valor representa el número absoluto de casos que pueden contener el conjunto de elementos.

El valor predeterminado es 1.
IMPORTANCIA_MÍNIMA Algoritmo de asociación de Microsoft Especifica el umbral de importancia para las reglas de asociación. Las reglas con importancia menor que este valor se filtran.
MINIMUM_ITEMSET_SIZE Algoritmo de asociación de Microsoft Especifica el número mínimo de elementos permitidos en un conjunto de elementos.

El valor predeterminado es 1.
PROBABILIDAD_MÍNIMA_DEPENDENCIA Algoritmo Naïve Bayes de Microsoft Especifica la probabilidad de dependencia mínima entre los atributos de entrada y salida. Este valor se usa para limitar el tamaño del contenido generado por el algoritmo. Esta propiedad se puede establecer de 0 a 1. Los valores más grandes reducen el número de atributos del contenido del modelo.

El valor predeterminado es 0,5.
PROBABILIDAD_MÍNIMA Algoritmo de asociación de Microsoft Especifica la probabilidad mínima de que una regla sea verdadera. Por ejemplo, establecer este valor en 0,5 especifica que no se genera ninguna regla con menos de cincuenta por ciento de probabilidad.

El valor predeterminado es 0.4.
VALOR_MÍNIMO_SERIE Algoritmo de serie temporal de Microsoft Especifica la restricción inferior para cualquier predicción de series temporales. Los valores previstos nunca serán más pequeños que esta restricción.
Soporte mínimo Algoritmo de asociación de Microsoft Especifica el número mínimo de casos que deben contener el conjunto de elementos antes de que el algoritmo genere una regla. Si se establece este valor en menor que 1, se especifica el número mínimo de casos como porcentaje de los casos totales. Al establecer este valor en un número entero mayor que 1, se especifica el número mínimo de casos como el número absoluto de casos que deben contener el conjunto de elementos. El algoritmo puede aumentar el valor de este parámetro, si la memoria está limitada.

El valor predeterminado es 0,03.
Soporte mínimo Algoritmo de agrupación en clústeres de Microsoft Especifica el número mínimo de casos en cada clúster.

El valor predeterminado es 1.
Soporte mínimo Algoritmo de árboles de decisión de Microsoft Determina el número mínimo de casos en las hojas necesarios para generar una división en el árbol de decisión.

El valor predeterminado es 10.
Soporte mínimo Algoritmo de agrupación en clústeres de secuencia de Microsoft Especifica el número mínimo de casos en cada clúster.

El valor predeterminado es 10.
Soporte mínimo Algoritmo de serie temporal de Microsoft Especifica el número mínimo de segmentos de tiempo necesarios para generar una división en cada árbol de serie temporal.

El valor predeterminado es 10.
MISSING_VALUE_SUBSTITUTION Algoritmo de serie temporal de Microsoft Especifica el método que se usa para rellenar los huecos en los datos históricos. De forma predeterminada, no se permiten espacios irregulares ni bordes irregulares en los datos. Los métodos siguientes se pueden usar para rellenar bordes o huecos irregulares: use el valor anterior, use el valor medio o use una constante numérica específica.
Modelado de Cardinalidad Algoritmo de agrupación en clústeres de Microsoft Especifica el número de modelos de ejemplo que se construyen durante el proceso de agrupación en clústeres.

El valor predeterminado es 10.
INDICACIÓN DE PERIODICIDAD Algoritmo de serie temporal de Microsoft Proporciona una sugerencia al algoritmo en cuanto a la periodicidad de los datos. Por ejemplo, si las ventas varían según el año y la unidad de medida de la serie es meses, la periodicidad es 12. Este parámetro toma el formato de {n [, n]}, donde n es cualquier número positivo. La n entre corchetes [] es opcional y se puede repetir con la frecuencia que sea necesario.

El valor predeterminado es {1}.
SUAVIZADO_DE_PREDICCIÓN Algoritmo de serie temporal de Microsoft Controla la combinación de algoritmos de series temporales ARTXP y ARIMA. El valor especificado solo es válido cuando el parámetro FORECAST_METHOD está establecido en MIXED. Los valores deben estar comprendidos entre 0 y 1. Si el valor es 0, el modelo solo usa ARTXP. Si el valor es 1, el modelo solo usa ARIMA. Un valor más cercano a 0 tiene un peso mayor hacia ARTXP. Un valor más cercano a 1 está más fuertemente inclinado hacia ARIMA.
TAMAÑO_DE_MUESTRA Algoritmo de agrupación en clústeres de Microsoft Especifica el número de casos que usa el algoritmo en cada paso si el parámetro CLUSTERING_METHOD se establece en uno de los métodos de agrupación en clústeres escalables. Si se establece el parámetro SAMPLE_SIZE en 0, todo el conjunto de datos se agrupará en un solo paso. Esto puede provocar problemas de memoria y rendimiento.

El valor predeterminado es 50000.
TAMAÑO_DE_MUESTRA Algoritmo de regresión logística de Microsoft

Algoritmo de red neuronal de Microsoft
Especifica el número de casos que se usarán para entrenar el modelo. El proveedor de algoritmos usa este número o el porcentaje del total de casos que no se incluyen en el porcentaje de exclusión según lo especificado por el parámetro HOLDOUT_PERCENTAGE, el valor que sea menor.

Es decir, si HOLDOUT_PERCENTAGE se establece en 30, el algoritmo usará el valor de este parámetro o un valor que sea igual al 70 por ciento del número total de casos, lo que sea menor.

El valor predeterminado es 10000.
Método de Puntuación Algoritmo de árboles de decisión de Microsoft Determina el método que se usa para calcular la puntuación de división. Están disponibles las siguientes opciones: (1) Entropía, (2) Bayesiano con K2 como Prior, o (3) Prior Dirichlet Bayesiano Equivalente (BDE).

El valor predeterminado es 3.
MÉTODO_DE_DIVISIÓN Algoritmo de árboles de decisión de Microsoft Determina el método que se usa para dividir el nodo. Están disponibles las siguientes opciones: Binario (1), Completo (2) o Ambos (3).

El valor predeterminado es 3.
Tolerancia de Parada Referencia técnica del algoritmo de agrupación en clústeres de Microsoft Especifica el valor que se usa para determinar cuándo se alcanza la convergencia y el algoritmo termina de compilar el modelo. Se alcanza la convergencia cuando el cambio general en las probabilidades del clúster es menor que la relación del parámetro STOPPING_TOLERANCE dividido por el tamaño del modelo.

El valor predeterminado es 10.

Comentarios

Para obtener más información sobre los algoritmos, consulte SQL Server Books Online.

Véase también

Algoritmos de minería de datos (complementos de minería de datos de SQL Server)