Compartir a través de


Personalizar la estructura y los modelos de minería de datos

Se aplica a: SQL Server 2019 y versiones anteriores de Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

La minería de datos estaba en desuso en SQL Server 2017 Analysis Services y ahora se ha interrumpido en SQL Server 2022 Analysis Services. La documentación no se actualiza para las características en desuso e interrumpidas. Para más información, consulte Compatibilidad con versiones anteriores de Analysis Services.

Después de seleccionar un algoritmo que satisfaga sus necesidades empresariales, puede personalizar el modelo de minería de datos de las maneras siguientes para intentar mejorar los resultados.

  • Utilice columnas de datos diferentes en el modelo o cambie el uso, el tipo de contenido o el método de discretización de las columnas.

  • Cree filtros en el modelo de minería de datos para restringir los datos que se usan al entrenarlo.

  • Cambie el algoritmo que se usó para analizar los datos.

  • Establezca los parámetros del algoritmo para controlar los umbrales, las divisiones del árbol y otras condiciones importantes.

En este tema se describen estas opciones.

Cambiar los datos que usa el modelo

Las decisiones que tome sobre qué columnas de datos se han de utilizar en el modelo y cómo usar y procesar esos datos, pueden afectar en gran medida a los resultados del análisis. Los temas siguientes proporcionan información para ayudar a entender estas opciones.

Usar la selección de características

La mayoría de los algoritmos de minería de datos de SQL Server Analysis Services usan un proceso denominado selección de características para seleccionar solo los atributos más útiles para agregarlos a un modelo. Reducir el número de columnas y atributos puede mejorar el rendimiento y la calidad del modelo. Los métodos de selección de características disponibles difieren dependiendo del algoritmo que se elija.

Selección de características (minería de datos) .

Cambiar el uso

Puede cambiar las columnas que están incluidas en un modelo de minería de datos y cómo se utiliza cada columna. Si no obtiene los resultados esperados, debe muestrear las columnas que utilizó como entrada y preguntarse si las columnas son una buena elección y si hay algo que pueda hacer para mejorar el tratamiento de los datos, como podría ser:

  • Identificar las variables de categorías que ha etiquetado equivocadamente como números.

  • Agregar categorías para contraer el número de atributos y facilitar la búsqueda de correlaciones.

  • Cambiar la manera en que los números se discretizan, o se combinan.

  • Quitar las columnas que tienen muchos valores únicos, o las columnas que son en realidad datos de referencia y no resultan de utilidad para el análisis, como las direcciones o el segundo nombre.

No es necesario quitar físicamente las columnas de la estructura de minería de datos; simplemente puede marcar la columna como Omitir. La columna se quita del modelo de minería de datos, pero otros modelos de minería de datos de la estructura aún podrán utilizarla o hacer referencia a ella en una consulta de obtención de datos.

Crear alias para las columnas de modelo

Cuando SQL Server Analysis Services crea el modelo de minería de datos, usa los mismos nombres de columna que están en la estructura de minería de datos. Puede agregar un alias a cualquier columna del modelo de minería de datos. Esto podría facilitar la comprensión del uso o el contenido de la columna, o hacer el nombre más corto para su comodidad en la creación de consultas. Los alias también son útiles si desea crear una copia de una columna y asignarle un nombre descriptivo.

Cree un alias modificando la propiedad Name de la columna de minería de datos. SQL Server Analysis Services sigue usando el nombre original como identificador de la columna y el nuevo valor que escribe para Name se convierte en el alias de columna y aparece en la cuadrícula entre paréntesis junto al uso de columnas.

alias en alias de columnas del modelo de

El gráfico muestra los modelos relacionados que tienen varias copias de una columna de estructura de minería de datos, todos relacionados con los ingresos. Cada copia de la columna de estructura se ha hecho de datos discretos de una manera diferente. Cada uno de los modelos del diagrama usan una columna diferente de la estructura de minería de datos; en cambio, para comodidad en la comparación de las columnas por los modelos, se ha cambiado el nombre de la columna de cada modelo a [Income].

Agregar filtros

Puede agregar un filtro a un modelo de minería de datos. Un filtro es un conjunto de condiciones WHERE que restringe los datos en los casos de modelo a algún subconjunto. El filtro se usa en el aprendizaje del modelo y se puede usar opcionalmente al probar el modelo o crear gráficos de precisión.

Agregando filtros, puede reutilizar las estructuras de minería de datos pero crea modelos basados en subconjuntos muy diferentes de los datos. O bien, simplemente puede usar filtros para eliminar algunas filas y mejorar la calidad del análisis.

Para obtener más información, vea Filtros para modelos de minería de datos (Analysis Services - Minería de datos).

Cambiar el algoritmo

Aunque los modelos nuevos que agregue a una estructura de minería de datos comparten el mismo conjunto de datos, puede obtener resultados diferentes utilizando un algoritmo distinto (si los datos lo admiten) o cambiando los parámetros del algoritmo. También puede establecer marcas de modelado.

La elección de algoritmo determina qué tipo de resultados se van a obtener. Para obtener información general sobre cómo funciona un algoritmo específico o los escenarios empresariales en los que se beneficiaría del uso de un algoritmo determinado, consulte Algoritmos de minería de datos (Analysis Services - Minería de datos).

Vea el tema de referencia técnica de cada algoritmo para obtener una descripción de los requisitos y las restricciones, así como información detallada sobre las personalizaciones que cada algoritmo admite.

Personalizar los parámetros de algoritmo

Cada algoritmo admite parámetros que sirven para personalizar su comportamiento y ajustar los resultados del modelo. Para obtener información sobre cómo se utiliza cada parámetro, consulte los temas siguientes:

El tema correspondiente a cada tipo de algoritmo también enumera las funciones de predicción que se pueden utilizar con modelos basados en ese algoritmo.

Nombre de propiedad Se aplica a
AUTO_DETECT_PERIODICITY Microsoft Time Series Algorithm Technical Reference
CLUSTER_COUNT Referencia técnica del algoritmo de clústeres de Microsoft

Referencia técnica del algoritmo de clústeres de secuencia de Microsoft
CLUSTER_SEED Referencia técnica del algoritmo de clústeres de Microsoft
CLUSTERING_METHOD Referencia técnica del algoritmo de clústeres de Microsoft
COMPLEXITY_PENALTY Referencia técnica del algoritmo de árboles de decisión de Microsoft

Microsoft Time Series Algorithm Technical Reference
FORCE_REGRESSOR Referencia técnica del algoritmo de árboles de decisión de Microsoft

Referencia técnica del algoritmo de regresión lineal de Microsoft

Marcas de modelado (Minería de datos)
FORECAST_METHOD Microsoft Time Series Algorithm Technical Reference
HIDDEN_NODE_RATIO Referencia técnica del algoritmo de red neuronal de Microsoft
HISTORIC_MODEL_COUNT Microsoft Time Series Algorithm Technical Reference
HISTORICAL_MODEL_GAP Microsoft Time Series Algorithm Technical Reference
HOLDOUT_PERCENTAGE Referencia técnica del algoritmo de regresión logística de Microsoft

Referencia técnica del algoritmo de red neuronal de Microsoft

Nota: Este parámetro es distinto del valor de porcentaje de datos de exclusión que se aplica a una estructura de minería de datos.
HOLDOUT_SEED Referencia técnica del algoritmo de regresión logística de Microsoft

Referencia técnica del algoritmo de red neuronal de Microsoft

Nota: Este parámetro es distinto del valor de inicialización de datos de exclusión que se aplica a una estructura de minería de datos.
INSTABILITY_SENSITIVITY Microsoft Time Series Algorithm Technical Reference
MAXIMUM_INPUT_ATTRIBUTES Referencia técnica del algoritmo de clústeres de Microsoft

Referencia técnica del algoritmo de árboles de decisión de Microsoft

Referencia técnica del algoritmo de regresión lineal de Microsoft

Referencia técnica del algoritmo Bayes naive de Microsoft

Referencia técnica del algoritmo de red neuronal de Microsoft

Referencia técnica del algoritmo de regresión logística de Microsoft
MAXIMUM_ITEMSET_COUNT Referencia técnica del algoritmo de asociación de Microsoft
MAXIMUM_ITEMSET_SIZE Referencia técnica del algoritmo de asociación de Microsoft
MAXIMUM_OUTPUT_ATTRIBUTES Referencia técnica del algoritmo de árboles de decisión de Microsoft

Referencia técnica del algoritmo de regresión lineal de Microsoft

Referencia técnica del algoritmo de regresión logística de Microsoft

Referencia técnica del algoritmo Bayes naive de Microsoft

Referencia técnica del algoritmo de red neuronal de Microsoft
MAXIMUM_SEQUENCE_STATES Referencia técnica del algoritmo de clústeres de secuencia de Microsoft
MAXIMUM_SERIES_VALUE Microsoft Time Series Algorithm Technical Reference
MAXIMUM_STATES Referencia técnica del algoritmo de clústeres de Microsoft

Referencia técnica del algoritmo de red neuronal de Microsoft

Referencia técnica del algoritmo de clústeres de secuencia de Microsoft
MAXIMUM_SUPPORT Referencia técnica del algoritmo de asociación de Microsoft
MINIMUM_IMPORTANCE Referencia técnica del algoritmo de asociación de Microsoft
MINIMUM_ITEMSET_SIZE Referencia técnica del algoritmo de asociación de Microsoft
MINIMUM_DEPENDENCY_PROBABILITY Referencia técnica del algoritmo Bayes naive de Microsoft
MINIMUM_PROBABILITY Referencia técnica del algoritmo de asociación de Microsoft
MINIMUM_SERIES_VALUE Microsoft Time Series Algorithm Technical Reference
MINIMUM_SUPPORT Referencia técnica del algoritmo de asociación de Microsoft

Referencia técnica del algoritmo de clústeres de Microsoft

Referencia técnica del algoritmo de árboles de decisión de Microsoft

Referencia técnica del algoritmo de clústeres de secuencia de Microsoft

Microsoft Time Series Algorithm Technical Reference
MISSING_VALUE_SUBSTITUTION Microsoft Time Series Algorithm Technical Reference
MODELLING_CARDINALITY Referencia técnica del algoritmo de clústeres de Microsoft
PERIODICITY_HINT Microsoft Time Series Algorithm Technical Reference
PREDICTION_SMOOTHING Microsoft Time Series Algorithm Technical Reference
SAMPLE_SIZE Referencia técnica del algoritmo de clústeres de Microsoft

Referencia técnica del algoritmo de regresión logística de Microsoft

Referencia técnica del algoritmo de red neuronal de Microsoft
SCORE_METHOD Referencia técnica del algoritmo de árboles de decisión de Microsoft
SPLIT_METHOD Referencia técnica del algoritmo de árboles de decisión de Microsoft
STOPPING_TOLERANCE Referencia técnica del algoritmo de clústeres de Microsoft

Consulte también

Algoritmos de minería de datos (Analysis Services: Minería de datos)
Arquitectura física (Analysis Services - Minería de datos)