Compartir a través de


Tipos de contenido (minería de datos)

Se aplica a: SQL Server 2019 y versiones anteriores de Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

La minería de datos estaba en desuso en SQL Server 2017 Analysis Services y ahora se descontinuó en SQL Server 2022 Analysis Services. La documentación no se actualiza para las características en desuso y descontinuadas. Para más información, consulte Compatibilidad con versiones anteriores de Analysis Services.

En Microsoft SQL Server Analysis Services, puede definir tanto el tipo de datos físico para una columna en una estructura de minería, como un tipo de contenido lógico para la columna cuando se usa en un modelo.

El tipo de datos determina cómo los algoritmos procesan los datos en esas columnas al crear modelos de minería de datos. La definición del tipo de datos de una columna proporciona información del algoritmo sobre el tipo de datos de las columnas y cómo procesar los datos. Cada tipo de datos de SQL Server Analysis Services admite uno o varios tipos de contenido para la minería de datos.

El tipo de contenido describe el comportamiento del contenido que contiene la columna. Por ejemplo, si el contenido de una columna se repite en un intervalo específico, como días de la semana, puede especificar el tipo de contenido de esa columna como cíclico.

Algunos algoritmos requieren tipos de datos específicos y tipos de contenido específicos para poder funcionar correctamente. Por ejemplo, el algoritmo Bayes naive de Microsoft no puede usar columnas continuas como entrada y no puede predecir valores continuos. Algunos tipos de contenido, como La secuencia de claves, solo los usa un algoritmo específico. Para obtener una lista de los algoritmos y los tipos de contenido que admite cada uno, vea Algoritmos de minería de datos (Analysis Services - Minería de datos).

En la lista siguiente se describen los tipos de contenido que se usan en la minería de datos e identifica los tipos de datos que admiten cada tipo.

Discreto

Discreto significa que la columna contiene un número finito de valores sin continuidad entre valores. Por ejemplo, una columna de género es una columna de atributo discreta típica, en que los datos representan un número específico de categorías.

Los valores de una columna de atributo discreto no pueden implicar la ordenación, incluso si los valores son numéricos. Además, aunque los valores usados para la columna discreta sean numéricos, no se pueden calcular valores fraccionarios. Los códigos de área telefónica son un buen ejemplo de datos discretos que son numéricos.

El tipo de contenido discreto es compatible con todos los tipos de datos de minería de datos.

Continuo

Continuo significa que la columna contiene valores que representan datos numéricos en una escala que permite valores provisionales. A diferencia de una columna discreta, que representa datos finitos y recuentos, una columna continua representa medidas escalables y es posible que los datos contengan un número infinito de valores fraccionarios. Una columna de temperaturas es un ejemplo de una columna de atributo continuo.

Cuando una columna contiene datos numéricos continuos y sabe cómo se deben distribuir los datos, puede mejorar potencialmente la precisión del análisis especificando la distribución esperada de valores. Usted especifica la distribución de columnas en el nivel de la estructura de minería de datos. Por lo tanto, la configuración se aplica a todos los modelos basados en la estructura. Para obtener más información, vea Distribuciones de columnas (minería de datos).

El tipo de contenido Continuous es compatible con los siguientes tipos de datos: Date, Double y Long.

Discretized

La discretización es el proceso de colocar valores de un conjunto continuo de datos en cubos para que haya un número limitado de valores posibles. Solo puede discretizar datos numéricos.

Por lo tanto, el tipo de contenido discretizado indica que la columna contiene valores que representan grupos, o depósitos, de valores derivados de una columna continua. Los cubos se consideran como valores ordenados y discretos.

Puede discretizar los datos manualmente, para asegurarse de obtener los cubos que desee, o puede usar los métodos de discretización proporcionados en SQL Server Analysis Services. Algunos algoritmos realizan la discretización automáticamente. Para obtener más información, vea Cambiar la discretización de una columna en un modelo de minería de datos.

El tipo de contenido discretizado es compatible con los siguientes tipos de datos: Date, Double, Long y Text.

Key

El tipo de contenido de clave significa que la columna identifica de forma única una fila. En una tabla de casos, normalmente la columna de clave es un identificador numérico o de texto. Establece el tipo de contenido como key para indicar que la columna no debe usarse para el análisis, solo para rastrear registros.

Las tablas anidadas también tienen claves, pero el uso de la clave de tabla anidada es un poco diferente. Establezca el tipo de contenido como clave en una tabla anidada si la columna es el atributo que desea analizar. Los valores de la clave de tabla anidada deben ser únicos para cada caso, pero puede haber duplicados en todo el conjunto de casos.

Por ejemplo, si está analizando los productos que compran los clientes, establecería el tipo de contenido en clave para la columna CustomerID en la tabla de casos y volvería a establecer el tipo de contenido en clave para la columna PurchasedProducts de la tabla anidada.

Nota:

Las tablas anidadas solo están disponibles si utiliza datos de un origen de datos externo que se ha definido como una vista de origen de datos de Servicios de Análisis.

Este tipo de contenido es compatible con los siguientes tipos de datos: Date, Double, Long y Text.

Secuencia de claves

El tipo de contenido de secuencia de claves solo se puede usar en los modelos de agrupación en clústeres de secuencia. Al establecer el tipo de contenido en la secuencia de claves, indica que la columna contiene valores que representan una secuencia de eventos. Los valores están ordenados, pero no tienen que estar a igual distancia unos de otros.

Este tipo de contenido es compatible con los siguientes tipos de datos: Double, Long, Text y Date.

Momento clave

El tipo de contenido de hora clave solo se puede usar en los modelos de serie temporal. Al establecer el tipo de contenido en tiempo clave, indica que los valores se ordenan y representan una escala de tiempo.

Este tipo de contenido es compatible con los siguientes tipos de datos: Double, Long y Date.

Table

El tipo de contenido de la tabla indica que la columna contiene otra tabla de datos, con una o varias columnas y una o varias filas. Para cualquier fila concreta de la tabla de casos, esta columna puede contener varios valores, todos relacionados con el registro de casos primarios. Por ejemplo, si la tabla de casos principal contiene una lista de clientes, podría tener varias columnas que contienen tablas anidadas, como una columna ProductsPurchased , donde la tabla anidada enumera los productos comprados por este cliente en el pasado y una columna Hobby que enumera los intereses del cliente.

El tipo de datos de esta columna siempre es Table.

Cíclico

El tipo de contenido cíclico significa que la columna contiene valores que representan un conjunto ordenado cíclico. Por ejemplo, los días numerados de la semana son un conjunto ordenado cíclico, ya que el día número uno sigue al día siete.

Las columnas cíclicas se consideran ordenadas y discretas en términos de tipo de contenido.

Todos los tipos de datos de minería de datos de SQL Server Analysis Services admiten este tipo de contenido. Sin embargo, la mayoría de los algoritmos tratan los valores cíclicos como valores discretos y no realizan un procesamiento especial.

Ordenado

El tipo de contenido Ordenado también indica que la columna contiene valores que definen una secuencia o un orden. Sin embargo, en este tipo de contenido, los valores usados para ordenar no implican ninguna relación de distancia o magnitud entre los valores del conjunto. Por ejemplo, si una columna de atributo ordenada contiene información sobre los niveles de aptitud en orden de clasificación de uno a cinco, no hay información implícita en la distancia entre los niveles de aptitud; Un nivel de aptitud de cinco no es necesariamente cinco veces mejor que un nivel de aptitud de uno.

Las columnas de atributo ordenadas se consideran discretas en términos de tipo de contenido.

Todos los tipos de datos de minería de datos de SQL Server Analysis Services admiten este tipo de contenido. Sin embargo, la mayoría de los algoritmos tratan los valores ordenados como valores discretos y no realizan un procesamiento especial.

Clasificado

Además de los tipos de contenido anteriores que están en uso común con todos los modelos, para algunos tipos de datos puede usar columnas clasificadas para definir tipos de contenido. Para obtener más información sobre las columnas clasificadas, vea Columnas clasificadas (minería de datos).

Véase también

Tipos de contenido (DMX)
Tipos de datos (minería de datos)
Tipos de datos (DMX)
Cambiar las propiedades de una estructura de minería de datos
Columnas de la estructura de minería de datos