Compartilhar via


SystemGetClusterCrossValidationResults (Analysis Services - Data Mining)

Particiona a estrutura de mineração em um número especificado de seções cruzadas, treina um modelo para cada partição e retorna métricas de precisão para cada partição.

Observação: esse procedimento armazenado só pode ser usado com uma estrutura de mineração que contém pelo menos um modelo de clustering. Para validar modelos que não estão em cluster, você deve usar SystemGetCrossValidationResults (Analysis Services - Data Mining).

Sintaxe

SystemGetClusterCrossValidationResults(
<structure name>, 
[,<mining model list>]
,<fold count>}
,<max cases>
<test list>])

Argumentos

  • mining structure
    Nome de uma estrutura de mineração no banco de dados atual.

    (Obrigatória)

  • mining model list
    Lista separada por vírgulas de modelos de mineração para validar.

    Se uma lista de modelos de mineração não for especificada, a validação cruzada será executada em todos os modelos de clustering associados com a estrutura especificada.

    ObservaçãoObservação

    Para fazer a validação cruzada de modelos que não forem de clustering, use um procedimento armazenado separado SystemGetCrossValidationResults (Analysis Services - Data Mining).

    (opcional)

  • fold count
    Inteiro que especifica o número de partições nas quais separar o conjunto de dados. O valor mínimo é 2. O número máximo de dobras é maximum integer ou o número de casos, o que for inferior.

    Cada partição conterá este número de casos, aproximadamente: max cases/fold count.

    Não há valor padrão.

    ObservaçãoObservação

    O número de dobras afeta grandemente o tempo necessário para realizar a validação cruzada. Se você selecionar um número que seja muito alto, a consulta poderá ser executada por muito tempo e, em alguns casos, o servidor poderá ficar sem-resposta ou expirar.

    (Obrigatória)

  • max cases
    Inteiro que especifica o número de máximo de caixas que podem ser testadas.

    Um valor de 0 indica que serão usadas todas as caixas na fonte de dados.

    Se for especificado um número maior que o de casos reais no conjunto de dados, todos os casos serão da fonte de dados serão usados.

    (Obrigatória)

  • test list
    Uma cadeia de caracteres que especifica opções de teste.

    Observação: esse parâmetro é reservado para uso futuro.

    (opcional)

Tipo de retorno

A tabela Tipo de retorno contém pontuações para cada partição específica e agregações para todos os modelos.

A tabela a seguir descreve as colunas retornadas.

Nome da Coluna

Descrição

ModelName

O nome do modelo que foi testado.

AttributeName

O nome da coluna previsível. Para modelos de cluster, sempre null.

AttributeState

Um valor de destino especificado na coluna previsível. Para modelos de cluster, sempre null..

PartitionIndex

Um índice de base 1 que identifica a qual partição os resultados se aplicam.

PartitionSize

Um inteiro que indica quantos casos foram incluídos em cada partição.

Teste

O tipo de teste que foi executado.

Medida

Nome da medida retornada pelo teste. Medidas para cada modelo dependem do tipo do valor previsível. Para obter uma definição de cada medida, consulte Validação cruzada (Analysis Services - Mineração de dados).

Para obter uma lista de medidas retornadas para cada tipo previsível, consulte Relatório de validação cruzada (Analysis Services - Mineração de dados).

Valor

O valor da medida de teste especificada.

Comentários

Para retornar métricas de precisão para todo o conjunto de dados, use SystemGetClusterAccuracyResults (Analysis Services - Data Mining).

Além disso, se o modelo de mineração já tiver sido dividido em dobras, você poderá ignorar o processamento e retornar somente os resultados da validação cruzada usando SystemGetClusterAccuracyResults (Analysis Services - Data Mining).

Exemplos

O exemplo a seguir demonstra como particionar uma estrutura de mineração em três dobras e, em seguida, testar dois modelos de clustering associados com a estrutura de mineração.

A linha três do código lista os modelos de mineração específicos que você deseja testar. Se você não especificar a lista, todos os modelos de clustering associados com a estrutura serão usados.

A linha quatro do código especifica o número de dobras e a linha cinco especifica o número máximo de casos a usar.

Como esses são modelos de clustering, não é necessário especificar um atributo ou valor previsível.

CALL SystemGetClusterCrossValidationResults(
[v Target Mail],
[Cluster 1], [Cluster 2],
3,
10000
)

Resultados do exemplo:

ModelName

AttributeName

AttributeState

PartitionIndex

PartitionSize

Teste

Medida

Valor

Cluster 1

 

 

1

3025

Clusterização

Probabilidade de caso

0.930524511864121

Cluster 1

 

 

2

3025

Clusterização

Probabilidade de caso

0.919184178430778

Cluster 1

 

 

3

3024

Clusterização

Probabilidade de caso

0.929651120490248

Cluster 2

 

 

1

1289

Clusterização

Probabilidade de caso

0.922789726933607

Cluster 2

 

 

2

1288

Clusterização

Probabilidade de caso

0.934865535691068

Cluster 2

 

 

3

1288

Clusterização

Probabilidade de caso

0.924724595688798

Requisitos

A validação cruzada só está disponível no SQL Server Enterprise começando no SQL Server 2008.