Explorando o modelo de call center (Tutorial de mineração de dados intermediário)

Artigo
06/13/2017

Agora que você criou o modelo exploratório, pode usá-lo para saber mais sobre seus dados usando as seguintes ferramentas fornecidas no SSDT (SQL Server Data Tools).

Visualizador de Rede Neural da Microsoft: esse visualizador está disponível na guia Visualizador do Modelo de Mineração do Designer de Mineração de Dados e foi projetado para ajudá-lo a experimentar interações nos dados.
Visualizador de Árvore de Conteúdo Genérica da Microsoft : Este visualizador padrão fornece detalhes detalhados sobre os padrões e estatísticas descobertos pelo algoritmo quando ele gerou o modelo.

Visualizador de Rede Neural da Microsoft

O visualizador tem três painéis - Entrada, Saída e Variáveis.

Usando o painel Saída , você pode selecionar valores diferentes para o atributo previsível ou variável dependente. Se o modelo contiver vários atributos previsíveis, você poderá selecionar o atributo na lista Atributo de Saída .

O painel Variáveis compara os dois resultados que você escolheu em termos de atributos de contribuição, ou variáveis. As barras coloridas representam visualmente com que intensidade a variável afeta os resultados de destino. Você também pode exibir pontuações de comparação de precisão para as variáveis. Uma pontuação de comparação de precisão é calculada de modo diferente de acordo com o tipo de modelo de mineração utilizado, mas geralmente informa o aperfeiçoamento no modelo durante o uso desse atributo para previsão.

O painel Entrada permite adicionar influenciadores ao modelo para experimentar vários cenários hipotéticos.

Usando o painel Saída

Neste modelo inicial, você está interessado em verificar como vários fatores afetam a classificação do serviço. Para fazer isso, você pode selecionar Grau de Serviço na lista de atributos de saída e, em seguida, comparar diferentes níveis de serviço selecionando intervalos nas listas suspensas para Valor 1 e Valor 2.

Para comparar as classificações de serviço mais baixa e mais alta

Para Valor 1, selecione o intervalo com os valores mais baixos. Por exemplo, o intervalo 0-0-0.7 representa as taxas de abandono mais baixas e, portanto, o melhor nível de serviço.

Observação

Os valores exatos nesse intervalo podem variar de acordo com a configuração do modelo.
Para Valor 2, selecione o intervalo com os valores mais altos. Por exemplo, o intervalo com o valor >=0,12 representa as taxas de abandono mais altas e, portanto, a pior classificação de serviço. Em outras palavras, 12% dos clientes que telefonaram durante esse turno desligaram antes de falar com um atendente.

O conteúdo do painel Variáveis é atualizado para comparar atributos que contribuem para os valores de resultado. Assim, a coluna esquerda mostra os atributos associados à melhor classificação de serviço, e a coluna direita mostra o atributo associado à pior classificação do serviço.

Usando o painel Variáveis

Neste modelo, parece que Average Time Per Issue é um fator importante. Essa variável indica o tempo médio necessário para que uma chamada seja atendida, independentemente do tipo de chamada.

Para exibir e copiar a probabilidade e as pontuações de comparação de precisão para um atributo

No painel Variáveis, pause o mouse sobre a barra colorida na primeira linha.

Esta barra colorida mostra como contribui fortemente Average Time Per Issue para a classificação de serviço. A dica de ferramenta mostra uma pontuação geral, as probabilidades e as pontuações de comparação de precisão para cada combinação de uma variável e um resultado de destino.
No painel Variáveis, clique com o botão direito do mouse em qualquer barra colorida e selecione Copiar.
Em uma planilha do Excel, clique com o botão direito do mouse em qualquer célula e selecione Colar.

O relatório é colado como uma tabela HTML e mostra apenas as pontuações para cada barra.
Em uma planilha diferente do Excel, clique com o botão direito do mouse em qualquer célula e selecione Colar Especial.

O relatório é colado como formato de texto e inclui as estatísticas relacionadas descritas na próxima seção.

Usando o painel Entrada

Vamos supor que você esteja interessado em examinar o efeito de um determinado fator, como o turno ou o número de operadores. Você pode selecionar uma variável específica usando o painel Entrada , e o painel Variáveis é atualizado automaticamente para comparar os dois grupos selecionados anteriormente, considerando a variável especificada.

Para examinar o efeito na classificação de serviço alterando os atributos de entrada

No painel Entrada, para atributo, selecione Shift.
Em Valor, selecione AM.

O painel Variáveis é atualizado para mostrar o impacto no modelo quando o deslocamento é AM. Todas as outras seleções permanecem as mesmas - você ainda está comparando as notas de serviço mais baixas e mais altas.
Em Valor, selecione PM1.

O painel Variáveis é atualizado para mostrar o impacto no modelo quando o turno é alterado.
No painel Entrada, clique na próxima linha em branco em Atributo e selecione Chamadas. Para Valor, selecione o intervalo que indica o maior número de chamadas.

Uma nova condição de entrada é adicionada à lista. O painel Variáveis é atualizado para mostrar o impacto no modelo de um turno específico quando o volume de chamadas é mais alto.
Continue para alterar os valores para Turno e Chamadas de modo a encontrar correlações interessantes entre o turno, o volume de chamadas e a classificação do serviço.

Observação

Para limpar o painel Entrada para que você possa usar atributos diferentes, clique em Atualizar conteúdo do visualizador.

Interpretando as estatísticas fornecidas no visualizador

Tempos de espera mais longos constituem um fator importante para uma taxa de abandono alta, indicando uma classificação de serviço mais fraca. Essa pode ser considerada uma conclusão óbvia; no entanto, o modelo de mineração fornece mais alguns dados estatísticos adicionais para ajudar a interpretar essas tendências.

Pontuação: Valor que indica a importância geral dessa variável para discriminar os desfechos. Quanto mais alta for a pontuação, maior o efeito da variável no resultado.
Probabilidade do valor 1: Porcentagem que representa a probabilidade desse valor para esse resultado.
Probabilidade do valor 2: Porcentagem que representa a probabilidade desse valor para esse desfecho.
Aumento para o Valor 1 e Aumento para o Valor 2: Pontuações que representam o impacto do uso dessa variável específica para prever os resultados do Valor 1 e do Valor 2. Quanto mais alta for a pontuação, melhor será a variável para prever os resultados.

A tabela a seguir contém alguns valores de exemplo para os influenciadores principais. Por exemplo, a Probabilidade do valor 1 é de 60,6% e a Probabilidade do valor 2 é de 8,30%, o que significa que quando o Tempo Médio por Problema estava no intervalo de 44 a 70 minutos, 60,6% dos casos estavam no turno com as notas de serviço mais altas (Valor 1) e 8,30% dos casos estavam no turno com as piores notas de serviço (Valor 2).

Com base nessas informações, é possível estabelecer algumas conclusões. O menor tempo de resposta para chamada (o intervalo de 44-70) influencia fortemente a melhor classificação do serviço (o intervalo 0,00-0,07). A pontuação (92,35) informa que essa variável é muito importante.

Entretanto, à medida que você examina a lista de fatores contribuintes, percebe alguns outros fatores Por exemplo, o turno parece influenciar o serviço, mas as pontuações de comparação de precisão e as probabilidades relativas indicam que o turno não é um fator preponderante.

Atributo	Valor	Favores < 0.07	Favores >= 0,12
Tempo médio por emissão	89.087 - 120.000		Pontuação: 100 Probabilidade de Valor1: 4,45% Probabilidade de Valor2: 51.94 % Aumento para Valor1: 0,19 Elevação para Valor2: 1,94
Tempo médio por emissão	44.000 - 70.597	Pontuação: 92,35 Probabilidade do Valor 1: 60,06 % Probabilidade do Valor 2: 8,30 % Comparação de Precisão para o Valor 1: 2,61 Comparação de Precisão para o Valor 2: 0,31

Voltar ao início

Visualizador de árvore de conteúdo genérico da Microsoft

Este visualizador pode ser usado para exibir informações ainda mais detalhadas criadas pelo algoritmo durante o processamento do modelo. O Visualizador de Árvore de Conteúdo Genérica da Microsoft representa o modelo de mineração como uma série de nós, em que cada nó representa o conhecimento adquirido sobre os dados de treinamento. Esse visualizador pode ser usado com todos os modelos, mas o conteúdo dos nós é diferente de acordo com o tipo de modelo.

Para modelos de rede neural ou de regressão logística, talvez você ache o marginal statistics node particularmente útil. Esse nó contém estatísticas derivadas sobre a distribuição de valores nos dados. Essas informações poderão ser úteis se você quiser obter um resumo dos dados sem escrever muitas consultas T-SQL. O gráfico de valores de compartimento no tópico anterior foi derivado do nó de estatísticas marginais.

Para obter um resumo dos valores de dados do modelo de mineração

No Designer de Mineração de Dados, na guia Visualizador do Modelo de Mineração, selecione <o nome> do modelo de mineração.
Na lista Visualizador , selecione Visualizador de Árvore de Conteúdo Genérica da Microsoft.

A exibição do modelo de mineração é atualizada para mostrar uma hierarquia de nós no painel esquerdo e uma tabela HTML no painel direito.
No painel Legenda do Nó , clique no nó que tem o nome 1000000000000000000.

O nó na extremidade superior em qualquer modelo sempre é o nó raiz do modelo. Em um modelo de rede neural ou de regressão logística, o nó imediatamente sob esse é o nó de estatísticas marginais.
No painel Detalhes do Nó, role para baixo até encontrar a linha NODE_DISTRIBUTION.
Role para baixo pela tabela NODE_DISTRIBUTION para exibir a distribuição de valores conforme calculados pelo algoritmo de rede neural.

Para usar esses dados em um relatório, selecione e copie as informações para linhas específicas ou use a consulta DMX a seguir para extrair todo o conteúdo do nó.

SELECT *   
FROM [Call Center EQ4].CONTENT  
WHERE NODE_NAME = '10000000000000000'

Também é possível usar a hierarquia de nós e os detalhes na tabela NODE_DISTRIBUTION para desviar caminhos individuais na rede neural e exibir estatísticas da camada oculta. Para obter mais informações, consulte Exemplos de consulta de modelo de rede neural.