Glossário de aprendizado de máquina com termos importantes

A lista a seguir é uma compilação de termos essenciais sobre o aprendizado de máquina, que são úteis ao criar seus modelos personalizados no ML.NET.

Precisão

Na classificação, a precisão consiste no número de itens classificados corretamente dividido pelo número total de itens no conjunto de testes. Varia de 0 (menos preciso) a 1 (mais preciso). A precisão é uma das métricas de avaliação do desempenho do modelo. Considere isso em conjunção com precisão, recalle F-score.

Área sob a curva (AUC)

Na classificação binária, uma métrica de avaliação que é o valor da área sob a curva que plota a taxa de positivos reais (no eixo y) em relação à taxa de falsos positivos (no eixo x). Varia de 0,5 (pior) a 1 (melhor). Também conhecida como a área sob a curva ROC, isto é, a curva característica de operação do receptor. Para obter mais informações, consulte o artigo Característica de operação do receptor na Wikipédia.

Classificação binária

Um caso de classificação, em que o rótulo é apenas uma das duas classes. Para saber mais, confira a seção Classificação binária do tópico Tarefas de aprendizado de máquina.

Calibragem

Calibragem é o processo de mapear uma pontuação bruta em uma associação de classe para classificação binária e multiclasse. Alguns treinadores do ML.NET têm um sufixo NonCalibrated. Esses algoritmos produzem uma pontuação bruta que deve ser mapeada para uma probabilidade de classe.

Catálogo

No ML.NET, um catálogo é uma coleção de funções de extensão agrupadas por um objetivo em comum.

Por exemplo, cada tarefa de aprendizado de máquina (classificação binária, regressão, classificação etc.) tem um catálogo de algoritmos de aprendizado de máquina disponível (treinadores). O catálogo para os treinadores de classificação binária é: BinaryClassificationCatalog.BinaryClassificationTrainers.

classificação

Quando os dados são usados ​​para prever uma categoria, a tarefa de aprendizado de máquina supervisionado é chamada de classificação. Classificação binária refere-se à previsão de apenas duas categorias (por exemplo, classificar uma imagem como uma figura de um "gato" ou um "cachorro"). Classificação multiclasse refere-se à previsão de várias categorias (por exemplo, ao classificar uma imagem como uma imagem de uma raça específica de cão).

Coeficiente de determinação

Na regressão, uma métrica de avaliação que indica como os dados se ajustam a um modelo. Varia de 0 a 1. Um valor de 0 significa que os dados são aleatórios ou não podem ser ajustados ao modelo. Um valor de 1 significa que o modelo corresponde exatamente aos dados. Geralmente denominado como r2, R2, ou r-quadrado.

Dados

Os dados são essenciais para qualquer aplicativo de aprendizado de máquina. No ML.NET, os dados são representados por objetos IDataView. Objetos de exibição de dados:

  • são compostos por colunas e linhas
  • são avaliados lentamente, ou seja, apenas carregam dados quando uma operação exige
  • contém um esquema que define o tipo, o formato e o tamanho de cada coluna

Avaliador

Uma classe em ML.NET que implementa a interface IEstimator<TTransformer>.

Um estimador é uma especificação de uma transformação (transformação de preparação de dados e transformação de treinamento do modelo de machine learning). Estimadores podem ser encadeados em um pipeline de transformações. Os parâmetros de um estimador ou pipeline de estimadores são aprendidos quando Fit é chamado. O resultado de Fit é um Transformador.

Método de extensão

Um método do .NET que faz parte de uma classe, mas é definido fora da classe. O primeiro parâmetro de um método de extensão é uma referência this estática à classe à qual o método de extensão pertence.

Métodos de extensão são usados amplamente no ML.NET para construir instâncias de estimadores.

Recurso

Uma propriedade mensurável do fenômeno que está sendo medido, normalmente um valor numérico (duplo). Vários recursos são referidos como Vetor de recursos e normalmente armazenados como double[]. As características definem as características importantes do fenômeno que está sendo medido. Para obter mais informações, consulte o artigo Recurso na Wikipédia.

Engenharia de recursos

A engenharia de recursos é o processo que envolve a definição de um conjunto de recursos e o desenvolvimento de software que produz vetores de recursos a partir de dados de fenômenos disponíveis, ou seja, a extração de recursos. Para obter mais informações, consulte o artigo Engenharia de recursos na Wikipédia.

F-score

Na classificação, uma métrica de avaliação que equilibra precisão e recall.

Hiperparâmetro

Um parâmetro de um algoritmo de aprendizado de máquina. Os exemplos incluem o número de árvores a serem aprendidas em uma floresta de decisão ou o tamanho da etapa em um algoritmo descendente de gradiente. Os valores de Hiperparâmetros são definidos antes de treinar o modelo e controlar o processo de localização dos parâmetros da função de previsão, por exemplo, os pontos de comparação em uma árvore de decisão ou os pesos em um modelo de regressão linear. Para obter mais informações, consulte o artigo Hiperparâmetro na Wikipédia.

Rótulo

O elemento a ser previsto com o modelo de aprendizado de máquina. Por exemplo, a raça do cão ou um preço futuro da ação.

Perda de log

Na classificação, uma métrica de avaliação que caracteriza a precisão de um classificador. Quanto menor a perda de log, mais preciso é um classificador.

Função de perda

Uma função de perda é a diferença entre os valores de rótulo de treinamento e a previsão feita pelo modelo. Os parâmetros do modelo são estimados minimizando a função de perda.

Treinadores diferentes podem ser configurados com funções de perda diferentes.

Erro de média absoluta (MAE)

Na regressão, uma métrica de avaliação que é a média de todos os erros de modelo, em que erro de modelo consiste na distância entre o valor do rótulo previsto e o valor do rótulo correto.

Modelar

Tradicionalmente, os parâmetros para a função de previsão. Por exemplo, os pesos em um modelo de regressão linear ou os pontos de divisão em uma árvore de decisão. No ML.NET, um modelo contém todas as informações necessárias para prever o rótulo de um objeto de domínio (por exemplo, imagem ou texto). Isso significa que os modelos ML.NET incluem as etapas de personalização necessárias, bem como os parâmetros para a função de previsão.

Classificação multiclasse

Um caso de classificação em que o rótulo é uma entre três ou mais classes. Para saber mais, confira a seção Classificação multiclasse do tópico Tarefas de aprendizado de máquina.

N-grama

Um esquema de extração de recursos para dados de texto: qualquer sequência de N palavras se transforma em um valor de recurso.

Normalização

A normalização é o processo de escala de dados de ponto flutuante para valores entre 0 e 1. Muitos dos algoritmos de treinamento usados no ML.NET exigem que os dados do recurso de entrada sejam normalizados. O ML.NET fornece uma série de transformações para normalização

Vetor de recurso numérico

Um vetor de recurso consistindo apenas em valores numéricos. Similar ao double[].

Pipeline

Todas as operações necessárias para ajustar um modelo a um conjunto de dados. Um pipeline consiste em etapas de importação, transformação, personalização e aprendizado de dados. Uma vez que um pipeline é treinado, ele se torna um modelo.

Precisão

Na classificação, a precisão de uma classe é o número de itens preditos corretamente como pertencentes a essa classe dividido pelo número total de itens previstos como pertencentes à classe.

Recall

Na classificação, o recall de uma classe é o número de itens preditos corretamente como pertencentes a essa classe dividido pelo número total de itens que realmente pertencem à classe.

Regularização

Regularização penaliza um modelo linear por ser complicado demais. Há dois tipos de regularização:

  • A regularização $L_1$ zera pesos para recursos insignificantes. O tamanho do modelo salvo pode ficar menor após esse tipo de regularização.
  • A regularização $L_2$ minimiza o intervalo de peso para recursos insignificantes. Este é um processo mais geral que é menos sensível a exceções.

Regressão

Uma tarefa de aprendizado de máquina supervisionado em que a saída é um valor real, por exemplo, duplo. Exemplos incluem a previsão de preços de ações. Para saber mais, confira a seção Regressão do tópico Tarefas de aprendizado de máquina.

Erro absoluto relativo

Na regressão, uma métrica de avaliação que é a soma de todos os erros absolutos dividida pela soma das distâncias entre os valores de rótulo corretos e a média de todos os valores de rótulo corretos.

Erro quadrático relativo

Na regressão, uma métrica de avaliação que é a soma de todos os erros absolutos quadráticos dividida pela soma das distâncias quadráticas entre os valores de rótulo corretos e a média de todos os valores de rótulo corretos.

Raiz do erro quadrático médio (RMSE)

Na regressão, uma métrica de avaliação que é a raiz quadrada da média dos quadrados dos erros.

Pontuação

A pontuação é o processo de aplicar novos dados a um modelo de machine learning treinado e gerar previsões. A pontuação também é conhecida como inferência. Dependendo do tipo de modelo, a pontuação pode ser um valor bruto, uma probabilidade ou uma categoria.

Aprendizado de máquina supervisionado

Uma subclasse de aprendizado de máquina na qual um modelo desejado prevê o rótulo para dados ainda não vistos. Exemplos incluem a classificação, regressão e previsão estruturada. Para saber mais, confira o artigo Aprendizado supervisionado na Wikipédia.

Treinamento

O processo de identificar um modelo para um determinado conjunto de dados de treinamento. Para um modelo linear, isso significa encontrar os pesos. Para uma árvore, isso envolve a identificação dos pontos de divisão.

Transformador

Uma classe do ML.NET que implemente a interface ITransformer.

Um transformador transforma um IDataView em outro. Um transformador é criado pelo treinamento de um estimador ou um pipeline de estimador.

Aprendizado de máquina não supervisionado

Uma subclasse de aprendizado de máquina na qual um modelo desejado encontra estrutura oculta (ou latente) nos dados. Exemplos incluem clustering, modelagem de tópico e redução de dimensionalidade. Para obter mais informações, consulte o artigo Aprendizado não supervisionado na Wikipédia.