Detetar línguas
Importante
O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.
A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).
- Consulte informações sobre projetos de machine learning em movimento de ML Studio (clássico) para Azure Machine Learning.
- Saiba mais sobre Azure Machine Learning.
A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.
Deteta a linguagem de cada linha no ficheiro de entrada
Categoria: Análise de Texto
Nota
Aplica-se a: Machine Learning Studio (clássico) apenas
Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.
Descrição Geral do Módulo
Este artigo descreve como usar o módulo Deteção de Línguas no Machine Learning Studio (clássico) para analisar a entrada de texto e identificar o idioma associado a cada registo na entrada.
O algoritmo de deteção de linguagem pode identificar muitas línguas diferentes. Basta especificar a coluna de cordas para analisar, e o número total de idiomas para detetar. O algoritmo analisará cada linha de texto e atribuirá uma pontuação de probabilidade para cada idioma. A linguagem na coluna do primeiro resultado é a língua que obteve a pontuação mais alta.
Como configurar línguas de deteção
Adicione o conjunto de dados que contém o texto que pretende analisar para uma experiência no Machine Learning Studio (clássico). A coluna com o texto a analisar deve ser o tipo de dados de cadeia.
O datset não precisa de conter uma coluna de etiquetas; o algoritmo de deteção de linguagem funciona exclusivamente em características linguísticas das línguas suportadas.
Se estiver a importar novos dados, certifique-se de que os seus dados são guardados no formato UTF-8. Outros formatos Unicode não são suportados.
Adicione o módulo De Deteção de Línguas à sua experiência e ligue o conjunto de dados com o texto para deteção de idiomas.
Para a coluna Text, escolha a coluna que pretende analisar.
Para o limite superior do número de idiomas a detetar, indique o número máximo de idiomas a detetar.
Definir um limite superior no número de idiomas pode melhorar o desempenho.
Execute a experimentação.
Resultados
O módulo Deteção de Línguas produz um identificador de linguagem e pontuação para cada linha.
Por exemplo, o quadro seguinte contém uma análise de amostras nos dados de teste.
As duas primeiras colunas col1 e o rótulo linguístico são colunas passadas através do conjunto de dados de entrada. Neste exemplo, como o conjunto de dados de entrada foi concebido para testar o módulo, o idioma esperado já era conhecido, e é fornecido na coluna do rótulo.
As colunas restantes são geradas pelo módulo Deteção de Línguas . Se houver correspondências linguísticas equi-prováveis, várias línguas podem ser listadas, com uma pontuação para cada. Neste caso, o módulo prevê apenas uma língua para cada linha, juntamente com a pontuação de probabilidade para esse idioma.
Se o módulo não detetar qualquer idioma com uma pontuação suficientemente alta, o resultado de (Desconhecido) com uma pontuação de 0 é a saída. No entanto, os idiomas suportados pelo módulo podem mudar ao longo do tempo à medida que a API é atualizada.
Col1 | Rótulo de idioma | Língua Col1 | Língua Col1 Iso6391 | Pontuação linguística Col1 Iso6391 |
---|---|---|---|---|
Era um hotel maravilhoso com uma equipe amigável e bom serviço | Inglês | Em inglês | en | 100 |
Es war ein wunderbares Hotel mit freundlichem Serviço pessoal und guter | Alemão | Alemão | de | 100 |
C'est un magnifique hôtel avec un staff sympathique et un service de qualité | Francês | Francês | fr | 100 |
Det var et dejligt hotel med et venligt personale og god service | Dinamarquês | Dinamarquês | nl | 100 |
Va ser un magnífic hotel amb un pessoal amable i bon servei | Catalão | Catalão | ca | 92.30769348 |
とても素敵なホテルで、スタッフは親切で、サービスもよかった | Japonês | (Desconhecido) | 0 | |
qu mebpa'mey naQ amigável QaQ chavmoH je | Klingon | Francês | fr | 77.5 |
Exemplos
Por exemplo, como o módulo De Deteção de Línguas é utilizado numa experiência, consulte a Galeria Azure AI:
- Filtrar títulos de filme por idioma: Deteta a linguagem utilizada em nomes de filmes e, em seguida, usa o identificador de idioma para dividir o conjunto de dados em filmes em inglês vs não inglês.
Notas técnicas
Para uma ideia geral das línguas que potencialmente podem ser detetadas, consulte Bing Tradutor.
Muitas mais línguas podem ser detetadas do que Machine Learning suporta atualmente para análise de texto avançado. Recomendamos que utilize os resultados de Deteção de Idiomas para filtrar os resultados que envia para outros módulos que requerem processamento específico da linguagem.
Os serviços linguísticos subjacentes também são utilizados pelo serviço text analytics nos Serviços Cognitivos Azure.
Entradas esperadas
Nome | Tipo | Description |
---|---|---|
Conjunto de dados | Tabela de Dados | A entrada |
Parâmetros do módulo
Nome | Tipo | Intervalo | Opcional | Predefinição | Description |
---|---|---|---|---|---|
Limite superior no número de línguas para detetar | Número inteiro | [1;184] | Necessário | 1 | Limite superior em número de línguas para detetar. |
Coluna de texto | Seleção de Colunas | Necessário | Nome ou índice de coluna de texto com base. |
Saídas
Nome | Tipo | Description |
---|---|---|
Conjunto de dados de resultados | Tabela de Dados | O resultado |
Exceções
Exceção | Description |
---|---|
Erro 0003 | A exceção ocorre se uma ou mais entradas forem nulas ou vazias. |
Erro 0010 | A exceção ocorre se os conjuntos de dados de entrada tiverem nomes de colunas que devem coincidir, mas não. |
Erro 0016 | A exceção ocorre se os conjuntos de dados de entrada passados para o módulo devem ter tipos de coluna compatíveis, mas não o fazem. |
Erro 0008 | A exceção ocorre se o parâmetro não estiver ao alcance. |
Para obter uma lista de erros específicos dos módulos Studio (clássicos), consulte Machine Learning Códigos de Erro.
Para obter uma lista de exceções da API, consulte Machine Learning CÓDIGOs de Erro da API REST.