Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
A tradução personalizada permite-lhe criar um sistema de tradução que reflete a terminologia e o estilo específicos do seu negócio, indústria e domínio. Treinar e implantar um sistema personalizado é fácil e não requer nenhuma habilidade de programação. O sistema de tradução personalizado integra-se perfeitamente nas suas aplicações, fluxos de trabalho e Web sites existentes e está disponível no Azure através do mesmo serviço de API de Tradução de Texto da Microsoft baseado na nuvem que alimenta milhares de milhões de traduções todos os dias.
A tradução personalizada permite que você crie um sistema de tradução que realmente capture o idioma exclusivo da sua empresa, a terminologia do setor e o estilo específico do domínio. Com uma interface intuitiva, treinamento, teste e implantação de seu modelo personalizado é simples e não requer experiência em programação. Integre perfeitamente o seu sistema de tradução personalizado nas suas aplicações, fluxos de trabalho e Web sites existentes, tudo com o apoio do serviço Azure AI Translator Text Translation API baseado na nuvem que alimenta milhares de milhões de traduções todos os dias.
A plataforma permite que os usuários criem e publiquem sistemas de tradução personalizados de e para o inglês. O Tradutor Personalizado suporta mais de 100 idiomas que mapeiam diretamente para os idiomas disponíveis para tradução automática neural (NMT). Para obter uma lista completa, consulteSuporte ao idioma do tradutor.
Um modelo de tradução personalizado é a escolha certa para si?
Um modelo de tradução personalizado bem treinado se destaca em fornecer traduções precisas e específicas do domínio, aprendendo com seus documentos de domínio traduzidos anteriormente. Essa abordagem garante que seus termos e frases especializados sejam usados no contexto, produzindo traduções fluentes e naturais que respeitem as nuances gramaticais do idioma de destino.
Lembre-se de que o desenvolvimento de um modelo de tradução personalizado completo requer uma quantidade substancial de dados de treinamento — normalmente pelo menos 10.000 frases paralelas. Se você não tiver dados suficientes para treinar um modelo abrangente, considere criar um modelo somente de dicionário para capturar terminologia essencial ou pode confiar nas traduções prontas para uso de alta qualidade oferecidas pela API de tradução de texto.
Em última análise, se você precisa de traduções que reflitam o idioma específico do seu setor e tem amplos recursos de treinamento, um modelo de tradução personalizado pode ser a escolha ideal para sua organização.
Em que consiste a formação de um modelo de tradução personalizado?
A criação de um modelo de tradução personalizado requer:
Compreender o seu caso de uso.
Obtenção de dados traduzidos no domínio (preferencialmente traduzidos por humanos).
Avaliação da qualidade da tradução ou das traduções na língua de chegada.
Como posso avaliar o meu caso de uso?
Ter clareza sobre seu caso de uso e como é o sucesso é o primeiro passo para obter dados de treinamento proficientes. Aqui estão algumas considerações:
O resultado desejado é especificado e como é medido?
O domínio da sua empresa está identificado?
Você tem frases no domínio de terminologia e estilo semelhantes?
O seu caso de uso envolve vários domínios? Em caso afirmativo, deve criar um ou vários sistemas de tradução?
Você tem requisitos que afetam a residência de dados regionais em repouso e em trânsito?
Os usuários-alvo estão em uma ou várias regiões?
Como devo obter os meus dados?
Encontrar dados de qualidade no domínio é muitas vezes uma tarefa desafiadora que varia com base na classificação do usuário. Aqui estão algumas perguntas que você pode fazer a si mesmo enquanto avalia quais dados estão disponíveis para você:
A sua empresa tem disponíveis dados de tradução anteriores que pode utilizar? As empresas dispõem frequentemente de uma grande quantidade de dados de tradução acumulados ao longo de muitos anos de utilização da tradução humana.
Tem uma vasta quantidade de dados monolingues? Dados monolingues são dados em apenas um idioma. Em caso afirmativo, pode obter traduções para estes dados?
Você pode rastrear portais on-line para coletar frases de origem e sintetizar frases de destino?
O que devo usar para o material de formação?
Fonte | O que faz | Regras a seguir |
---|---|---|
Documentos de formação bilingues | Ensina ao sistema a sua terminologia e estilo. | Seja liberal. Qualquer tradução humana no domínio é melhor do que a tradução automática. Adicione e remova documentos à medida que avança e tente melhorar a pontuação da BLEU. |
Ajustando documentos | Treina os parâmetros da Tradução Automática Neural. | Seja rigoroso. Componha-os para ser perfeitamente representativo do que você vai traduzir no futuro. |
Documentos de teste | Calcule a pontuação BLEU. | Seja rigoroso. Componha documentos de teste para ser perfeitamente representativo do que você planeja traduzir no futuro. |
Dicionário de frases | Força a tradução dada 100% do tempo. | Seja restritivo. Um dicionário de frases diferencia maiúsculas de minúsculas e qualquer palavra ou frase listada é traduzida da maneira que você especificar. Em muitos casos, é melhor não usar um dicionário de frases e deixar o sistema aprender. |
Dicionário de frases | Força a tradução dada 100% do tempo. | Seja rigoroso. Um dicionário de frases não diferencia maiúsculas de minúsculas e é bom para frases curtas de domínio. Para que ocorra uma correspondência de dicionário de frases, toda a frase enviada deve corresponder à entrada do dicionário de origem. Se apenas uma parte da frase corresponder, a entrada não corresponde. |
O que é uma classificação BLEU?
BLEU (Bilingual Evaluation Understudy) é um algoritmo para avaliar a precisão ou exatidão de texto que é traduzido automaticamente de uma língua para outra. A tradução personalizada usa a métrica BLEU como uma forma de transmitir a precisão da tradução.
Uma pontuação BLEU é um número entre zero e 100. Uma pontuação zero indica uma tradução de baixa qualidade em que nada na tradução correspondia à referência. Uma pontuação de 100 indica uma tradução perfeita que é idêntica à referência. Não é necessário atingir uma pontuação de 100 - uma pontuação BLEU entre 40 e 60 indica uma tradução de alta qualidade.
O que acontece se eu não enviar dados de ajuste ou teste?
O ajuste e as frases de teste são perfeitamente representativos do que você planeja traduzir no futuro. Se você não enviar nenhum dado de ajuste ou teste, a tradução personalizada excluirá automaticamente as frases de seus documentos de treinamento para usar como dados de ajuste e teste.
Gerado pelo sistema | Seleção manual |
---|---|
Conveniente. | Permite o ajuste fino para as suas necessidades futuras. |
Bom, se você sabe que seus dados de treinamento são representativos do que você está planejando traduzir. | Fornece mais liberdade para compor seus dados de treinamento. |
Fácil de refazer quando você cresce ou reduz o domínio. | Permite mais dados e melhor cobertura de domínio. |
Muda a cada corrida de treino. | Permanece estático durante repetidas corridas de treinamento |
Como o material de treinamento é processado por tradução personalizada?
Para se preparar para o treinamento, os documentos passam por uma série de etapas de processamento e filtragem. O conhecimento do processo de filtragem pode ajudar a entender a contagem de frases exibida, bem como as etapas que você pode tomar para preparar documentos de treinamento para treinamento com tradução personalizada. As etapas de filtragem são as seguintes:
Alinhamento de frases
Se o documento não estiver no
XLIFF
,XLSX
,TMX
ouALIGN
formato, a tradução personalizada alinha as frases dos documentos de origem e de destino entre si, frase a frase. O Translator não realiza o alinhamento de documentos — ele segue sua convenção de nomenclatura para que os documentos encontrem um documento correspondente no outro idioma. No texto original, a tradução personalizada tenta encontrar a frase correspondente na língua-alvo. Ele usa marcação de documento como tags HTML incorporadas para ajudar com o alinhamento.Se você vir uma grande discrepância entre o número de frases nos documentos de origem e de destino, o documento de origem não poderá ser paralelo ou não poderá ser alinhado. O documento emparelhado com uma grande diferença (>10%) de frases de cada lado justifica uma segunda olhada para se certificar de que elas são realmente paralelas.
Ajustando e testando a extração de dados
O ajuste e o teste de dados são opcionais. Se você não fornecê-lo, o sistema removerá uma porcentagem apropriada de seus documentos de treinamento para usar para ajuste e teste. A remoção acontece dinamicamente como parte do processo de treinamento. Como essa etapa ocorre como parte do treinamento, os documentos carregados não são afetados. Você pode ver as contagens finais de frases usadas para cada categoria de dados — treinamento, ajuste, teste e dicionário — na página Detalhes do modelo após o treinamento ser bem-sucedido.
Filtro de comprimento
- Remove frases com apenas uma palavra de cada lado.
- Remove frases com mais de 100 palavras de cada lado. Chineses, japoneses e coreanos estão isentos.
- Remove frases com menos de três caracteres. Chineses, japoneses e coreanos estão isentos.
- Remove frases com mais de 2.000 caracteres para chinês, japonês e coreano.
- Remove frases com menos de 1% de caracteres alfanuméricos.
- Remove entradas de dicionário contendo mais de 50 palavras.
Espaço em branco
- Substitui qualquer sequência de caracteres de espaço em branco, incluindo tabulações e sequências CR/LF, por um único caractere de espaço.
- Remove o espaço à esquerda ou à direita na frase.
Pontuação final da frase
Substitui vários caracteres de pontuação de fim de frase por uma única instância. Normalização de caracteres japoneses.
Converte letras e dígitos de largura total em caracteres de meia largura.
Tags XML sem escape
Transforma tags sem escape em tags com escape:
Etiqueta Torna-se < e lt; > e GT; e e amp; Caracteres inválidos
A tradução personalizada remove frases que contêm o caractere Unicode U+FFFD. O caráter U+FFFD indica uma conversão de codificação com falha.
Tags HTML inválidas
A tradução personalizada remove tags válidas durante o treinamento. Tags inválidas causam resultados imprevisíveis e devem ser removidas manualmente.
Que passos devo tomar antes de carregar dados?
- Remova frases com codificação inválida.
- Remova os caracteres de controle Unicode.
- Alinhe as frases (da origem ao destino), se possível.
- Remova as frases de origem e de destino que não correspondam aos idiomas de origem e de destino.
- Quando as frases de origem e de destino tiverem idiomas mistos, certifique-se de que as palavras não traduzidas são intencionais, por exemplo, nomes de organizações e produtos.
- Evite erros de ensino ao seu modelo, certificando-se de que a gramática e a tipografia estão corretas.
- Tenha uma frase de origem mapeada para uma frase de destino. Embora nosso processo de treinamento lide com linhas de origem e destino contendo várias frases, o mapeamento um-para-um é uma prática recomendada.
- Remova tags HTML inválidas antes de carregar dados de treinamento.
Como avalio os resultados?
Depois que seu modelo for treinado com sucesso, você poderá visualizar a pontuação BLEU do modelo e a pontuação BLEU do modelo de linha de base na página de detalhes do modelo. Usamos o mesmo conjunto de dados de teste para gerar a pontuação BLEU do modelo e a pontuação BLEU basal. Esses dados ajudam você a tomar uma decisão informada sobre qual modelo seria melhor para o seu caso de uso.