Práticas recomendadas para codificação de mensagens

Muitas aplicações na nuvem utilizam mensagens assíncronas para trocar informações entre componentes do sistema. Um aspeto importante das mensagens é o formato usado para codificar os dados de carga útil. Depois de escolher uma tecnologia de mensagens, a próxima etapa é definir como as mensagens são codificadas. Existem muitas opções disponíveis, mas a escolha certa depende do seu caso de uso.

Este artigo descreve algumas das considerações.

Necessidades de troca de mensagens

Uma troca de mensagens entre um produtor e um consumidor necessita:

Uma forma ou estrutura que define a carga útil da mensagem.
Um formato de codificação para representar a carga útil.
Bibliotecas de serialização para ler e gravar a carga codificada.

O produtor da mensagem define a forma da mensagem com base na lógica de negócios e nas informações que deseja enviar aos consumidores. Para estruturar a forma, divida as informações em assuntos (ou campos) discretos ou relacionados. Decida as características dos valores para esses campos. Considere as seguintes perguntas.

Qual é o tipo de dados mais eficiente?
A carga útil tem sempre campos específicos?
A carga útil tem um único registo ou um conjunto repetido de valores?

Em seguida, escolha um formato de codificação dependendo das suas necessidades. Fatores específicos incluem a capacidade de criar dados altamente estruturados, se necessário, o tempo necessário para codificar e transferir a mensagem e a capacidade de analisar a carga útil. Em seguida, escolha um formato de codificação que atenda às suas necessidades.

O consumidor deve compreender essas decisões para ler corretamente as mensagens recebidas.

Para transferir mensagens, o produtor serializa a mensagem para um formato de codificação. Na extremidade recetora, o consumidor desserializa a carga para acessar os dados. Este processo garante que ambas as entidades partilham o mesmo modelo. Enquanto a forma permanecer inalterada, as mensagens continuam sem problemas. Quando o contrato é alterado, o formato de codificação deve ser capaz de lidar com a alteração sem perturbar o consumidor.

Alguns formatos de codificação, como JSON, são autodescritos, o que significa que eles podem ser analisados sem fazer referência a um esquema. No entanto, esses formatos geralmente produzem mensagens maiores. Outros formatos podem não analisar dados tão facilmente, mas resultam em mensagens mais compactas. Este artigo descreve os principais fatores para ajudá-lo a escolher o formato certo.

Considerações sobre o formato de codificação

O formato de codificação define como um conjunto de dados estruturados é representado como bytes. O tipo de mensagem pode influenciar a escolha do formato. As mensagens relacionadas a transações comerciais provavelmente contêm dados altamente estruturados. Além disso, convém recuperar os dados estruturados posteriormente para fins de auditoria. Para um fluxo de eventos, convém ler uma sequência de registros o mais rápido possível e armazená-la para análise estatística.

Considere os seguintes fatores ao escolher um formato de codificação.

Legibilidade humana

A codificação de mensagens pode ser amplamente dividida em formatos binários e baseados em texto.

Com a codificação baseada em texto, a carga útil da mensagem é em texto simples, para que uma pessoa possa inspecioná-la sem usar bibliotecas de código. Essa abordagem torna os dados mais fáceis de ler e entender. Formatos legíveis por humanos são adequados para dados de arquivo. Como um ser humano pode ler a carga útil, os formatos baseados em texto são mais fáceis de depurar e enviar para logs para solução de erros.

A desvantagem da codificação baseada em texto é que a carga útil tende a ser maior. O tamanho da carga útil pode muitas vezes ser reduzido através de um processo de minificação, desde que possa ser revertido para legibilidade humana quando necessário. Os formatos comuns baseados em texto são JSON e YAML.

Encriptação

Se houver dados confidenciais nas mensagens, considere se essas mensagens devem ser criptografadas em sua totalidade. Como alternativa, se apenas campos específicos precisarem ser criptografados e você preferir reduzir os custos da nuvem, considere usar uma biblioteca como o NServiceBus.

Tamanho da codificação

O tamanho da mensagem afeta o desempenho de entrada/saída da rede através do fio. Os formatos binários são mais compactos do que os formatos baseados em texto. Os formatos binários requerem bibliotecas de serialização e desserialização. A carga só pode ser lida quando é descodificada.

Use um formato binário se quiser reduzir a pegada do fio e transferir mensagens mais rapidamente. Essa categoria de formato é recomendada em cenários em que o armazenamento ou a largura de banda da rede são motivo de preocupação. As opções para formatos binários incluem Apache Avro, Google Protocol Buffers (protobuf), MessagePack e Concise Binary Object Representation (CBOR). Os prós e contras desses formatos são descritos posteriormente em Opções para formatos de codificação.

A desvantagem do formato binário é que a carga útil não é legível por humanos. A maioria dos formatos binários usa sistemas complexos que podem ser caros de manter. Além disso, eles precisam de bibliotecas especializadas para decodificar, o que pode não ser suportado se você quiser recuperar dados de arquivamento.

Para formatos não binários, um processo de minificação remove espaços e caracteres desnecessários, preservando a conformidade com a especificação do formato. Essa abordagem ajuda a reduzir o tamanho da codificação sem alterar a estrutura. Avalie os recursos do codificador para tornar a minificação o padrão. Por exemplo, o JsonSerializerOptions.WriteIndented do .NET controla a minificação automática ao criar texto JSON.

Compreender a carga útil

Uma carga útil de mensagem chega como uma sequência de bytes. Para analisar essa sequência, o consumidor deve ter acesso a metadados que descrevem os campos de dados na carga útil. As duas principais abordagens para armazenar e distribuir metadados são:

Metadados marcados. Em alguns formatos de codificação, nomeadamente JSON, os campos são marcados com o tipo de dados e o identificador, dentro do corpo da mensagem. Esses formatos são autodescritivos porque podem ser analisados em um dicionário de valores sem se referir a um esquema. Uma forma de o consumidor entender os campos é consultar os valores esperados. Por exemplo, o produtor envia uma carga útil em JSON. O consumidor analisa o JSON em um dicionário e verifica a existência de campos para entender a carga útil. Outra forma é o consumidor aplicar um modelo de dados que o produtor compartilha. Por exemplo, se você usar uma linguagem tipada estaticamente, muitas bibliotecas de serialização JSON poderão analisar uma cadeia de caracteres JSON em uma classe digitada.

Esquema. Um esquema define formalmente a estrutura e os campos de dados de uma mensagem. Neste modelo, produtor e consumidor têm um contrato através de um esquema bem definido. O esquema pode definir os tipos de dados, campos obrigatórios ou opcionais, informações de versão e a estrutura da carga útil. O produtor envia a carga de acordo com o esquema do gravador. O consumidor recebe o conteúdo aplicando um esquema de leitura. A mensagem é serializada e desserializada usando as bibliotecas específicas de codificação. Os esquemas podem ser distribuídos de duas maneiras:

Armazene o esquema como um preâmbulo ou cabeçalho na mensagem, mas separadamente da carga útil.
Armazene o esquema externamente.

Alguns formatos de codificação definem o esquema e usam ferramentas que geram classes a partir do esquema. O produtor e o consumidor usam essas classes e bibliotecas para serializar e desserializar a carga útil. As bibliotecas também fornecem verificações de compatibilidade entre o esquema de escrita e de leitura. Tanto o protobuf quanto o Apache Avro seguem essa abordagem. A principal diferença é que o protobuf tem uma definição de esquema agnóstica de linguagem e o Avro usa JSON compacto. Outra diferença está na forma como os formatos fornecem verificações de compatibilidade entre os esquemas do leitor e do escritor.

Outra maneira de armazenar o esquema externamente é em um registro de esquema. A mensagem contém uma referência ao esquema e à carga útil. O produtor envia o identificador de esquema na mensagem. O consumidor recupera o esquema especificando esse identificador de um armazenamento externo. Ambas as partes usam uma biblioteca específica de formato para ler e escrever mensagens. Além de armazenar o esquema, um registro pode fornecer verificações de compatibilidade para garantir que o contrato entre o produtor e o consumidor não seja quebrado à medida que o esquema evolui.

Antes de escolher uma abordagem, decida se o tamanho dos dados de transferência ou a capacidade de analisar os dados arquivados posteriormente é mais importante.

Armazenar o esquema junto com a carga útil produz um tamanho de codificação maior e é ideal para mensagens intermitentes. Escolha essa abordagem se a transferência de blocos menores de bytes for crucial ou se você esperar uma sequência de registros. O custo para manter um armazenamento de esquema externo pode ser alto.

No entanto, se a decodificação sob demanda da carga útil for mais importante do que o tamanho, incluir o esquema com a carga útil ou a abordagem de metadados marcados garante a decodificação posteriormente. Pode haver um aumento significativo no tamanho da mensagem que afeta o custo de armazenamento.

Controle de versão do esquema

À medida que os requisitos de negócios mudam, espera-se que a forma mude e o esquema evolua. O controle de versão permite que o produtor indique atualizações de esquema que podem incluir novos recursos. O controle de versão tem dois aspetos principais:

O consumidor deve acompanhar e entender as mudanças.

Uma maneira é o consumidor verificar se o esquema foi alterado, verificando todos os campos. Outra maneira é o produtor publicar um número de versão do esquema com a mensagem. Quando o esquema evolui, o produtor incrementa a versão.
As alterações não devem afetar nem quebrar a lógica empresarial dos consumidores.

Suponha que um campo seja adicionado a um esquema existente. Se os consumidores que usam a nova versão recebem uma carga útil de acordo com a versão antiga, sua lógica pode quebrar se eles não puderem ignorar a falta do novo campo. Agora, considere o cenário oposto. Se um campo for removido no novo esquema, os consumidores que usam o esquema antigo talvez não consigam ler os dados.

Formatos de codificação como Avro fornecem a capacidade de definir valores padrão. No exemplo anterior, se o campo for adicionado com um valor padrão, o campo ausente será preenchido com o valor padrão. Outros formatos como protobuf fornecem funcionalidade semelhante através de campos obrigatórios e opcionais.

Estrutura da carga útil

Considere se os dados na carga útil estão estruturados como uma sequência de registos ou como uma única carga útil discreta. A estrutura de carga útil pode ser categorizada em um dos seguintes modelos:

Matriz/dicionário/valor: Define entradas que contêm valores em matrizes unidimensionais ou multidimensionais. As entradas têm pares chave/valor exclusivos. O modelo pode ser estendido para representar estruturas complexas. Alguns exemplos incluem JSON, Apache Avro e MessagePack.

Esse layout é adequado se as mensagens forem codificadas individualmente com esquemas diferentes. Se você tiver vários registros, a carga útil pode ficar excessivamente redundante. Essa redundância pode causar o inchaço da carga útil.
Dados tabulares: As informações são divididas em linhas e colunas. Cada coluna indica um campo ou o assunto das informações, e cada linha contém valores para esses campos. Esse layout é eficiente para um conjunto repetitivo de informações, como dados de séries temporais.

Comma-Separated Values (CSV) é um formato básico baseado em texto. Apresenta os dados como uma sequência de registos com um cabeçalho comum. Para codificação binária, o Apache Avro tem um preâmbulo semelhante a um cabeçalho CSV, mas que gera um tamanho de codificação mais compacto.

Apoio à biblioteca

Você deve usar formatos bem conhecidos em vez de um modelo proprietário. Formatos bem conhecidos são suportados através de bibliotecas que a comunidade apoia universalmente. Com formatos especializados, você precisa de bibliotecas específicas. Sua lógica de negócios pode ter que contornar algumas das opções de design de API fornecidas pelas bibliotecas.

Para um formato baseado em esquema, escolha uma biblioteca de codificação que faça verificações de compatibilidade entre o esquema do leitor e do gravador. Bibliotecas de codificação específicas, como o Apache Avro, esperam que o consumidor especifique o esquema do gravador e do leitor antes de desserializar a mensagem. Essa verificação garante que o consumidor esteja ciente das versões do esquema.

Interoperabilidade

A sua escolha de formatos pode depender da carga de trabalho específica ou do ecossistema tecnológico.

Por exemplo:

O Azure Stream Analytics tem suporte nativo para JSON, CSV e Avro. Quando sua carga de trabalho usa o Stream Analytics, faz sentido escolher um desses formatos.
JSON é um formato de intercâmbio padrão para APIs HTTP REST. Se seu aplicativo recebe cargas JSON de clientes e, em seguida, as coloca em uma fila de mensagens para processamento assíncrono, talvez faça sentido usar JSON para as mensagens em vez de recodificar em um formato diferente.

Estes são apenas dois exemplos de considerações em matéria de interoperabilidade. Os formatos padronizados são geralmente mais interoperáveis do que os formatos personalizados. Nas opções baseadas em texto, o JSON é um dos mais interoperáveis.

Opções para formatos de codificação

Os seguintes formatos de codificação populares são usados para representação e transmissão de dados. Considere as considerações antes de escolher um formato.

JSON

JSON é um padrão aberto, com seu formato definido pela Internet Engineering Task Force (IETF) no RFC 8259. JSON é um formato baseado em texto que segue o modelo de matriz/dicionário/valor.

JSON pode ser usado para marcar metadados, e você pode analisar a carga útil sem um esquema. JSON suporta a opção de especificar campos opcionais, o que ajuda com a compatibilidade direta e retroativa.

A maior vantagem é que está universalmente disponível. JSON é o formato de codificação mais interoperável e o padrão para muitos serviços de mensagens.

Como o JSON é um formato baseado em texto, ele não é eficiente sobre o fio e não é ideal quando o armazenamento é uma preocupação. Use técnicas de minificação sempre que possível. Se você retornar itens armazenados em cache diretamente para um cliente via HTTP, armazenar JSON pode economizar o custo de desserialização de outro formato e, em seguida, serialização para JSON.

Use JSON para mensagens de registro único ou para uma sequência de mensagens em que cada mensagem tem um esquema diferente. Evite usar JSON para uma sequência de registros, como para dados de séries temporais.

Existem outras variações de JSON, como JSON binário (BSON). BSON é uma codificação binária alinhada para trabalhar com o MongoDB.

CSV

CSV é um formato tabular baseado em texto. O cabeçalho da tabela indica os campos. O CSV é adequado para mensagens que contêm um conjunto de registros.

A desvantagem do CSV é a falta de padronização. Há várias maneiras de expressar separadores, cabeçalhos e campos vazios.

Buffers de protocolo

Protocol Buffers (ou protobuf) é um formato de serialização que usa arquivos de definição fortemente tipados para definir esquemas em pares chave/valor. Esses arquivos de definição são então compilados para classes específicas do idioma que são usadas para serializar e desserializar mensagens.

A mensagem contém uma pequena carga binária comprimida, o que resulta numa transferência de dados mais rápida. A desvantagem é que a carga útil não é legível por humanos. Além disso, como o esquema é armazenado externamente, esse formato não é ideal para cenários que exigem a recuperação de dados arquivados.

Apache Avro

Apache Avro é um formato de serialização binário que usa um arquivo de definição semelhante ao protobuf, mas sem uma etapa de compilação. Em vez disso, os dados serializados sempre incluem um preâmbulo de esquema.

O preâmbulo pode conter o cabeçalho ou um identificador de esquema. Devido ao seu tamanho de codificação menor, o Avro é recomendado para streaming de dados. Além disso, como ele tem um cabeçalho que se aplica a um conjunto de registros, ele é adequado para dados tabulares.

Apache Parquet

Apache Parquet é um formato de arquivo de armazenamento colunar normalmente associado ao Apache Hadoop e estruturas de processamento de dados relacionadas.

O Apache Parquet suporta compactação de dados e tem recursos limitados para a evolução do esquema. Esse formato geralmente é usado quando outras tecnologias de big data em sua carga de trabalho o exigem para criação ou consumo de dados.

Pacote de mensagens

O MessagePack é um formato de serialização binário projetado para ser compacto para transmissão por fio. O MessagePack não tem definição de esquema e verificação de tipo. Este formato não é recomendado para armazenamento em massa.

CBOR

CBOR (Especificação) é um formato binário que fornece um tamanho de codificação pequeno. A vantagem de usar CBOR sobre MessagePack é a sua conformidade com IETF em RFC7049.

Próximos passos

Comentários

Esta página foi útil?

Last updated on 2025-06-21