Najlepsze rozwiązania dotyczące kodowania komunikatów

Wiele aplikacji w chmurze używa komunikatów asynchronicznych do wymiany informacji między składnikami systemu. Ważnym aspektem obsługi komunikatów jest format używany do kodowania danych ładunku. Po wybraniu technologii obsługi komunikatów następnym krokiem jest zdefiniowanie sposobu kodowania komunikatów. Dostępnych jest wiele opcji, ale odpowiedni wybór zależy od przypadku użycia.

W tym artykule opisano niektóre zagadnienia.

Wymagania dotyczące wymiany komunikatów

Wymiana komunikatów między producentem a konsumentem wymaga:

Kształt lub struktura definiująca ładunek komunikatu.
Format kodowania reprezentujący ładunek.
Biblioteki serializacji do odczytu i zapisu zakodowanego ładunku.

Producent komunikatu definiuje kształt komunikatu na podstawie logiki biznesowej i informacji, które chce wysyłać do odbiorców. Aby określić strukturę kształtu, podziel informacje na odrębne lub powiązane tematy (lub pola). Zdecyduj, jakie są cechy wartości dla tych pól. Weź pod uwagę następujące pytania.

Jaki jest najbardziej wydajny typ danych?
Czy ładunek zawsze ma określone pola?
Czy ładunek ma jeden rekord lub wielokrotny zestaw wartości?

Następnie wybierz format kodowania w zależności od potrzeb. Konkretne czynniki obejmują możliwość tworzenia wysoce ustrukturyzowanych danych, jeśli są one potrzebne, czas potrzebny na kodowanie i przesyłanie komunikatu oraz możliwość analizowania ładunku. Następnie wybierz format kodowania, który spełnia Twoje potrzeby.

Użytkownik musi zrozumieć te decyzje, aby prawidłowo odczytywać komunikaty przychodzące.

Aby przenieść komunikaty, producent serializuje komunikat do formatu kodowania. Na końcu konsument deserializuje ładunek, aby uzyskać dostęp do danych. Ten proces gwarantuje, że obie jednostki współdzielą ten sam model. Tak długo, jak kształt pozostaje niezmieniony, obsługa komunikatów będzie kontynuowana bez żadnych problemów. Po zmianie kontraktu format kodowania powinien być w stanie obsługiwać zmianę, nie zakłócając działania konsumenta.

Niektóre formaty kodowania, takie jak JSON, opisują się samodzielnie, co oznacza, że można je analizować bez odwoływania się do schematu. Jednak te formaty często generują większe komunikaty. Inne formaty mogą nie być tak łatwe do analizowania danych, ale powodują one bardziej kompaktowe komunikaty. W tym artykule opisano kluczowe czynniki ułatwiające wybór odpowiedniego formatu.

Zagadnienia dotyczące formatu kodowania

Format kodowania definiuje sposób, w jaki zestaw danych strukturalnych jest reprezentowany jako bajty. Typ komunikatu może mieć wpływ na wybór formatu. Komunikaty związane z transakcjami biznesowymi najprawdopodobniej zawierają wysoce ustrukturyzowane dane. Ponadto możesz później pobrać dane ustrukturyzowane do celów inspekcji. W przypadku strumienia zdarzeń możesz chcieć odczytać sekwencję rekordów tak szybko, jak to możliwe i zapisać je do analizy statystycznej.

Podczas wybierania formatu kodowania należy wziąć pod uwagę następujące czynniki.

Czytelność człowieka

Kodowanie komunikatów może być szeroko podzielone na formaty tekstowe i binarne.

W przypadku kodowania opartego na tekście ładunek komunikatu jest w postaci zwykłego tekstu, więc osoba może ją sprawdzić bez używania bibliotek kodu. Takie podejście ułatwia odczytywanie i zrozumienie danych. Formaty czytelne dla człowieka są odpowiednie dla danych archiwalnych. Ponieważ człowiek może odczytać ładunek, formaty oparte na tekście są łatwiejsze do debugowania i wysyłania do dzienników w celu rozwiązywania problemów z błędami.

Wadą kodowania opartego na tekście jest to, że ładunek jest zwykle większy. Rozmiar ładunku można często zmniejszyć za pomocą procesu minyfikacji, o ile w razie potrzeby można go odwrócić pod kątem czytelności ludzkiej. Typowe formaty tekstowe to JSON i YAML.

Szyfrowanie

Jeśli w komunikatach znajdują się poufne dane, zastanów się, czy te komunikaty powinny być szyfrowane w całości. Alternatywnie, jeśli tylko określone pola muszą być szyfrowane i chcesz zmniejszyć koszty chmury, rozważ użycie biblioteki, takiej jak NServiceBus.

Rozmiar kodowania

Rozmiar komunikatu wpływa na wydajność wejścia/wyjścia sieci po kablu. Formaty binarne są bardziej kompaktowe niż formaty tekstowe. Formaty binarne wymagają serializacji i deserializacji bibliotek. Ładunek można odczytać tylko wtedy, gdy jest dekodowany.

Użyj formatu binarnego, jeśli chcesz szybciej zmniejszyć zużycie przewodu i przesyłać komunikaty. Ta kategoria formatu jest zalecana w scenariuszach, w których problemem jest przepustowość magazynu lub sieci. Opcje formatów binarnych obejmują Apache Avro, Google Protocol Buffers (protobuf), MessagePack i Concise Binary Object Representation (CBOR). Zalety i wady tych formatów opisano w dalszej części w obszarze Choices for encoding formats (Opcje kodowania).

Wadą formatu binarnego jest to, że ładunek nie jest czytelny dla człowieka. Większość formatów binarnych używa złożonych systemów, które mogą być kosztowne do utrzymania. Ponadto potrzebują wyspecjalizowanych bibliotek do dekodowania, co może nie być obsługiwane, jeśli chcesz pobrać dane archiwalne.

W przypadku formatów niebinarnych proces minyfikacji usuwa niepotrzebne spacje i znaki, zachowując zgodność ze specyfikacją formatu. Takie podejście pomaga zmniejszyć rozmiar kodowania bez zmiany struktury. Oceń możliwości swojego kodera, aby uczynić minifikację procesem domyślnym. Na przykład JsonSerializerOptions.WriteIndented z platformy .NET System.Text.Json.JsonSerializer kontroluje automatyczną minifikację podczas tworzenia tekstu JSON.

Opis ładunku

Ładunek komunikatu jest dostarczany jako sekwencja bajtów. Aby przeanalizować tę sekwencję, użytkownik musi mieć dostęp do metadanych opisujących pola danych w ładunku. Dwa główne podejścia do przechowywania i rozpowszechniania metadanych to:

Oznakowane metadane. W niektórych formatach kodowania, zwłaszcza w formacie JSON, pola są oznaczone typem danych i identyfikatorem w treści komunikatu. Te formaty są samoopisujące, ponieważ można je przeanalizować w słowniku wartości bez odwoływania się do schematu. Jednym ze sposobów zrozumienia pól przez konsumenta jest wykonywanie zapytań o oczekiwane wartości. Na przykład producent wysyła ładunek w formacie JSON. Odbiorca analizuje dane JSON w słowniku i sprawdza istnienie pól, aby zrozumieć ładunek. Innym sposobem jest zastosowanie przez konsumenta modelu danych, który dzieli producent. Jeśli na przykład używasz statycznie typizowanego języka, wiele bibliotek serializacji JSON może przeanalizować ciąg JSON w klasie typizowanej.

Schemat. Schemat formalnie definiuje strukturę i pola danych komunikatu. W tym modelu producent i konsument mają umowę za pomocą dobrze zdefiniowanego schematu. Schemat może definiować typy danych, wymagane lub opcjonalne pola, informacje o wersji i strukturę ładunku. Producent wysyła ładunek zgodnie ze schematem zapisu. Odbiorca odbiera ładunek, stosując schemat czytnika. Komunikat jest serializowany i deserializowany przy użyciu bibliotek specyficznych dla kodowania. Schematy można dystrybuować na dwa sposoby:

Zapisz schemat jako preambuł lub nagłówek w komunikacie, ale oddzielnie od ładunku.
Przechowuj schemat zewnętrznie.

Niektóre formaty kodowania definiują schemat i używają narzędzi, które generują klasy na podstawie schematu. Producent i konsument używają tych klas i bibliotek do serializacji i deserializacji ładunku. Biblioteki zapewniają również kontrole zgodności między schematem zapisu a schematem odczytu. Zarówno protobuf, jak i Apache Avro są zgodne z tym podejściem. Kluczową różnicą jest to, że protobuf ma niezależną od języka definicję schematu, a Avro używa kompaktowego kodu JSON. Inną różnicą jest sposób, w jaki oba formaty zapewniają sprawdzanie zgodności między schematami odczytującym a zapisującym.

Innym sposobem przechowywania schematu zewnętrznie jest rejestr schematów. Komunikat zawiera odwołanie do schematu i ładunku. Producent wysyła identyfikator schematu w komunikacie. Użytkownik pobiera schemat, określając ten identyfikator z magazynu zewnętrznego. Obie strony używają biblioteki specyficznej dla formatu do odczytywania i zapisywania wiadomości. Oprócz przechowywania schematu rejestr może zapewnić kontrolę zgodności, aby upewnić się, że umowa między producentem a konsumentem nie zostanie przerwana w miarę rozwoju schematu.

Przed wybraniem podejścia zdecyduj, czy rozmiar danych transferu, czy możliwość analizowania zarchiwizowanych danych później jest ważniejsza.

Przechowywanie schematu wraz z ładunkiem powoduje wygenerowanie większego rozmiaru kodowania i jest idealne dla sporadycznych komunikatów. Wybierz to podejście, jeśli przenoszenie mniejszych fragmentów bajtów ma kluczowe znaczenie lub oczekujesz sekwencji rekordów. Koszt utrzymania zewnętrznego magazynu schematów może być wysoki.

Jeśli jednak dekodowanie ładunku na żądanie jest ważniejsze niż jego rozmiar, dołączenie schematu do ładunku lub podejście oparte na oznakowanych metadanych gwarantuje późniejsze dekodowanie. Może wystąpić znaczny wzrost rozmiaru komunikatów, który wpływa na koszt magazynu.

Wersjonowanie schematu

W miarę zmiany wymagań biznesowych oczekuje się, że kształt zmieni się, a schemat ewoluuje. Przechowywanie wersji umożliwia producentowi wskazanie aktualizacji schematu, które mogą obejmować nowe funkcje. Przechowywanie wersji ma dwa kluczowe aspekty:

Użytkownik powinien śledzić i rozumieć zmiany.

Jednym ze sposobów jest sprawdzenie wszystkich pól przez odbiorcę w celu określenia, czy schemat został zmieniony. Innym sposobem jest opublikowanie przez producenta numeru wersji schematu z komunikatem. Gdy schemat ewoluuje, producent zwiększa wersję.
Zmiany nie mogą wpływać na logikę biznesową konsumentów ani jej naruszać.

Załóżmy, że pole zostało dodane do istniejącego schematu. Jeśli użytkownicy korzystający z nowej wersji otrzymają ładunek według starej wersji, ich logika może zawieść, jeśli nie potrafią przeoczyć braku nowego pola. Teraz rozważmy przeciwny scenariusz. Jeśli pole zostanie usunięte w nowym schemacie, użytkownicy korzystający ze starego schematu mogą nie być w stanie odczytać danych.

Formaty kodowania, takie jak Avro, zapewniają możliwość definiowania wartości domyślnych. W poprzednim przykładzie, jeśli pole zostanie dodane z wartością domyślną, brakujące pole zostanie wypełnione wartością domyślną. Inne formaty, takie jak protobuf, zapewniają podobne funkcje za pośrednictwem wymaganych i opcjonalnych pól.

Struktura ładunku

Zastanów się, czy dane w ładunku są ustrukturyzowane jako sekwencja rekordów, czy jako pojedynczy dyskretny ładunek. Struktura ładunku można podzielić na jeden z następujących modeli:

Tablica/słownik/wartość: Definiuje wpisy, które przechowują wartości w jednej lub wielowymiarowej tablicy. Wpisy mają unikatowe pary klucz/wartość. Model można rozszerzyć w celu reprezentowania złożonych struktur. Niektóre przykłady obejmują pliki JSON, Apache Avro i MessagePack.

Ten układ jest odpowiedni, jeśli komunikaty są indywidualnie kodowane przy użyciu różnych schematów. Jeśli masz wiele rekordów, ładunek może być zbyt zbędny. Ta nadmiarowość może spowodować przeładowanie ładunku.
Dane tabelaryczne: Informacje są podzielone na wiersze i kolumny. Każda kolumna wskazuje pole lub temat informacji, a każdy wiersz zawiera wartości dla tych pól. Ten układ jest wydajny w przypadku powtarzającego się zestawu informacji, takich jak dane szeregów czasowych.

Comma-Separated Values (CSV) to podstawowy format tekstowy. Przedstawia dane jako sekwencję rekordów ze wspólnym nagłówkiem. W przypadku kodowania binarnego apache Avro ma preambułę podobną do nagłówka CSV, ale generuje bardziej kompaktowy rozmiar kodowania.

Obsługa bibliotek

Należy używać dobrze znanych formatów zamiast zastrzeżonego modelu. Dobrze znane formaty są obsługiwane przez biblioteki, które są powszechnie wspierane przez społeczność. W przypadku wyspecjalizowanych formatów potrzebne są określone biblioteki. Logika biznesowa może potrzebować obejścia niektórych opcji projektowania interfejsu API udostępnianych przez biblioteki.

W przypadku formatu opartego na schemacie wybierz bibliotekę kodowania, która umożliwia sprawdzanie zgodności między schematem czytnika i modułu zapisywania. Określone biblioteki kodowania, takie jak Apache Avro, oczekują, że odbiorca określi zarówno schemat zapisu, jak i schemat odczytu przed deserializacją komunikatu. Ta kontrola zapewnia, że odbiorca zna wersje schematu.

Współdziałanie

Wybór formatów może zależeć od konkretnego obciążenia lub ekosystemu technologii.

Na przykład:

Usługa Azure Stream Analytics ma natywną obsługę plików JSON, CSV i Avro. Gdy obciążenie korzysta z usługi Stream Analytics, warto wybrać jeden z tych formatów.
JSON to standardowy format wymiany dla interfejsów API REST PROTOKOŁU HTTP. Jeśli aplikacja odbiera ładunki JSON od klientów, a następnie umieszcza je w kolejce komunikatów na potrzeby przetwarzania asynchronicznego, warto użyć formatu JSON do obsługi komunikatów zamiast ponownego kodowania w innym formacie.

Są to tylko dwa przykłady zagadnień dotyczących współdziałania. Formaty ustandaryzowane są zazwyczaj bardziej współdziałalne niż formaty niestandardowe. W opcjach opartych na tekście kod JSON jest jednym z najbardziej współdziałalnych.

Opcje formatów kodowania

Następujące popularne formaty kodowania są używane do reprezentacji i transmisji danych. Przed wybraniem formatu należy uwzględnić zagadnienia.

JSON

JSON to otwarty standard, który ma format zdefiniowany przez Internet Engineering Task Force (IETF) w dokumencie RFC 8259. JSON jest formatem tekstowym zgodnym z modelem tablicy/słownika/wartości.

Kod JSON może służyć do tagowania metadanych i można przeanalizować ładunek bez schematu. JSON obsługuje opcję określania pól opcjonalnych, które ułatwiają zgodność zarówno z przyszłymi, jak i z poprzednimi wersjami.

Największą zaletą jest to, że jest powszechnie dostępny. Kod JSON jest najbardziej współdziałającym formatem kodowania i domyślnym formatem dla wielu usług obsługi komunikatów.

Ponieważ format JSON jest formatem tekstowym, nie jest wydajny w przesyłaniu danych i nie jest idealny, gdy przechowywanie jest problemem. W miarę możliwości używaj technik minyfikacji. Jeśli zwracasz elementy buforowane bezpośrednio do klienta za pośrednictwem protokołu HTTP, przechowywanie danych JSON może obniżyć koszt deserializacji z innego formatu, a następnie serializacji do formatu JSON.

Użyj formatu JSON dla komunikatów z pojedynczym rekordem lub dla sekwencji komunikatów, w których każdy komunikat ma inny schemat. Unikaj używania formatu JSON dla sekwencji rekordów, takich jak dane szeregów czasowych.

Istnieją inne odmiany kodu JSON, takie jak binarny kod JSON (BSON). BSON to kodowanie binarne dostosowane do pracy z bazą danych MongoDB.

CSV

CSV to format tabelaryczny oparty na tekście. Nagłówek tabeli wskazuje pola. Plik CSV jest odpowiedni dla komunikatów zawierających zestaw rekordów.

Wadą formatu CSV jest brak standaryzacji. Istnieje wiele sposobów wyrażania separatorów, nagłówków i pustych pól.

Bufory protokołu

Protokoły Buffers (lub protobuf) to jest format serializacji, który używa silnie typizowanych plików definicji do definiowania schematów w parach klucz/wartość. Te pliki definicji są następnie kompilowane do klas specyficznych dla języka, które są używane do serializacji i deserializacji komunikatów.

Komunikat zawiera mały, skompresowany ładunek binarny, co skutkuje szybszym transferem danych. Wadą jest to, że ładunek nie jest czytelny dla człowieka. Ponadto, ponieważ schemat jest przechowywany zewnętrznie, ten format nie jest idealny dla scenariuszy, które wymagają pobrania zarchiwizowanych danych.

Apache Avro

Apache Avro to binarny format serializacji, który używa pliku definicji podobnego do protobuf, ale bez kroku kompilacji. Zamiast tego serializowane dane zawsze zawierają preambuły schematu.

Preambuła może zawierać nagłówek lub identyfikator schematu. Ze względu na mniejszy rozmiar kodowania, Avro jest zalecany do strumieniowania danych. Ponadto, ponieważ ma nagłówek, który ma zastosowanie do zestawu rekordów, jest dobrze odpowiedni dla danych tabelarycznych.

Apache Parquet

Apache Parquet to format plików magazynowania kolumnowego zwykle skojarzony z ekosystemem Apache Hadoop i powiązanymi frameworkami przetwarzania danych.

Apache Parquet obsługuje kompresję danych i ma ograniczone możliwości ewolucji schematu. Ten format jest zwykle używany, gdy inne technologie big data w obciążeniu roboczym wymagają go do tworzenia lub przetwarzania danych.

MessagePack

MessagePack to binarny format serializacji, który jest przeznaczony do kompaktowania transmisji przez przewody. Pakiet MessagePack nie ma definicji schematu i sprawdzania typów. Ten format nie jest zalecany w przypadku magazynu zbiorczego.

CBOR

CBOR (Specyfikacja) to format binarny, który zapewnia mały rozmiar kodowania. Zaletą korzystania z CBOR zamiast MessagePack jest zgodność ze standardem IETF określonym w RFC7049.

Następne kroki

Opinia

Czy ta strona była pomocna?

Last updated on 2025-05-06