Współdziałanie i użyteczność usługi Data Lakehouse

W tym artykule opisano zasady architektury filaru współdziałania i użyteczności , odnoszące się do interakcji lakehouse z użytkownikami i innymi systemami. Jedną z podstawowych koncepcji lakehouse jest zapewnienie doskonałego środowiska użytkownika dla wszystkich osób, które z nią współpracują, i możliwość interakcji z szerokim ekosystemem systemów zewnętrznych.

  • Współdziałanie to zdolność systemu do pracy z innymi systemami i integracji z nimi. Oznacza to interakcję między różnymi składnikami i produktami, prawdopodobnie od wielu dostawców, między wcześniejszymi i przyszłymi wersjami tego samego produktu.
  • Użyteczność to cecha systemu, która zapewnia użytkownikom najlepsze możliwe środowisko do bezpiecznego, efektywnego i wydajnego wykonywania zadań.

Interoperability and usability lakehouse architecture diagram for Databricks.

Przestrzeganie zasad tego filaru pomaga:

  • Osiągnij spójne i wspólne środowisko użytkownika.
  • Wykorzystanie synergii w chmurach.
  • Uproszczenie integracji z i do jeziora.
  • Zmniejsz koszty trenowania i włączania.

I ostatecznie prowadzą do szybszego czasu do wartości.

Zasady współdziałania i użyteczności

  1. Definiowanie standardów integracji

    Integracja ma różne aspekty i można to zrobić na wiele różnych sposobów. Aby uniknąć proliferacji narzędzi i podejść, należy zdefiniować najlepsze rozwiązania i udostępnić listę dobrze obsługiwanych i preferowanych narzędzi i łączników.

    Jedną z kluczowych zasad architektury jest modułowość i luźne sprzężenie, a nie ścisła integracja. Zmniejsza to zależności między składnikami i obciążeniami, pomaga wyeliminować skutki uboczne i umożliwia niezależne programowanie w różnych skalach czasu. Użyj zestawów danych i ich schematu jako kontraktu. Oddzielne obciążenia, takie jak zadania uzdatniania danych (takie jak ładowanie i przekształcanie danych w magazyn typu data lake) od zadań dodawania wartości (na przykład raportowania, pulpitów nawigacyjnych i inżynierii cech nauki o danych). Zdefiniuj centralny wykaz danych z wytycznymi dotyczącymi formatów danych, jakości danych i cyklu życia danych.

  2. Preferuj otwarte interfejsy i otwórz formaty danych

    Często opracowywane są rozwiązania, w których dostęp do danych można uzyskiwać tylko za pośrednictwem określonego systemu. Może to prowadzić do blokady dostawcy, ale może również stać się ogromnym czynnikiem kosztowym, jeśli dostęp do danych za pośrednictwem tego systemu podlega opłatom licencyjnym. Korzystanie z otwartych formatów danych i interfejsów pomaga uniknąć tego. Upraszczają również integrację z istniejącymi systemami i otwierają ekosystem partnerów, którzy już zintegrowali swoje narzędzia z usługą Lakehouse.

    Jeśli używasz ekosystemów typu open source, takich jak Python lub R na potrzeby nauki o danych, spark lub ANSI SQL na potrzeby dostępu do danych i kontroli praw dostępu, będziesz mieć łatwiejszy czas na znalezienie personelu dla projektów. Uprości również potencjalne migracje do i z platformy.

  3. Obniżanie barier w implementowaniu przypadków użycia

    Aby jak najlepiej wykorzystać dane w usłudze Data Lake, użytkownicy muszą mieć możliwość łatwego wdrażania przypadków użycia na platformie. Zaczyna się to od procesów opartych na dostępie do platformy i zarządzaniu danymi. Na przykład samoobsługowy dostęp do platformy pomaga zapobiec powstawaniu wąskiego gardła przez centralny zespół. Środowiska udostępnione i wstępnie zdefiniowane strategie wdrażania nowych środowisk zapewniają, że platforma jest szybko dostępna dla każdego użytkownika biznesowego.

  4. Zapewnianie spójności danych i użyteczności

    Dwie ważne działania na platformie danych to publikowanie danych i zużycie danych. Z perspektywy publikowania dane powinny być oferowane jako produkt. Wydawcy muszą postępować zgodnie ze zdefiniowanym cyklem życia, mając na uwadze użytkowników, a dane muszą być jasno zdefiniowane za pomocą zarządzanych schematów, opisów i tak dalej.

    Ważne jest również zapewnienie semantycznie spójnych danych, dzięki czemu konsumenci mogą łatwo zrozumieć i poprawnie połączyć różne zestawy danych. Ponadto wszystkie dane muszą być łatwo wykrywalne i dostępne dla użytkowników za pośrednictwem wykazu centralnego z prawidłowo wyselekcjonowanych metadanych i pochodzenia danych.

Dalej: Najlepsze rozwiązania dotyczące współdziałania i użyteczności

Zobacz Najlepsze rozwiązania dotyczące współdziałania i użyteczności.