Udostępnij za pośrednictwem


Często zadawane pytania dotyczące analizy w skali chmury

Poniżej przedstawiono często zadawane pytania dotyczące analizy w skali chmury.

Konta magazynu

Dlaczego potrzebuję trzech oddzielnych kont magazynu? Czy nie mogę mieć tylko jednego z trzema kontenerami dla każdej warstwy (nieprzetworzone, wyrafinowane i wyselekcjonowane)?

Większość wzorców analizy danych istnieje obecnie z trzema warstwami nieprzetworzonych, uściślionych i wyselekcjonowanych. Chociaż mogą one być przechowywane w tym samym magazynie, jeśli chodzi o implementacje na dużą skalę, powoduje to problemy z przekroczeniem liczby dozwolonych uprawnień kontroli dostępu opartej na rolach (RBAC) i listy kontroli dostępu (ACL), które są dostępne na jednym koncie magazynu. W przypadku korzystania z oddzielnych kont magazynu większość implementacji może uniknąć tego problemu.

Inne przyczyny zostały omówione w temacie Omówienie Azure Data Lake Storage analizy w skali chmury.

Databricks

Czy należy wdrożyć obszar roboczy usługi Azure Databricks na produkt?

Zaleceniem jest użycie udostępnionego produktu Azure Databricks analytics i obszaru roboczego nauki o danych w strefie docelowej.

Ta decyzja została podjęta w celu zmniejszenia nakładu pracy nad zarządzaniem zespołem operacyjnym platformy danych. Usługa Azure Databricks ma zestaw autonomicznych zasad, które nie są zintegrowane z zasadami platformy Azure. W dużym środowisku konfiguracja większej liczby obszarów roboczych usługi Azure Databricks zwiększa obciążenie związane z zarządzaniem. Na przykład obsługa zasad i obsługiwanych wersji programu Apache Hive, aktualizowanie wersji usługi ADB i wymuszanie zewnętrznego magazynu metadanych Apache Hive. Nie ma możliwości, aby centralny zespół platformy mógł wymusić pewne ustawienia w ramach dowolnego obszaru roboczego usługi Databricks. Zalecamy posiadanie udostępnionych obszarów roboczych dla zespołów produktów w strefach docelowych, w których zespoły ds. operacji platformy danych mogą następnie definiować niezbędne zasady klastra i skrypty inicjowania.

Zalecamy używanie komunikacji równorzędnej sieci wirtualnych między strefami docelowymi i prywatnymi punktami końcowymi. W przypadku usługi Azure Databricks użyj wstrzyknięcia sieci wirtualnej. Ponieważ istnieje bezpośrednia linia wzroku dla wszystkich punktów końcowych, nie ma problemów z łącznością.

Następne kroki

Proces pozyskiwania za pomocą analizy w skali chmury na platformie Azure