Projektowanie integracji danych i rozwiązania analitycznego za pomocą usługi Azure Databricks

8 minut

Azure Databricks to w pełni zarządzana, oparta na chmurze platforma danych big data i uczenia maszynowego, która umożliwia deweloperom przyspieszenie sztucznej inteligencji i innowacji. Usługa Azure Databricks udostępnia zespoły ds. nauki o danych i inżynierii z jedną platformą do przetwarzania danych big data i uczenia maszynowego. Zarządzana platforma Apache Spark w usłudze Azure Databricks ułatwia uruchamianie obciążeń platformy Spark na dużą skalę.

Informacje o usłudze Azure Databricks

Usługa Azure Databricks jest całkowicie oparta na platformie Apache Spark i jest doskonałym narzędziem dla użytkowników, którzy znają już platformę przetwarzania klastrów typu open source. Usługa Databricks jest przeznaczona specjalnie do przetwarzania danych big data. Analitycy danych mogą korzystać z wbudowanego podstawowego interfejsu API dla języków podstawowych, takich jak SQL, Java, Python, R i Scala.

Usługa Azure Databricks ma płaszczyznę sterowania i płaszczyznę danych:

Płaszczyzna sterowania: hostuje zadania usługi Databricks, notesy z wynikami zapytań i menedżerem klastra. Płaszczyzna sterowania ma również aplikację internetową, magazyn metadanych hive i listy kontroli dostępu zabezpieczeń (ACL) oraz sesje użytkowników. Firma Microsoft zarządza tymi składnikami we współpracy z usługą Azure Databricks.
Płaszczyzna danych: zawiera wszystkie klastry środowiska uruchomieniowego usługi Azure Databricks hostowane w obszarze roboczym. Wszystkie operacje przetwarzania danych i magazynowania istnieją w ramach subskrypcji klienta. Przetwarzanie danych nigdy nie odbywa się w ramach subskrypcji zarządzanej przez firmę Microsoft/Databricks.

Usługa Azure Databricks oferuje trzy środowiska do tworzenia aplikacji intensywnie korzystających z danych.

Databricks SQL: Usługa Azure Databricks SQL udostępnia łatwą w użyciu platformę dla analityków, którzy chcą uruchamiać zapytania SQL w usłudze Data Lake. Możesz utworzyć wiele typów wizualizacji, aby eksplorować wyniki zapytań z różnych perspektyw oraz tworzyć i udostępniać pulpity nawigacyjne.
Databricks Nauka o danych & Engineering: Usługa Azure Databricks Nauka o danych & Engineering to interaktywny obszar roboczy, który umożliwia współpracę między inżynierami danych, analitykami danych i inżynierami uczenia maszynowego. W przypadku potoku danych big data dane (nieprzetworzone lub ustrukturyzowane) są pozyskiwane na platformę Azure za pośrednictwem usługi Azure Data Factory w partiach lub przesyłane strumieniowo niemal w czasie rzeczywistym przy użyciu platformy Apache Kafka, usługi Azure Event Hubs lub usługi Azure IoT Hub. Dane są lądowane w magazynie typu data lake dla długoterminowego magazynu utrwalonego w usłudze Azure Blob Storage lub Azure Data Lake Storage. W ramach przepływu pracy analizy użyj usługi Azure Databricks, aby odczytywać dane z wielu źródeł danych i przekształcać je w przełomowe informacje przy użyciu platformy Spark.
Databricks Machine Learning: Usługa Azure Databricks Machine Learning to zintegrowane kompleksowe środowisko uczenia maszynowego. Obejmuje ona usługi zarządzane do śledzenia eksperymentów, trenowania modeli, opracowywania funkcji i zarządzania nimi oraz obsługi funkcji i modeli.

Scenariusz biznesowy

Przeanalizujmy scenariusz dla firmy Tailwind Traders w dziale produkcji ciężkich maszyn. Firma Tailwind Traders korzysta z usług w chmurze platformy Azure na potrzeby ich danych big data. Pracują one zarówno z danymi wsadowymi, jak i danymi przesyłanymi strumieniowo. Dział zatrudnia inżynierów danych, analityków danych i analityków danych, którzy współpracują, aby tworzyć szybkie szczegółowe raporty dla wielu uczestników projektu. Aby spełnić wymagania dotyczące danych big data, planujesz zalecić usługę Azure Databricks i wdrożyć środowisko Nauka o danych i inżynieryjne.

Sprawdźmy, dlaczego usługa Azure Databricks może być właściwym wyborem, aby spełnić te wymagania.

Usługa Azure Databricks udostępnia zintegrowany obszar roboczy analizy oparty na platformie Apache Spark, który umożliwia współpracę między różnymi użytkownikami.
Korzystając ze składników platformy Spark, takich jak Spark SQL i Dataframes, usługa Azure Databricks może obsługiwać dane ustrukturyzowane. Integruje się z narzędziami pozyskiwania danych w czasie rzeczywistym, takimi jak Kafka i Flume do przetwarzania danych przesyłanych strumieniowo.
Bezpieczne możliwości integracji danych oparte na platformie Spark umożliwiają ujednolicenie danych bez centralizacji. Analitycy danych mogą wizualizować dane w kilku krokach i korzystać ze znanych narzędzi, takich jak Matplotlib, ggplot lub d3.
Środowisko uruchomieniowe usługi Azure Databricks wyodrębnia złożoność infrastruktury i potrzebę specjalistycznej wiedzy w celu skonfigurowania i skonfigurowania infrastruktury danych. Użytkownicy mogą korzystać z istniejących umiejętności językowych dla języków Python, Scala i R oraz eksplorować dane.
Usługa Azure Databricks integruje się głęboko z bazami danych platformy Azure i magazynami, takimi jak Azure Synapse Analytics, Azure Cosmos DB, Azure Data Lake Storage i Azure Blob Storage. Obsługuje ona różne platformy magazynu danych, które spełniają potrzeby magazynu danych big data firmy Tailwind Traders.
Integracja z usługą Power BI umożliwia szybkie i znaczące szczegółowe informacje, co jest wymaganiem dla firmy Tailwind Traders.
Usługa Azure Databricks SQL nie jest właściwym wyborem, ponieważ nie może obsłużyć danych bez struktury.
Usługa Azure Databricks Machine Learning nie jest również właściwym wyborem środowiska, ponieważ uczenie maszynowe nie jest wymaganiem w tym scenariuszu.

Kwestie do rozważenia podczas korzystania z usługi Azure Databricks

Usługi Azure Databricks można używać jako rozwiązania dla wielu scenariuszy. Zastanów się, w jaki sposób usługa może korzystać z rozwiązania integracji danych dla firmy Tailwind Traders.

Rozważ przygotowanie danych do nauki o danych. Tworzenie, klonowanie i edytowanie klastrów złożonych, nieustrukturyzowanych danych. Przekształcanie klastrów danych w określone zadania. Dostarczaj wyniki analitykom danych i analitykom danych do przeglądu.
Rozważ szczegółowe informacje w danych. Zaimplementuj usługę Azure Databricks, aby tworzyć aparaty rekomendacji, analizę zmian i wykrywanie nieautoryzowanego dostępu.
Rozważ produktywność w zespołach ds. danych i analiz. Tworzenie środowiska współpracy i udostępnionych obszarów roboczych dla inżynierów danych, analityków i naukowców. Zespoły mogą współpracować w całym cyklu życia nauki o danych z udostępnionymi obszarami roboczymi, co pomaga zaoszczędzić cenny czas i zasoby.
Rozważ obciążenia danych big data. Przećwiczyć usługę Azure Data Lake i aparat, aby uzyskać najlepszą wydajność i niezawodność obciążeń danych big data. Tworzenie potoków danych wieloetapowych bez mieszania.
Rozważmy programy uczenia maszynowego. Korzystaj ze zintegrowanego kompleksowego środowiska uczenia maszynowego. Obejmuje ona usługi zarządzane do śledzenia eksperymentów, trenowania modeli, opracowywania funkcji i zarządzania nimi oraz obsługi funkcji i modeli.

Opinia

Czy ta strona była pomocna?