Wybieranie technologii aranżacji potoku danych na platformie Azure
Większość rozwiązań do obsługi danych big data składa się z powtarzających się operacji przetwarzania danych, hermetyzowanych w przepływach pracy. Orkiestrator potoku to narzędzie, które pomaga zautomatyzować te przepływy pracy. Orkiestrator może planować zadania, wykonywać przepływy pracy i koordynować zależności między zadaniami.
Jakie są opcje aranżacji potoku danych?
Na platformie Azure następujące usługi i narzędzia spełniają podstawowe wymagania dotyczące aranżacji potoków, przepływu sterowania i przenoszenia danych:
Te usługi i narzędzia mogą być używane niezależnie od siebie lub używane razem do tworzenia rozwiązania hybrydowego. Na przykład środowisko Integration Runtime (IR) w usłudze Azure Data Factory W wersji 2 może natywnie wykonywać pakiety SSIS w zarządzanym środowisku obliczeniowym platformy Azure. Chociaż istnieją pewne nakładające się funkcje między tymi usługami, istnieje kilka kluczowych różnic.
Kluczowe kryteria wyboru
Aby zawęzić opcje, zacznij od udzielenia odpowiedzi na następujące pytania:
Czy potrzebujesz możliwości danych big data do przenoszenia i przekształcania danych? Zwykle oznacza to, że wiele gigabajtów do terabajtów danych. Jeśli tak, zawęź opcje do tych, które najlepiej nadają się do obsługi danych big data.
Czy potrzebujesz usługi zarządzanej, która może działać na dużą skalę? Jeśli tak, wybierz jedną z usług w chmurze, które nie są ograniczone przez lokalną moc obliczeniową.
Czy niektóre źródła danych znajdują się lokalnie? Jeśli tak, poszukaj opcji, które mogą współdziałać zarówno z chmurowymi, jak i lokalnymi źródłami danych lub lokalizacjami docelowymi.
Czy dane źródłowe są przechowywane w usłudze Blob Storage w systemie plików HDFS? Jeśli tak, wybierz opcję, która obsługuje zapytania Hive.
Macierz możliwości
W poniższych tabelach podsumowano kluczowe różnice w możliwościach.
Ogólne możliwości
Możliwość | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie w usłudze HDInsight |
---|---|---|---|
Zarządzana | Tak | Nie | Tak |
Oparte na chmurze | Tak | Nie (lokalny) | Tak |
Warunek wstępny | Subskrypcja platformy Azure | SQL Server | Subskrypcja platformy Azure, klaster usługi HDInsight |
Narzędzia do zarządzania | Witryna Azure Portal, program PowerShell, interfejs wiersza polecenia, zestaw SDK platformy .NET | SSMS, PowerShell | Powłoka Bash, interfejs API REST Oozie, internetowy interfejs użytkownika usługi Oozie |
Cennik | Płatność za użycie | Licencjonowanie/płacenie za funkcje | Brak dodatkowych opłat za uruchomienie klastra usługi HDInsight |
Możliwości potoku
Możliwość | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie w usłudze HDInsight |
---|---|---|---|
Kopiowanie danych | Tak | Tak | Tak |
Przekształcenia niestandardowe | Tak | Tak | Tak (zadania MapReduce, Pig i Hive) |
Ocenianie usługi Azure Machine Edukacja | Tak | Tak (ze skryptami) | Nie. |
Usługa HDInsight na żądanie | Tak | Nie. | Nie. |
Usługa Azure Batch | Tak | Nie. | Nie. |
Pig, Hive, MapReduce | Tak | Nie | Tak |
platforma Spark | Tak | Nie. | Nie. |
Wykonywanie pakietu usług SSIS | Tak | Tak | Nie. |
Przepływ sterowania | Tak | Tak | Tak |
Dostęp do danych lokalnych | Tak | Tak | Nie. |
Możliwości skalowalności
Możliwość | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie w usłudze HDInsight |
---|---|---|---|
Skalowanie w górę | Tak | Nie. | Nie. |
Skalowanie w poziomie | Tak | Nie. | Tak (dodając węzły robocze do klastra) |
Zoptymalizowane pod kątem danych big data | Tak | Nie | Tak |
Współautorzy
Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.
Główny autor:
- Zoiner Tejada | Dyrektor generalny i architekt
Następne kroki
- Potoki i działania w usłudze Azure Data Factory i Azure Synapse Analytics
- Aprowizuj środowisko Azure-SSIS Integration Runtime w usłudze Azure Data Factory
- Oozie w usłudze HDInsight