Migrace clusteru HDInsight na novější verzi

Abyste mohli využívat nejnovější funkce HDInsight, doporučujeme clustery HDInsight pravidelně migrovat na nejnovější verzi. HDInsight nepodporuje místní upgrady, kdy je existující cluster upgradován na novější verzi komponenty. Musíte vytvořit nový cluster s požadovanou komponentou a verzí platformy a pak migrovat aplikace, aby používaly nový cluster. Pokud chcete migrovat verze clusteru HDInsight, postupujte podle následujících pokynů.

Poznámka:

Pokud vytváříte cluster Hive s primárním kontejnerem úložiště, zkopírujte ho z existujícího clusteru HDInsight. Nekopírujte celý obsah. Zkopírujte jenom datové složky, které jsou nakonfigurované.

Úlohy migrace

Pracovní postup upgradu clusteru HDInsight je následující. HDInsight upgrade workflow diagram.

  1. Přečtěte si jednotlivé části tohoto dokumentu a seznamte se se změnami, které se můžou vyžadovat při upgradu clusteru HDInsight.
  2. Vytvořte cluster jako testovací prostředí nebo prostředí kontroly kvality. Další informace o vytvoření clusteru najdete v tématu Informace o vytváření clusterů HDInsight založených na Linuxu
  3. Zkopírujte existující úlohy, zdroje dat a jímky do nového prostředí.
  4. Proveďte ověřovací testování, abyste měli jistotu, že vaše úlohy fungují podle očekávání v novém clusteru.

Jakmile ověříte, že všechno funguje podle očekávání, naplánujte výpadek migrace. Během tohoto výpadku proveďte následující akce:

  1. Zálohujte všechna přechodná data uložená místně na uzlech clusteru. Pokud máte například data uložená přímo na hlavním uzlu.
  2. Odstraňte existující cluster.
  3. Vytvořte cluster ve stejné podsíti virtuální sítě s nejnovější (nebo podporovanou) verzí HDI pomocí stejného výchozího úložiště dat, které používal předchozí cluster. Díky tomu může nový cluster pokračovat v práci s existujícími produkčními daty.
  4. Importujte všechna přechodná data, která jste zálohovali.
  5. Spusťte úlohy nebo pokračujte ve zpracování pomocí nového clusteru.

Pokyny pro konkrétní úlohy

Následující dokumenty obsahují pokyny k migraci konkrétních úloh:

Záloha a obnovení

Další informace o zálohování a obnovení databáze naleznete v tématu Obnovení databáze ve službě Azure SQL Database pomocí automatizovaných záloh databází.

Scénáře upgradu

Jak už bylo zmíněno výše, Microsoft doporučuje pravidelně migrovat clustery HDInsight na nejnovější verzi, aby bylo možné využívat nové funkce a opravy. Podívejte se na následující seznam důvodů, proč bychom požádali o odstranění a opětovné nasazení clusteru:

  • Verze clusteru je vyřazená nebo pokud máte problém s clusterem, který by se vyřešil s novější verzí.
  • Hlavní příčinou problému s clusterem je určení, že souvisí s podsazeným virtuálním počítačem. Prohlédněte si doporučenou konfiguraci uzlu od Microsoftu.
  • Zákazník otevře případ podpory a technický tým Microsoftu zjistí, že problém už je opravený v novější verzi clusteru.
  • Výchozí databáze metastoru (Ambari, Hive, Oozie, Ranger) dosáhla limitu využití. Microsoft vás požádá o opětovné vytvoření clusteru pomocí vlastní databáze metastoru.
  • Hlavní příčinou problému s clusterem je nepodporovaná operace. Tady jsou některé běžné nepodporované operace:
    • Přesunutí nebo přidání služby v Ambari Podívejte se na informace o službách clusteru v Ambari, jednu z akcí dostupných v nabídce Akce služby je Přesunout [Název služby]. Další akcí je Přidat [název služby]. Obě tyto možnosti nejsou podporovány.
    • Poškození balíčku Pythonu Clustery HDInsight závisí na integrovaných prostředích Pythonu, Pythonu 2.7 a Pythonu 3.5. Přímá instalace vlastních balíčků v těchto výchozích integrovaných prostředích může způsobit neočekávané změny verze knihovny a přerušení clusteru. Zjistěte, jak bezpečně nainstalovat vlastní externí balíčky Pythonu pro aplikace Spark.
    • Software třetích stran. Zákazníci mají možnost instalovat software třetích stran do svých clusterů HDInsight; Pokud ale dojde k přerušení stávající funkce, doporučujeme cluster znovu vytvořit.
    • Několik úloh ve stejném clusteru Ve službě HDInsight 4.0 potřebuje sklad Hive Připojení or samostatné clustery pro úlohy Spark a Interactive Query. Pomocí těchto kroků nastavte oba clustery ve službě Azure HDInsight. Podobně integrace Sparku s HBASE vyžaduje dva různé clustery.
    • Změnilo se vlastní heslo databáze Ambari. Heslo databáze Ambari je nastavené během vytváření clusteru a neexistuje žádný aktuální mechanismus, který by ho aktualizoval. Pokud zákazník nasadí cluster s vlastní databází Ambari, může změnit heslo databáze ve službě SQL Database, ale neexistuje způsob, jak toto heslo aktualizovat pro spuštěný cluster HDInsight.
    • Úprava nástrojů pro vyrovnávání zatížení SLUŽBY HDInsight Nástroje pro vyrovnávání zatížení HDInsight, které se automaticky nasazují pro Ambari a přístup SSH, by se neměly upravovat ani odstraňovat. Pokud upravíte nástroje pro vyrovnávání zatížení HDInsight a přerušíte funkčnost clusteru, doporučujeme cluster znovu nasadit.

Další kroky