Översikt över Azure HDInsight 4.0

Artikel
12/05/2023

Azure HDInsight är en av de mest populära tjänsterna bland företagskunder för Apache Hadoop och Apache Spark. HDInsight 4.0 är en molndistribution av Apache Hadoop-komponenter. Den här artikeln innehåller information om den senaste versionen av Azure HDInsight och hur du uppgraderar.

Vad är nytt i HDInsight 4.0?

Apache Hive 3.0 och analysbearbetning med låg latens

Apache Hive LLAP (Low-Latency Analytical Processing) använder beständiga frågeservrar och minnesintern cachelagring. Den här processen ger snabba SQL-frågeresultat på data i fjärransluten molnlagring. Hive LLAP använder en uppsättning beständiga daemons som kör fragment av Hive-frågor. Frågekörningen på LLAP liknar Hive utan LLAP, med arbetaruppgifter som körs i LLAP-daemons i stället för containrar.

Fördelar med Hive LLAP:

Möjlighet att utföra djupgående SQL-analys utan att offra prestanda och anpassningsbarhet. Till exempel komplexa kopplingar, underfrågor, fönsterfunktioner, sortering, användardefinierade funktioner och komplexa aggregeringar.
Du kan köra interaktiva frågor mot data i samma lagring som data förbereds i. Det gör att data inte behöver flyttas från lagringen till en annan motor för analysbearbetning.
Genom att cachelagra frågeresultat kan tidigare beräknade frågeresultat återanvändas. Det här cacheminnet sparar tid och resurser som läggs på att köra de klusteraktiviteter som krävs för frågan.

Dynamiska materialiserade vyer i Hive

Hive stöder nu dynamiska materialiserade vyer eller förberäkning av relevanta sammanfattningar. Vyerna påskyndar frågebearbetningen i informationslager. Materialiserade vyer kan lagras internt i Hive, och kan använda LLAP-acceleration sömlöst.

Transaktionstabeller i Hive

HDI 4.0 innehåller Apache Hive 3. Hive 3 kräver atomicitet, konsekvens, isolering och hållbarhetsefterlevnad för transaktionstabeller som finns i Hive-lagret. ACID-kompatibla tabeller och tabelldata nås och hanteras av Hive. Data i CRUD-tabellerna (create, retrieve, update och delete) måste vara i ORC-filformat (Optimized Row Column). Endast infogningstabeller stöder alla filformat.

Anteckning

ACID-/transaktionsstöd fungerar endast för hanterade tabeller och inte externa tabeller. Externa Hive-tabeller är utformade så att externa parter kan läsa och skriva tabelldata, utan att Hive påverkar någon ändring av underliggande data. För ACID-tabeller kan Hive ändra underliggande data med komprimering och transaktioner.

Vissa fördelar med ACID-tabeller är

ACID v2 har prestandaförbättringar både för lagringsformat och för körningsmotorn.
ACID är aktiverat som standard för att ge fullständigt stöd för datauppdateringar.
Förbättrade ACID-funktioner innebär att du kan göra uppdateringar och borttagningar på radnivå.
Inga kostnader för prestanda.
Ingen bucketgruppering krävs.
Spark kan läsa och skriva till Hive ACID-tabeller via Hive Warehouse-anslutningsappen.

Apache Spark

Apache Spark hämtar uppdaterbara tabeller och ACID-transaktioner med Hive Warehouse-anslutningsappen. Med Hive Warehouse-anslutningsappen kan du registrera Hive-transaktionstabeller som externa tabeller i Spark för att få tillgång till fullständiga transaktionsfunktioner. Tidigare versioner hade endast stöd för manipulering av tabellpartitioner. Hive Warehouse Connector stöder även Streaming DataFrames. Den här processen strömmar läsningar och skrivningar till transaktionella och strömmande Hive-tabeller från Spark.

Spark-utförare kan ansluta direkt till Hive LLAP-daemons för att hämta och uppdatera data transaktionsmässigt, vilket låter Hive behålla kontrollen över data.

Med Apache Spark i HDInsight 4.0 kan du:

köra träning av maskininlärningsmodeller över samma transaktionstabell som används för rapportering
köra ett Spark-strömningsjobb på ändringsflödet från en Hive-strömningstabell
skapa ORC-filer direkt från ett strukturerat Spark-strömningsjobb.

Du behöver inte längre oroa dig för att oavsiktligt försöka komma åt Hive-transaktionstabeller direkt från Spark. Resulterar i inkonsekventa resultat, duplicerade data eller skadade data. I HDInsight 4.0 förvaras Spark-tabeller och Hive-tabeller i separata metaarkiv. Använd anslutningsappen för Hive-informationslager för att registrera Hive-transaktionstabeller som externa Spark-tabeller.

Apache Oozie

Apache Oozie 4.3.1 ingår i HDI 4.0 med följande ändringar:

Oozie kör inte längre Hive-åtgärder. Hive CLI har tagits bort och ersatts med BeeLine.
Du kan exkludera oönskade beroenden från ”share lib” genom att ta med ett exkluderingsmönster i din job.properties-fil.

Uppgradera till HDInsight 4.0

Testa komponenterna noggrant innan du implementerar den senaste versionen i en produktionsmiljö. HDInsight 4.0 är tillgängligt så att du kan påbörja uppgraderingsprocessen. HDInsight 3.6 är standardalternativet för att förhindra oavsiktliga missöden.

Det finns ingen uppgraderingsväg som stöds från tidigare versioner av HDInsight till HDInsight 4.0. Eftersom metaarkiv- och blobdataformat har ändrats är 4.0 inte kompatibelt med tidigare versioner. Det är viktigt att du håller din nya HDInsight 4.0-miljö åtskild från din aktuella produktionsmiljö. Om du distribuerar HDInsight 4.0 till din aktuella miljö uppgraderas metaarkivet permanent.

Begränsningar

HDInsight 4.0 stöder inte Apache Storm.
HDInsight 4.0 stöder inte klustertypen ML Services.
Shell-tolken i Apache Zeppelin stöds inte i Spark- och Interaktiv fråga-kluster.
Apache Pig körs på Tez som standard. Du kan dock ändra den till MapReduce.
Spark SQL Ranger-integrering för rad- och kolumnsäkerhet är inaktuell.

Dela via