Lake-databas

Artikel
03/25/2023

Lake-databasen i Azure Synapse Analytics gör det möjligt för kunder att sammanföra databasdesign, metainformation om de data som lagras och en möjlighet att beskriva hur och var data ska lagras. Lake-databasen hanterar utmaningen med dagens datasjöar där det är svårt att förstå hur data är strukturerade.

Översikt över Lake Database

Databasdesigner

Den nya databasdesignern i Synapse Studio ger dig möjlighet att skapa en datamodell för din lake-databas och lägga till ytterligare information i den. Varje entitet och attribut kan beskrivas för att ge mer information om modellen, som inte bara innehåller entiteter utan även relationer. I synnerhet har oförmågan att modellera relationer varit en utmaning för interaktionen på datasjön. Den här utmaningen hanteras nu med en integrerad designer som ger möjligheter som har varit tillgängliga i databaser men inte på sjön. Även möjligheten att lägga till beskrivningar och möjliga demovärden i modellen gör att personer som interagerar med den i framtiden kan ha information där de behöver den för att få en bättre förståelse för data.

Datalagring

Lake-databaser använder en datasjö på Azure Storage-kontot för att lagra data i databasen. Data kan lagras i Parquet-, Delta- eller CSV-format och olika inställningar kan användas för att optimera lagringen. Varje lake-databas använder en länkad tjänst för att definiera platsen för rotdatamappen. För varje entitet skapas separata mappar som standard i den här databasmappen på datasjön. Som standard använder alla tabeller i en lake-databas samma format, men dataformaten och platsen kan ändras per entitet om det begärs.

Anteckning

Publicering av en lake-databas skapar inte någon av de underliggande strukturer eller scheman som behövs för att köra frågor mot data i Spark eller SQL. När du har publicerat läser du in data i din lake-databas med pipelines för att börja köra frågor mot den.

Delta-formatstöd för lake-databaser stöds för närvarande inte i Synapse Studio.

Synkroniseringen av lakedatabasobjekt mellan lagring och Synapse är enkelriktad. Se till att utföra skapande eller schemaändring av lake-databasobjekt med hjälp av databasdesignern i Synapse Studio. Om du i stället gör sådana ändringar från Spark eller direkt i lagringen blir definitionerna för dina lakedatabaser osynkroniserade. Om detta händer kan du se gamla lake-databasdefinitioner i databasdesignern. Du måste replikera och publicera sådana ändringar i databasdesignern för att kunna synkronisera dina lake-databaser igen.

Databasberäkning

Lake-databasen exponeras i Synapse SQL-serverlös SQL-pool och Apache Spark ger användarna möjlighet att frikoppla lagring från beräkning. De metadata som är associerade med lake-databasen gör det enkelt för olika beräkningsmotorer att inte bara tillhandahålla en integrerad upplevelse utan även använda ytterligare information (till exempel relationer) som inte ursprungligen stöddes på datasjön.

Nästa steg

Fortsätt att utforska funktionerna i databasdesignern med hjälp av länkarna nedan.

Dela via