Ovladač systému souborů Azure Blob (ABFS): Vyhrazený ovladač služby Azure Storage pro Hadoop

Jednou z primárních metod přístupu pro data v Azure Data Lake Storage Gen2 je použití systému souborů Hadoop. Data Lake Storage Gen2 umožňuje uživatelům služby Azure Blob Storage přístup k novému ovladači, ovladači systému souborů Azure Blob nebo ABFS. ABFS je součástí Apache Hadoopu a je součástí mnoha komerčních distribucí Hadoopu. Ovladač ABFS umožňuje mnoha aplikacím a architekturám přistupovat k datům ve službě Azure Blob Storage bez jakéhokoli kódu, který explicitně odkazuje na Data Lake Storage Gen2.

Předchozí funkce: Ovladač objektů blob služby Windows Azure Storage

Ovladač objektů blob služby Windows Azure Storage nebo ovladač WASB poskytl původní podporu služby Azure Blob Storage. Tento ovladač provedl komplexní úlohu mapování sémantiky systému souborů (podle požadavků rozhraní Systému souborů Hadoop) na rozhraní stylu úložiště objektů vystaveného službou Azure Blob Storage. Tento ovladač nadále podporuje tento model a poskytuje vysoce výkonný přístup k datům uloženým v objektech blob, ale obsahuje značné množství kódu provádějícího toto mapování, což ztěžuje údržbu. Některé operace, jako je FileSystem.rename() a FileSystem.delete() při použití na adresáře, navíc vyžadují, aby ovladač prováděl velký počet operací (kvůli nedostatku podpory úložišť objektů pro adresáře), což často vede ke snížení výkonu. Ovladač ABFS byl navržen tak, aby překonat základní nedostatky WASB.

Ovladač systému souborů Azure Blob

Rozhraní REST služby Azure Data Lake Storage je navržené tak, aby podporovalo sémantiku systému souborů ve službě Azure Blob Storage. Vzhledem k tomu, že systém souborů Hadoop je také navržen tak, aby podporoval stejnou sémantiku, není nutné provádět komplexní mapování v ovladači. Ovladač systému souborů Azure Blob (neboli ABFS) je tedy pouhým převléčením klienta pro rozhraní REST API.

Existují však některé funkce, které ovladač musí stále provádět:

Schéma identifikátoru URI odkazování na data

V souladu s jinými implementacemi systému souborů v systému Hadoop ovladač ABFS definuje vlastní schéma identifikátorů URI, aby prostředky (adresáře a soubory) mohly být jednoznačně vyřešeny. Schéma identifikátoru URI je popsané v části Použití identifikátoru URI Azure Data Lake Storage Gen2. Struktura identifikátoru URI je: abfs[s]://file_system@account_name.dfs.core.windows.net/<path>/<path>/<file_name>

Pomocí tohoto formátu identifikátoru URI lze k odkazům na tyto prostředky použít standardní nástroje a architektury Hadoop:

hdfs dfs -mkdir -p abfs://fileanalysis@myanalytics.dfs.core.windows.net/tutorials/flightdelays/data
hdfs dfs -put flight_delays.csv abfs://fileanalysis@myanalytics.dfs.core.windows.net/tutorials/flightdelays/data/

Ovladač ABFS interně překládá prostředky zadané v identifikátoru URI do souborů a adresářů a volá rozhraní REST API služby Azure Data Lake Storage s těmito odkazy.

Authentication

Ovladač ABFS podporuje dvě formy ověřování, aby aplikace Hadoop mohla bezpečně přistupovat k prostředkům obsaženým v účtu podporujícím Data Lake Storage Gen2. Úplné podrobnosti o dostupných schématech ověřování najdete v průvodci zabezpečením služby Azure Storage. Mezi ně patří:

  • Sdílený klíč: To umožňuje uživatelům přístup ke všem prostředkům v účtu. Klíč je šifrovaný a uložený v konfiguraci Hadoopu.

  • Microsoft Entra ID OAuth Bearer Token: Microsoft Entra nosné tokeny jsou získány a aktualizovány ovladačem pomocí identity koncového uživatele nebo nakonfigurovaného instančního objektu. Pomocí tohoto modelu ověřování je veškerý přístup autorizovaný pro jednotlivá volání pomocí identity přidružené k zadanému tokenu a vyhodnocený vůči přiřazeného seznamu řízení přístupu POSIX (ACL).

    Poznámka:

    Azure Data Lake Storage Gen2 podporuje pouze koncové body Azure AD verze 1.0.

Konfigurace

Veškerá konfigurace ovladače ABFS je uložená v konfiguračním core-site.xml souboru. V distribucích Hadoopu s Ambari je možné konfiguraci spravovat také pomocí webového portálu nebo rozhraní Ambari REST API.

Podrobnosti o všech podporovaných položkách konfigurace jsou uvedeny v oficiální dokumentaci Hadoop.

Dokumentace k Hadoopu

Ovladač ABFS je plně zdokumentovaný v oficiální dokumentaci hadoopu .

Další kroky