Сжатый файл LZO
Из-за ограничений лицензирования кодек сжатия LZO недоступен по умолчанию для кластеров Azure Databricks. Для чтения сжатого файла LZO необходимо использовать сценарий инициализации для установки кодека в кластере во время запуска.
Пример записной книжки: сжатые файлы Init LZO
Следующая записная книжка:
- Создает кодек LZO.
- Создает скрипт инициализации, который:
- Устанавливает библиотеки сжатия LZO и команду
lzop
, а также копирует кодек LZO в соответствующий путь к классу. - Настраивает Spark для использования кодека сжатия LZO.
- Устанавливает библиотеки сжатия LZO и команду
Записная книжка для инициализации сжатых файлов LZO
Пример записной книжки: чтение сжатых файлов LZO
Следующая записная книжка считывает сжатые файлы LZO с помощью кодека, установленного скриптом init: