Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Если вы видите много небольших заданий, скорее всего, вы выполняете много операций с относительно небольшими данными (<10 ГБ). Небольшие операции занимают всего несколько секунд, но в итоге складываются, а время, затраченное на накладные расходы по каждой операции, тоже накапливается.
Лучший подход к ускорению небольших заданий — параллельное выполнение нескольких операций. Lakeflow Spark декларативные конвейеры выполняют это автоматически.
Другие варианты включают:
- Разделите операции на несколько записных книжек и выполните их параллельно на том же кластере с помощью заданий с несколькими задачами.
- Используйте хранилища SQL, если все ваши запросы написаны на SQL. Хранилища SQL масштабируются очень хорошо для многих запросов параллельно, так как они были разработаны для этого типа рабочей нагрузки.
- Параметризуйте вашу записную книжку и используйте ее для каждой задачи, чтобы запускать записную книжку параллельно несколько раз. Используйте конкурентность, чтобы задать уровень параллелизации. Это хорошо работает с бессерверными вычислениями.