Что такое Trino? (Предварительная версия)

Внимание

Эта функция в настоящее время доступна для предварительного ознакомления. Дополнительные условия использования для предварительных версий Microsoft Azure включают более юридические термины, применимые к функциям Azure, которые находятся в бета-версии, в предварительной версии или в противном случае еще не выпущены в общую доступность. Сведения об этой конкретной предварительной версии см. в статье Azure HDInsight в предварительной версии AKS. Для вопросов или предложений функций отправьте запрос на AskHDInsight с подробными сведениями и следуйте за нами для получения дополнительных обновлений в сообществе Azure HDInsight.

Trino (прежнее название — PrestoSQL) — это механизм распределенных запросов SQL с открытым исходным кодом для федеративной и интерактивной аналитики для разнородных источников данных. Он может запрашивать данные в масштабе (гигабайты к петабайтам) из нескольких источников, чтобы обеспечить корпоративную аналитику.

Trino используется для широкого спектра вариантов аналитического использования и является отличным выбором для интерактивного и нерегламентированного запроса.

Некоторые ключевые функции, которые предлагает Trino -

  • Адаптивная мультитенантная система, которая может одновременно выполнять сотни операций ввода-вывода, операций ввода-вывода и интенсивных ЦП запросов, а также масштабировать до тысяч рабочих узлов, эффективно используя ресурсы кластера.
  • Расширяемый и федеративный дизайн, чтобы снизить сложность интеграции нескольких систем.
  • Высокая производительность с несколькими ключевыми связанными функциями и оптимизацией.
  • Полностью совместим с экосистемой Hadoop.

Существует два типа серверов Trino: координаторы и работники.

координатор

Координатор Trino — это сервер, отвечающий за анализ инструкций, планирование запросов и управление рабочими узлами Trino. Это "мозг" установки Trino, а также узел, к которому клиент подключается для отправки инструкций для выполнения. Координатор отслеживает действия для каждой рабочей роли и координирует выполнение запроса. Координатор создает логическую модель запроса, которая включает серию этапов, которая преобразуется в ряд подключенных задач, выполняемых в кластере рабочих ролей Trino.

Рабочая роль

Рабочий процесс Trino — это сервер в установке Trino, который отвечает за выполнение задач и обработку данных. Рабочие узлы извлекаются данные из соединителей и обмениваются промежуточными данными друг с другом. Координатор отвечает за получение результатов от работников и возвращение конечных результатов клиенту.

Схема, показывающая архитектуру Trino.