Использование средств Azure Data Lake для Visual Studio Code

Важно!

Новые учетные записи azure Data Lake Analytics больше нельзя создавать, если ваша подписка не включена. Если вам нужно включить подписку, обратитесь в службу поддержки и предоставьте свой бизнес-сценарий.

Если вы уже используете Azure Data Lake Analytics, необходимо создать план миграции для Azure Synapse Analytics для вашей организации до 29 февраля 2024 г.

Из этой статьи вы узнаете, как создавать, тестировать и запускать скрипты U-SQL, используя средства Azure Data Lake для Visual Studio Code (VS Code). Эти сведения также представлены в следующем видеоролике:

Проигрыватель видео: средства Azure Data Lake для VS Code

Предварительные требования

Средства Azure Data Lake для VS Code поддерживают Windows, Linux и MacOS. Локальные запуск и отладка U-SQL работают только в Windows.

Для macOS и Linux:

Установка средств озера данных Azure

После установки необходимых компонентов можно установить Средства Azure Data Lake для VS Code.

Установка Средств Azure Data Lake

  1. Откройте Visual Studio Code.

  2. Выберите Расширения в области слева. В поле поиска введите Средства Azure Data Lake.

  3. Выберите Установить рядом с элементом Средства Azure Data Lake.

    Выбранные параметры для установки средств Data Lake

    Через несколько секунд кнопка Установить изменится на Перезагрузить.

  4. Нажмите кнопку Перезагрузить, чтобы активировать расширение Средства Azure Data Lake.

  5. Выберите Перезагрузить окно для подтверждения. Средства Azure Data Lake появятся в области Расширения.

Активация Средств Azure Data Lake

Чтобы активировать расширение, создайте новый или откройте имеющийся USQL-файл.

Работа с U-SQL

Для работы с U-SQL нужно открыть файл или папку U-SQL.

Открытие примера скрипта

Откройте палитру команд (CTRL+SHIFT+P) и введите ADL: Open Sample Script. При этом откроется другой экземпляр этого примера. Вы также можете изменить, настроить и отправить скрипт в этом экземпляре.

Открытие папки для проекта U-SQL

  1. В Visual Studio Code выберите меню Файл, а затем — Открыть папку.

  2. Укажите папку и выберите Выбрать папку.

  3. Выберите меню Файл, а затем Создать. К проекту будет добавлен файл с именем Untitled-1.

  4. Введите следующий код в файле Untitled-1:

    @departments  =
        SELECT * FROM
            (VALUES
                (31,    "Sales"),
                (33,    "Engineering"),
                (34,    "Clerical"),
                (35,    "Marketing")
            ) AS
                  D( DepID, DepName );
    

    OUTPUT @departments TO "/Output/departments.csv" USING Outputters.Csv();

    Этот скрипт создает в папке/output файл departments.csv с некоторыми данными.

  5. Сохраните файл в открытой папке, присвоив ему имя myUSQL.usql.

Компиляция скрипта U-SQL

  1. Нажмите клавиши CTRL+SHIFT+P, чтобы открыть палитру команд.
  2. Введите ADL: Compile Script. Результаты компиляции отображаются в окне Вывод. Чтобы запустить компиляцию задания U-SQL можно также щелкнуть правой кнопкой мыши файл скрипта и выбрать ADL: Compile Script. Результат компиляции отобразится в области Вывод.

Отправка скрипта U-SQL

  1. Нажмите клавиши CTRL+SHIFT+P, чтобы открыть палитру команд.
  2. Введите ADL: Submit Job. Также можно щелкнуть правой кнопкой мыши файл скрипта и выбрать ADL: Submit Job.

После отправки задания U-SQL отобразятся журналы отправки в окне Вывод в VS Code. В области справа появится представление задания. Если отправка пройдет успешно, также появится URL-адрес задания. URL-адрес задания можно открыть в веб-браузере, чтобы отслеживать состояние задания в реальном времени.

На вкладке СВОДКА в представлении задания отображаются сведения о задании. К основным функциям относятся повторная отправка, дублирование и открытие скрипта на портале. На вкладке ДАННЫЕ в представлении задания можно просмотреть входные и выходные файлы, а также файлы ресурсов. Файлы можно скачать на локальный компьютер.

Вкладка

Вкладка

Установка контекста по умолчанию

Если параметры для отдельных файлов не заданы, вы можете задать контекст по умолчанию, чтобы применять эти параметры ко всем файлам скриптов.

  1. Нажмите клавиши CTRL+SHIFT+P, чтобы открыть палитру команд.

  2. Введите команду ADL: Set Default Context. Вы также можете щелкнуть редактор скриптов правой кнопкой мыши и выбрать ADL: Set Default Context.

  3. Выберите учетную запись, базу данных и схему. Параметры сохранятся в файле конфигурации xxx_settings.json.

    Учетная запись, база данных и схема, заданные в качестве контекста по умолчанию

Установка параметров скрипта

  1. Нажмите клавиши CTRL+SHIFT+P, чтобы открыть палитру команд.

  2. Введите команду ADL: Set Script Parameters.

  3. Откроется файл xxx_settings.json со следующими свойствами:

    • account. Учетная запись Azure Data Lake Analytics из подписки Azure, необходимая для компиляции и запуска заданий U-SQL. Необходимо настроить учетную запись вычислений, прежде чем компилировать и запускать задания U-SQL.
    • database. База данных в вашей учетной записи. По умолчанию используется база данных master.
    • schema. Схема в базе данных. Значение по умолчанию — dbo.
    • optionalSettings:
      • priority. Значение приоритета в диапазоне от 1 до 1000, где 1 — наивысший приоритет. Значение по умолчанию: 1000.
      • degreeOfParallelism. Значение степени параллелизма в диапазоне от 1 до 150. Значением по умолчанию является максимально допустимый коэффициент параллелизма в учетной записи Azure Data Lake Analytics.

    Содержимое JSON-файла

Примечание

Если контекст по умолчанию не задан, после сохранения конфигурации сведения об учетной записи, базе данных и схеме появятся в строке состояния в левом нижнем углу соответствующего USQL-файла.

Установка игнорирования Git

  1. Нажмите клавиши CTRL+SHIFT+P, чтобы открыть палитру команд.

  2. Введите ADL: Set Git Ignore.

    • Если в вашей рабочей папке VS Code нет файла .gitIgnore, в ней будет создан файл с именем .gitIgnore. По умолчанию в файл будут добавлены четыре элемента (usqlCodeBehindReference, usqlCodeBehindGenerated, .cache, obj). По мере необходимости можно вносить другие изменения.
    • Если у вас уже есть gitIgnore-файл в рабочей папке VS Code, средство добавляет четыре элемента (usqlCodeBehindReference, usqlCodeBehindGenerated, .cache, obj) в файл .gitIgnore , если эти четыре элемента не были включены в файл.

    Элементы в файле .gitIgnore

Работа с файлами кода программной части: С#, Python и R

Средства Azure Data Lake поддерживают разные пользовательские коды. Инструкции см. в статье Разработка U-SQL с помощью Python, R, и C Sharp для Azure Data Lake Analytics в VS Code.

Работа со сборками

Дополнительные сведения о разработке сборок см. в статье Разработка сборок U-SQL для заданий Azure Data Lake Analytics.

Средства Data Lake можно использовать для регистрации сборки пользовательского кода в каталоге Data Lake Analytics.

Регистрация сборки

Зарегистрировать сборку можно с помощью команды ADL: Register Assembly или ADL: Register Assembly (Advanced).

Для регистрации с помощью команды ADL: Register Assembly

  1. Нажмите клавиши CTRL+SHIFT+P, чтобы открыть палитру команд.
  2. Введите ADL: Register Assembly.
  3. Укажите локальный путь к сборке.
  4. Выберите учетную запись Data Lake Analytics.
  5. Выберите базу данных.

В браузере откроется портал и начнется процесс регистрации сборки.

Более удобный способ вызова команды ADL: Register Assembly — щелкнуть правой кнопкой мыши DLL-файл в обозревателе.

Регистрация с помощью команды ADL: Register Assembly (Advanced)

  1. Нажмите клавиши CTRL+SHIFT+P, чтобы открыть палитру команд.

  2. Введите команду ADL: Register Assembly (Advanced).

  3. Укажите локальный путь к сборке.

  4. Отобразится JSON-файл. Просмотрите и при необходимости измените зависимости сборки и параметры ресурсов. Инструкции отображаются в окне Вывод. Чтобы перейти к регистрации сборки, сохраните (CTRL+S) JSON-файл.

    JSON-файл с зависимостями сборки и параметрами ресурсов

Примечание

  • Средства Azure Data Lake автоматически определяют, есть ли у библиотеки DLL зависимости сборки. Обнаруженные зависимости отображаются в JSON-файле.
  • Ресурсы DLL (например, TXT, PNG и CSV) можно отправлять в ходе регистрации сборки.

Еще один способ запуска команды ADL: Register Assembly (Advanced) — щелкнуть правой кнопкой мыши DLL-файл в проводнике.

В приведенном ниже коде U-SQL показано, как вызвать сборку. В этом примере имя сборки — test.

REFERENCE ASSEMBLY [test];
@a =
    EXTRACT
        Iid int,
    Starts DateTime,
    Region string,
    Query string,
    DwellTime int,
    Results string,
    ClickedUrls string
    FROM @"Sample/SearchLog.txt"
    USING Extractors.Tsv();
@d =
    SELECT DISTINCT Region
    FROM @a;
@d1 =
    PROCESS @d
    PRODUCE
        Region string,
    Mkt string
    USING new USQLApplication_codebehind.MyProcessor();
OUTPUT @d1
    TO @"Sample/SearchLogtest.txt"
    USING Outputters.Tsv();

Локальные запуск и отладка U-SQL для пользователей Windows

Локальное выполнение U-SQL тестирует локальные данные и проверяет скрипт локально перед публикацией кода в Data Lake Analytics. С помощью функции локальной отладки можно завершить следующие задачи перед отправкой кода в Data Lake Analytics:

  • Отладка кода программной части C#.
  • Пошаговая отладка кода.
  • Проверка скрипта локально.

Функция локального запуска и локальной отладки работает только в средах Windows и не поддерживается в операционных системах macOS и Linux.

Инструкции по локальному выполнению и отладке см. в статье Локальный запуск и локальная отладка U-SQL в Visual Studio Code.

Подключение к Azure

Перед компиляцией и выполнением скрипта U-SQL в Data Lake Analytics необходимо подключиться к учетной записи Azure.

Подключение к Azure с помощью команды

  1. Нажмите клавиши CTRL+SHIFT+P, чтобы открыть палитру команд.

  2. Введите текст ADL: Login. Сведения для входа отображаются в правом нижнем углу.

    Ввод команды входа

    Уведомление о входе и аутентификации

  3. Выберите Копировать & Открыть , чтобы открыть веб-страницу входа. Вставьте код в поле, а затем нажмите Продолжить.

    Веб-страница входа

  4. Следуйте инструкциям, предоставленным на веб-странице входа. Когда соединение установлено, имя учетной записи Azure отображается в левом нижнем углу окна VS Code.

Примечание

  • В следующий раз средства Data Lake автоматически выполнят вход, если вы не выйдете из системы.
  • Если для учетной записи используется двухфакторная проверка подлинности, мы советуем использовать проверку подлинности через телефон, а не PIN-код.

Для выхода введите команду ADL: Logout.

Подключение к Azure из обозревателя

Разверните узел AZURE DATALAKE, нажмите Войти в Azure, а затем выполните действия 3 и 4 из раздела Подключение к Azure с помощью команды.

Выбор команды

Выйти из обозревателя нельзя. Чтобы выйти, следуйте инструкциями из раздела Подключение к Azure с помощью команды.

Создание скрипта извлечения

Вы можете создать скрипт для извлечения CSV-, TSV- и TXT-файлов с помощью команды ADL: Create EXTRACT Script или обозревателя Azure Data Lake.

Создание скрипта извлечения с помощью команды

  1. Нажмите клавиши CTRL+SHIFT+P, чтобы открыть палитру команд, и введите ADL: Create EXTRACT Script.
  2. Укажите полный путь к файлу службы хранилища Azure и нажмите клавишу ВВОД.
  3. Выберите одну учетную запись.
  4. Выберите разделитель, чтобы извлечь ТХТ-файл.

Процесс создания скрипта извлечения

Скрипт извлечения создается на основе ваших записей. Для скрипта, который не может обнаружить столбцы, выберите один из двух вариантов. В противном случае будет создан только один скрипт.

Результат создания скрипта извлечения

Создание скрипта извлечения из обозревателя

Еще один способ создать скрипт извлечения — с помощью контекстного меню CSV-, TSV- или TXT-файла в Azure Data Lake Store или хранилище BLOB-объектов Azure.

Команда

Дальнейшие действия