Поделиться через


Руководство. Загрузка примеров данных в кластер больших данных SQL Server

Область применения: SQL Server 2019 (15.x)

Important

Кластеры больших данных Microsoft SQL Server 2019 прекращены. Поддержка кластеров больших данных SQL Server 2019 закончилась с 28 февраля 2025 г. Дополнительные сведения см. в записи блога объявлений и параметрах больших данных на платформе Microsoft SQL Server.

В этом руководстве объясняется, как использовать скрипт для загрузки примеров данных в кластеры больших данных SQL Server 2019. Многие из других учебников в документации используют эти примеры данных.

Tip

Дополнительные примеры для кластеров больших данных SQL Server 2019 можно найти в репозитории GitHub sql-server-samples . Они находятся в sql-server-samples/samples/features/sql-big-data-cluster/ path.

Prerequisites

Загрузка примеров данных

В следующих шагах используется скрипт начальной загрузки для скачивания резервной копии базы данных SQL Server и загрузки данных в кластер больших данных. Для удобства использования эти действия были разделены на разделы Windows и Linux . Если вы хотите использовать базовое имя пользователя или пароль в качестве механизма проверки подлинности, установите AZDATA_USERNAME и AZDATA_PASSWORD переменные среды перед выполнением скрипта. В противном случае скрипт будет использовать встроенную проверку подлинности для подключения к главному экземпляру SQL Server и шлюзу Knox. Кроме того, DNS-имя следует указать для конечных точек, чтобы использовать встроенную проверку подлинности.

Windows

Ниже описано, как использовать клиент Windows для загрузки примеров данных в кластер больших данных.

  1. Откройте новую командную строку Windows.

    Important

    Не используйте Windows PowerShell для этих действий. В PowerShell скрипт завершится сбоем, так как он будет использовать версию Curl PowerShell.

  2. Используйте curl , чтобы скачать скрипт начальной загрузки для примера данных.

    curl -o bootstrap-sample-db.cmd "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.cmd"
    
  3. Скачайте скрипт bootstrap-sample-db.sql Transact-SQL . Этот скрипт вызывается скриптом начальной загрузки.

    curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
    
  4. Скрипт начальной загрузки требует следующих позиционных параметров для кластера больших данных:

    Parameter Description
    <CLUSTER_NAMESPACE> Имя, присвоенное кластеру больших данных.
    <SQL_MASTER_ENDPOINT> DNS-имя или IP-адрес главного экземпляра.
    <KNOX_ENDPOINT> DNS-имя или IP-адрес шлюза HDFS/Spark.

    Tip

    Используйте kubectl , чтобы найти IP-адреса для главного экземпляра SQL Server и Knox. Запустите kubectl get svc -n <your-big-data-cluster-name> и просмотрите адреса EXTERNAL-IP для главного экземпляра (master-svc-external) и Knox (gateway-svc-external). Имя кластера по умолчанию — mssql-cluster.

  5. Запустите скрипт начальной загрузки.

    .\bootstrap-sample-db.cmd <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
    

Linux

Ниже описано, как использовать клиент Linux для загрузки примеров данных в кластер больших данных.

  1. Скачайте скрипт начальной загрузки и назначьте ему права на выполнение.

    curl -o bootstrap-sample-db.sh "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sh"
    chmod +x bootstrap-sample-db.sh
    
  2. Скачайте скрипт bootstrap-sample-db.sql Transact-SQL . Этот скрипт вызывается скриптом начальной загрузки.

    curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
    
  3. Скрипт начальной загрузки требует следующих позиционных параметров для кластера больших данных:

    Parameter Description
    <CLUSTER_NAMESPACE> Имя, присвоенное кластеру больших данных.
    <SQL_MASTER_ENDPOINT> DNS-имя или IP-адрес главного экземпляра.
    <KNOX_ENDPOINT> DNS-имя или IP-адрес шлюза HDFS/Spark.

    Tip

    Используйте kubectl , чтобы найти IP-адреса для главного экземпляра SQL Server и Knox. Запустите kubectl get svc -n <your-big-data-cluster-name> и просмотрите адреса EXTERNAL-IP для главного экземпляра (master-svc-external) и Knox (gateway-svc-external). Имя кластера по умолчанию — mssql-cluster.

  4. Запустите скрипт начальной загрузки.

    ./bootstrap-sample-db.sh <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
    

Next steps

После выполнения сценария начальной загрузки, ваш кластер для обработки больших объемов данных содержит образцы баз данных и данные HDFS. В следующих руководствах используются примеры данных для демонстрации возможностей кластера больших данных:

Data Virtualization:

Data ingestion:

Notebooks: