Поделиться через


SparkComponent Класс

Версия компонента Spark, используемая для определения компонента или задания Spark.

Наследование
azure.ai.ml.entities._component.component.Component
SparkComponent
azure.ai.ml.entities._job.parameterized_spark.ParameterizedSpark
SparkComponent
azure.ai.ml.entities._job.spark_job_entry_mixin.SparkJobEntryMixin
SparkComponent
azure.ai.ml.entities._component.code.ComponentCodeMixin
SparkComponent

Конструктор

SparkComponent(*, code: PathLike | str | None = '.', entry: Dict[str, str] | SparkJobEntry | None = None, py_files: List[str] | None = None, jars: List[str] | None = None, files: List[str] | None = None, archives: List[str] | None = None, driver_cores: int | str | None = None, driver_memory: str | None = None, executor_cores: int | str | None = None, executor_memory: str | None = None, executor_instances: int | str | None = None, dynamic_allocation_enabled: bool | str | None = None, dynamic_allocation_min_executors: int | str | None = None, dynamic_allocation_max_executors: int | str | None = None, conf: Dict[str, str] | None = None, environment: Environment | str | None = None, inputs: Dict | None = None, outputs: Dict | None = None, args: str | None = None, **kwargs: Any)

Параметры Keyword-Only

Имя Описание
code

Исходный код для запуска задания. Может быть локальным путем или URL-адресом "http:", "https:" или "azureml:", указывающим на удаленное расположение. Значение по умолчанию — ".", указывающее текущий каталог.

значение по умолчанию: .
entry

Точка входа в файл или класс.

py_files

Список .zip, ФАЙЛОВ .EGG или .PY для размещения в PYTHONPATH для приложений Python. Значение по умолчанию — None (Нет).

jars

Список . JAR-файлы для включения в пути к классам драйвера и исполнителя. Значение по умолчанию — None (Нет).

files

Список файлов, помещаемых в рабочий каталог каждого исполнителя. Значение по умолчанию — None (Нет).

archives

Список архивов, извлекаемых в рабочий каталог каждого исполнителя. Значение по умолчанию — None (Нет).

driver_cores

Количество ядер, используемых для процесса драйвера, только в режиме кластера.

driver_memory

Объем памяти, используемый для процесса драйвера, отформатированный в виде строк с суффиксом единицы измерения размера ("k", "m", "g" или "t") (например, "512m", "2g").

executor_cores

Число ядер, используемых для каждого исполнителя.

executor_memory

Объем памяти для каждого процесса исполнителя, отформатированный в виде строк с суффиксом единицы размера ("k", "m", "g" или "t") (например, "512m", "2g").

executor_instances

Начальное число исполнителей.

dynamic_allocation_enabled

Следует ли использовать динамическое выделение ресурсов, которое масштабирует количество исполнителей, зарегистрированных в этом приложении, в зависимости от рабочей нагрузки. Значение по умолчанию — False.

dynamic_allocation_min_executors

Нижняя граница для числа исполнителей, если включено динамическое выделение.

dynamic_allocation_max_executors

Верхняя граница для числа исполнителей, если включено динамическое выделение.

conf

Словарь с предварительно определенным ключом и значениями конфигураций Spark. Значение по умолчанию — None (Нет).

environment

Среда Машинного обучения Azure, в которой выполняется задание.

inputs
Optional[dict[str, Union[ <xref:azure.ai.ml.entities._job.pipeline._io.NodeOutput>, Input, str, bool, int, float, <xref:Enum>, ]]]

Сопоставление имен входных данных с источниками входных данных, используемыми в задании. Значение по умолчанию — None (Нет).

outputs

Сопоставление имен выходных данных с источниками выходных данных, используемыми в задании. Значение по умолчанию — None (Нет).

args

Аргументы для задания. Значение по умолчанию — None (Нет).

Примеры

Создание SparkComponent.


   from azure.ai.ml.entities import SparkComponent

   component = SparkComponent(
       name="add_greeting_column_spark_component",
       display_name="Aml Spark add greeting column test module",
       description="Aml Spark add greeting column test module",
       version="1",
       inputs={
           "file_input": {"type": "uri_file", "mode": "direct"},
       },
       driver_cores=2,
       driver_memory="1g",
       executor_cores=1,
       executor_memory="1g",
       executor_instances=1,
       code="./src",
       entry={"file": "add_greeting_column.py"},
       py_files=["utils.zip"],
       files=["my_files.txt"],
       args="--file_input ${{inputs.file_input}}",
       base_path="./sdk/ml/azure-ai-ml/tests/test_configs/dsl_pipeline/spark_job_in_pipeline",
   )


Методы

dump

Дамп содержимого компонента в файл в формате yaml.

dump

Дамп содержимого компонента в файл в формате yaml.

dump(dest: str | PathLike | IO, **kwargs: Any) -> None

Параметры

Имя Описание
dest
Обязательно
Union[<xref:PathLike>, str, IO[AnyStr]]

Назначение для получения содержимого этого компонента. Должен быть либо путь к локальному файлу, либо уже открытый файловый поток. Если dest — это путь к файлу, будет создан новый файл, а если файл существует, возникает исключение. Если dest является открытым файлом, файл будет записан в напрямую, а если файл недоступен для записи, будет создано исключение.

Атрибуты

base_path

Базовый путь к ресурсу.

Возвращаемое значение

Тип Описание
str

Базовый путь к ресурсу.

creation_context

Контекст создания ресурса.

Возвращаемое значение

Тип Описание

Метаданные создания для ресурса.

display_name

Отображаемое имя компонента.

Возвращаемое значение

Тип Описание
str

Отображаемое имя компонента.

entry

environment

Среда Машинного обучения Azure, в которой выполняется компонент Или задание Spark.

Возвращаемое значение

Тип Описание

Среда Машинного обучения Azure, в которой выполняется компонент Или задание Spark.

id

Идентификатор ресурса.

Возвращаемое значение

Тип Описание

Глобальный идентификатор ресурса, идентификатор Azure Resource Manager (ARM).

inputs

Входные данные компонента.

Возвращаемое значение

Тип Описание

Входные данные компонента.

is_deterministic

Является ли компонент детерминированным.

Возвращаемое значение

Тип Описание

Является ли компонент детерминированным

outputs

Выходные данные компонента.

Возвращаемое значение

Тип Описание

Выходные данные компонента.

type

Тип компонента по умолчанию — command.

Возвращаемое значение

Тип Описание
str

Тип компонента.

version

Версия компонента.

Возвращаемое значение

Тип Описание
str

Версия компонента.

CODE_ID_RE_PATTERN

CODE_ID_RE_PATTERN = re.compile('\\/subscriptions\\/(?P<subscription>[\\w,-]+)\\/resourceGroups\\/(?P<resource_group>[\\w,-]+)\\/providers\\/Microsoft\\.MachineLearningServices\\/workspaces\\/(?P<workspace>[\\w,-]+)\\/codes\\/(?P<co)