Sdílet prostřednictvím


Definice prostředí

Tento článek obsahuje rozpis struktury definic pro položky prostředí.

Části definice

Cesta k části definice typ Povinné Popis
Libraries/CustomLibraries/<libraryname>.jar CustomLibraries (JAR) falešný Vlastní knihovna JAR ve formátu kódování Base64
Libraries/CustomLibraries/<libraryname>.py CustomLibraries (PY) falešný Soubor vlastních skriptů Pythonu ve formátu kódování Base64
Libraries/CustomLibraries/<libraryname>.whl CustomLibraries (WHL) falešný Soubor s vlastním kolečkem ve formátu kódování Base64
Libraries/CustomLibraries/<libraryname>.tar.gz CustomLibraries (TAR. GZ) falešný Vlastní soubor archivu jazyka R ve formátu kódování Base64
Libraries/PublicLibraries/environment.yml ExternalLibraries (YAML) falešný Soubor YAML prostředí s externími knihovnami ve formátu kódování Base64
Setting/Sparkcompute.yml SparkComputeSettings (YAML) falešný YaML výpočetního nastavení Sparku ve formátu kódování Base64
.platform PlatformDetails (JSON) falešný Popisuje metadata položky.

Každá část definice položky prostředí je vytvořena takto:

Popis obsahu externích knihoven Sparku

Popisuje pole použitá k vytvoření environment.yml.

Název Typ Povinné Popis
závislosti Slovník pravda Seznam balíčků conda, které se nainstalují v prostředí. Formát je <package_name>==<version_number>.
pip Slovník falešný Určuje další balíčky Pythonu, které se mají nainstalovat pomocí pipu. Může to být seznam řetězců, kde každý řetězec je balíček pip, který se má nainstalovat ve formátu <package_name>==<version_number>.

Popis obsahu nastavení Sparku

Popisuje pole použitá k vytvoření SparkCompute.yml.

Název Typ Povinné Popis
enable_native_execution_engine Boolean pravda Povolte nativní prováděcí modul. True – Povoleno, False – Zakázáno.
instance_pool_id Řetězec pravda Fond prostředí. Musí být platný vlastní fond určený ID fondu instancí. Pokud není zadán (null), vytvoří se počáteční fond.
driver_cores Integer pravda Jádra ovladačů Sparku. Povolené hodnoty jsou 4, 8, 16, 32 a 64.
driver_memory Řetězec pravda Paměť ovladače Sparku. Povolené hodnoty jsou 28g, 56g, 112g, 224g, 400g.
executor_cores Integer pravda Jádra exekutoru Sparku Povolené hodnoty jsou 4, 8, 16, 32, 64.
executor_memory Řetězec pravda Paměť exekutoru Sparku Povolené hodnoty jsou 28g, 56g, 112g, 224g, 400g.
dynamic_executor_allocation Objekt pravda Přidělení dynamického exekutoru Viz Popisobsahu dynamic_executor_allocation .
spark_conf Slovník falešný Konfigurace Sparku
runtime_version Řetězec pravda Verze modulu runtime, vyhledejte podporované moduly runtime prostředků infrastruktury.

Popis obsahu dynamic_executor_allocation

Popisuje pole použitá k vytvoření dynamic_executor_allocation.

Název Typ Povinné Popis
povoleno Boolean pravda Stav přidělení dynamického exekutoru. True – Povoleno, False – Zakázáno.
min_executors Integer pravda Minimální číslo exekutoru pro dynamické přidělení. Minimální hodnota je 1. Maximální hodnota musí být nižší než maxExecutors.
max_executors Integer pravda Maximální počet exekutorů pro dynamické přidělení. Minimální hodnota je 1. Maximální hodnota musí být nižší než maxNodeCount fond instancí.

Část Platformy

Součástí platformy je soubor, který obsahuje informace o metadatech prostředí.

  • vytvořit položku s definicí respektuje soubor platformy, pokud je k dispozici.
  • vrátí definice položky vždy soubor platformy.
  • aktualizovat položku definice přijímá soubor platformy, pokud je k dispozici, ale pouze pokud nastavíte nový parametr adresy URL updateMetadata=true.

Příklad veřejných knihoven Sparku environment.yml dekódovaný obsah z Base64

dependencies:
  - matplotlib==0.10.1
  - scipy==0.0.1
  - pip:
      - fuzzywuzzy==0.18.0
      - numpy==0.1.28

Příklad nastavení Sparku Sparkcompute.yml dekódovaný obsah z Base64

enable_native_execution_engine: false
instance_pool_id: 655fc33c-2712-45a3-864a-b2a00429a8aa
driver_cores: 4
driver_memory: 28g
executor_cores: 4
executor_memory: 28g
dynamic_executor_allocation:
  enabled: true
  min_executors: 1
  max_executors: 2
spark_conf:
  spark.acls.enable: true
runtime_version: 1.3

Příklad definice

{
    "format": "null",
    "parts": [
        {
            "path": "Libraries/CustomLibraries/samplelibrary.jar",
            "payload": "eyJuYmZvcm1hdCI6N..",
            "payloadType": "InlineBase64"
        },
        {
            "path": "Libraries/CustomLibraries/samplepython.py",
            "payload": "FyJuYmZvcm1hdCI6N..",
            "payloadType": "InlineBase64"
        },
        {
            "path": "Libraries/CustomLibraries/samplewheel-0.18.0-py2.py3-none-any.whl",
            "payload": "LyJuYmZvcm1hdCI6N..",
            "payloadType": "InlineBase64"
        },
        {
            "path": "Libraries/CustomLibraries/sampleR.tar.gz",
            "payload": "ZyJuYmZvcm1hdCI6N..",
            "payloadType": "InlineBase64"
        },
        {
            "path": "Libraries/PublicLibraries/environment.yml",
            "payload": "IyJuYmZvcm1hdCI6N..",
            "payloadType": "InlineBase64"
        },
        {
            "path": "Setting/Sparkcompute.yml",
            "payload": "GyJuYmZvcm1hdCI6N..",
            "payloadType": "InlineBase64"
        },
        {
            "path": ".platform",
            "payload": "ZG90UGxhdGZvcm1CYXNlNjRTdHJpbmc",
            "payloadType": "InlineBase64"
        }
    ]
}