CycleCloud GridEngine Cluster
Open Grid Scheduler (Grid Engine) se puede habilitar fácilmente en un clúster de Azure CycleCloud modificando la "run_list" en la definición del clúster. Los dos componentes básicos de un clúster de Grid Engine son el nodo "maestro", que proporciona un sistema de archivos compartido en el que se ejecuta el software grid Engine y los nodos "execute" que son los hosts que montan el sistema de archivos compartidos y ejecutan los trabajos enviados. Por ejemplo, un fragmento de código de plantilla de clúster de Grid Engine simple puede tener el siguiente aspecto:
[cluster grid-engine]
[[node master]]
ImageName = cycle.image.centos7
MachineType = Standard_A4 # 8 cores
[[[configuration]]]
run_list = role[sge_master_role]
[[nodearray execute]]
ImageName = cycle.image.centos7
MachineType = Standard_A1 # 1 core
[[[configuration]]]
run_list = role[sge_execute_role]
Nota
Los nombres de rol contienen 'sge' por motivos heredados: Grid Engine era un producto de Sun Microsystems.
La importación e inicio de un clúster con la definición en CycleCloud producirá un único nodo "maestro". Los nodos de ejecución se pueden agregar al clúster mediante el cyclecloud add_node
comando . Por ejemplo, para agregar 10 nodos de ejecución más:
cyclecloud add_node grid-engine -t execute -c 10
Escalado automático del motor de cuadrícula
Azure CycleCloud admite el escalado automático para Grid Engine, lo que significa que el software supervisará el estado de la cola y activará y desactivará los nodos según sea necesario para completar el trabajo en una cantidad óptima de tiempo y costo. Puede habilitar el escalado automático para Grid Engine agregando Autoscale = true
a la definición del clúster:
[cluster grid-engine]
Autoscale = True
De forma predeterminada, todos los trabajos enviados a la cola del motor de cuadrícula se ejecutarán en máquinas de tipo "execute", estas son máquinas definidas por la matriz de nodos denominada "execute". No está limitado al nombre "execute", ni está limitado a un único tipo de configuración de máquina para ejecutar trabajos y escalado automático.
Por ejemplo, un caso común puede ser que tenga un clúster con dos definiciones de nodo diferentes uno para ejecutar trabajos "normales" que consumen CPU estándar, mientras que otro tipo de trabajo puede usar máquinas gpu. En este caso, querrá escalar de forma independiente la cola tanto por trabajos normales como por trabajos de GPU para asegurarse de que tiene una cantidad adecuada de cada máquina para consumir la cola de trabajo. Una definición de ejemplo sería similar a la siguiente:
[cluster grid-engine]
Autoscale = True
[[node master]]
ImageName = cycle.image.centos7
MachineType = Standard_A3 # 4 cores
[[[configuration]]]
run_list = role[sge_master_role]
[[nodearray execute]]
ImageName = cycle.image.centos7
MachineType = Standard_A4 # 8 cores
[[[configuration]]]
run_list = role[sge_execute_role]
[[nodearray gpu]]
MachineType = Standard_NV12 # 2 GPUs
ImageName = cycle.image.centos7
# Set the number of cores to the number of GPUs for autoscaling purposes
CoreCount = 2
[[[configuration]]]
run_list = role[sge_execute_role]
gridengine.slot_type = gpu
gridengine.slots = 2
En el ejemplo anterior, ahora hay dos matrices de nodos: una es una matriz de nodos de ejecución "estándar", la segunda se denomina "gpu" que proporciona un MachineType que tiene dos GPU de Nvidia (Standard_NV12 en Azure). Tenga en cuenta también que ahora hay dos nuevos elementos en la sección de configuración además de la receta "csge:sgeexec". Agregar gridengine.slot_type = gpu
indica al programador del motor de cuadrícula que estos nodos deben denominarse nodos "gpu" y, por tanto, solo deben ejecutar trabajos de "gpu". El nombre "gpu" es arbitrario, pero un nombre que describe el nodo es más útil. Establezca gridengine.slots = 2
, que indica al software que asegúrese de que este tipo de nodo solo puede ejecutar dos trabajos a la vez (Standard_NV12 solo tiene 2 GPU). De forma predeterminada, el número de ranuras por nodo en el motor de cuadrícula será el número de CPU en el sistema que, en este caso, haría que se ejecutaran demasiados trabajos simultáneamente en el nodo. En el ejemplo anterior, CoreCount=2
se establece en nodearray para que coincida con el número de GPU disponibles en MachineType, lo que permite a CycleCloud escalar correctamente esa matriz en GPU frente al número de CPU.
Puede comprobar el número de ranuras y slot_type las máquinas tienen ejecutando el comando :
-bash-4.1# qstat -F slot_type
queuename qtype resv/used/tot. load_avg arch states
---------------------------------------------------------------------------------
all.q@ip-0A000404 BIP 0/0/4 0.17 linux-x64
hf:slot_type=execute
---------------------------------------------------------------------------------
all.q@ip-0A000405 BIP 0/0/2 2.18 linux-x64
hf:slot_type=gpu
---------------------------------------------------------------------------------
all.q@ip-0A000406 BIP 0/0/4 0.25 linux-x64
Observe que hay una de cada "slot_type" que especificó (ejecutar y gpu) y el número de ranuras para la ranura "execute" es 4, que es el número de CPU en el equipo. El número de ranuras para el tipo de ranura "gpu" es 2, que especificamos en nuestra plantilla de configuración de clúster. La tercera máquina es el nodo maestro que no ejecuta trabajos.
Uso avanzado del motor de cuadrícula
Las opciones de configuración anteriores permiten la personalización avanzada de nodos y matrices de nodos. Por ejemplo, si los trabajos requieren una cantidad específica de memoria, por ejemplo, 10 GB cada uno, puede definir una matriz de nodos de ejecución que inicie las máquinas con 60 GB de memoria, a continuación, agregue las opciones gridengine.slots = 6
de configuración para asegurarse de que solo se pueden ejecutar 6 trabajos simultáneamente en este tipo de nodo (asegurándose de que cada trabajo tendrá al menos 10 GB de memoria con la que trabajar).
Nodos agrupados en el motor de cuadrícula
Cuando se envía un trabajo paralelo al motor de cuadrícula, el comportamiento predeterminado de escalado automático que CycleCloud usará es tratar cada trabajo de MPI como una solicitud de nodo agrupado. Los nodos agrupados están estrechamente acoplados e idealmente adecuados para flujos de trabajo de MPI.
Cuando un conjunto de nodos agrupados se une a un clúster de Grid Engine, el identificador de grupo de cada nodo se usa como valor del valor affinity_group
complejo . Al requerir que se especifique un affinity_group
elemento para los trabajos, permite al programador del motor de cuadrícula asegurarse de que los trabajos solo llegan a las máquinas que están en el mismo grupo.
La automatización de CycleCloud solicitará automáticamente nodos agrupados y los asignará a grupos de afinidad disponibles cuando se encuentren trabajos paralelos.
Envío de trabajos al motor de cuadrícula
La manera más genérica de enviar trabajos a un programador de grid Engine es el comando :
qsub my_job.sh
Este comando enviará un trabajo que se ejecutará en un nodo de tipo "execute", que es un nodo definido por nodearray "execute". Para que un trabajo se ejecute en un elemento nodearray de otro tipo, por ejemplo, el tipo de nodo "gpu" anterior, modificamos nuestro envío:
qsub -l slot_type=gpu my_gpu_job.sh
Este comando garantizará que el trabajo solo se ejecute en un "slot_type" de "gpu".
Si slot_type se omite, "execute" se asignará automáticamente al trabajo. El usuario puede modificar el mecanismo que asigna automáticamente slot_type a los trabajos. Se puede crear un script de Python ubicado en /opt/cycle/jetpack/config/autoscale.py , que debe definir una sola función "sge_job_handler". Esta función recibe una representación de diccionario del trabajo, similar a la salida de un qstat -j JOB_ID
comando y debe devolver un diccionario de recursos duros que deben actualizarse para el trabajo. Por ejemplo, a continuación se muestra un script que asignará un trabajo a la "gpu" slot_type si el nombre de los trabajos contiene las letras "gpu". Esto permitiría a un usuario enviar sus trabajos desde un sistema automatizado sin tener que modificar los parámetros de trabajo y seguir ejecutando los trabajos y escalar automáticamente los nodos correctos:
#!/usr/env python
#
# File: /opt/cycle/jetpack/config/autoscale.py
#
def sge_job_handler(job):
# The 'job' parameter is a dictionary containing the data present in a 'qstat -j JOB_ID':
hard_resources = {'slot_type': 'execute', 'affinity_group' : 'default' }
# Don't modify anything if the job already has a slot type
# You could modify the slot type at runtime by not checking this
if 'hard_resources' in job and 'slot_type' in job['hard_resources']:
return hard_resources
# If the job's script name contains the string 'gpu' then it's assumed to be a GPU job.
# Return a dictionary containing the new job_slot requirement to be updated.
# For example: 'big_data_gpu.sh' would be run on a 'gpu' node.
if job['job_name'].find('gpu') != -1:
hard_resources {'slot_type': 'gpu'}
else:
return hard_resources
El parámetro 'job' pasado es un diccionario que contiene los datos de una qstat -j JOB_ID
llamada:
{
"job_number": 5,
"job_name": "test.sh",
"script_file": "test.sh",
"account": "sge",
"owner": "cluster.user",
"uid": 100,
"group": "cluster.user",
"gid": 200,
"submission_time": "2013-10-09T09:09:09",
"job_args": ['arg1', 'arg2', 'arg3'],
"hard_resources": {
'mem_free': '15G',
'slot_type': 'execute'
}
}
Puede usar esta funcionalidad de scripting para asignar automáticamente slot_type en función de cualquier parámetro definido en el trabajo, como argumentos, otros requisitos de recursos como la memoria, el envío de usuarios, etc.
Si fuera a enviar 5 trabajos de cada "slot_type":
qsub -t 1:5 gpu_job.sh
qsub -t 1:5 normal_job.sh
Ahora habrá 10 trabajos en la cola. Debido al script definido anteriormente, los cinco trabajos con "gpu" en el nombre se configurarían automáticamente para que solo se ejecuten en nodos de "slot_type=gpu". El mecanismo de escalado automático de CycleCloud detectaría que hay 5 trabajos "gpu" y 5 trabajos "ejecutar". Dado que la matriz de nodos "gpu" se define como tener 2 ranuras por nodo, CycleCloud iniciaría 3 de estos nodos (5/2=2,5 redondeado hasta 3). Hay 5 trabajos normales, ya que el tipo de máquina para la matriz de nodos "execute" tiene cuatro CPU cada uno, CycleCloud iniciaría 2 de estos nodos para controlar los trabajos (5/4=1,25 redondeado hasta 2). Después de un breve período de tiempo para que los nodos recién iniciados arranquen y configuren, los 10 trabajos se ejecutarían hasta su finalización y, a continuación, los 5 nodos se apagarían automáticamente antes de que el proveedor de nube le facturase de nuevo.
Se supone que los trabajos tienen una duración de una hora. Si el tiempo de ejecución del trabajo se conoce, el algoritmo de escalado automático puede beneficiarse de esta información. Informe al escalado automático del tiempo de ejecución del trabajo esperado agregándolo al contexto del trabajo. En el ejemplo siguiente se indica al escalado automático que el tiempo de ejecución del trabajo tiene un promedio de 10 minutos:
qsub -ac average_runtime=10 job_with_duration_of_10m.sh
Referencia de configuración del motor de cuadrícula
A continuación se muestran las opciones de configuración específicas del motor de cuadrícula que puede alternar para personalizar la funcionalidad:
Opciones de configuración de SGE-Specific | Descripción |
---|---|
gridengine.slots | Número de ranuras de un nodo determinado que se va a notificar al motor de cuadrícula. El número de ranuras es el número de trabajos simultáneos que puede ejecutar un nodo, este valor tiene como valor predeterminado el número de CPU de un equipo determinado. Puede invalidar este valor en los casos en los que no se ejecutan trabajos basados en cpu, sino en memoria, GPU, etc. |
gridengine.slot_type | Nombre del tipo de "ranura" que proporciona un nodo. El valor predeterminado es "execute". Cuando un trabajo se etiqueta con el recurso duro "slot_type=", ese trabajo solo se ejecutará en una máquina del mismo tipo de ranura. Esto le permite crear diferentes configuraciones de software y hardware por nodo y asegurarse de que un trabajo adecuado siempre está programado en el tipo correcto de nodo. |
gridengine.ignore_fqdn | Valor predeterminado: true. Se establece en false si todos los nodos del clúster no forman parte de un único dominio DNS. |
gridengine.version | Valor predeterminado: '2011.11'. Esta es la versión del motor de cuadrícula que se va a instalar y ejecutar. Actualmente es la opción predeterminada y solo . En el futuro se pueden admitir versiones adicionales del software Grid Engine. |
gridengine.root | Valor predeterminado: '/sched/sge/sge-2011.11' Aquí es donde se instalará y montará el motor de cuadrícula en cada nodo del sistema. Se recomienda que este valor no se cambie, pero si es que se debe establecer en el mismo valor en cada nodo del clúster. |
CycleCloud admite un conjunto estándar de atributos de escalado automático entre programadores:
Atributo | Descripción |
---|---|
cyclecloud.cluster.autoscale.stop_enabled | ¿Está habilitado el escalado automático en este nodo? [true/false] |
cyclecloud.cluster.autoscale.idle_time_after_jobs | Cantidad de tiempo (en segundos) para que un nodo esté inactivo después de completar los trabajos antes de reducirse verticalmente. |
cyclecloud.cluster.autoscale.idle_time_before_jobs | Cantidad de tiempo (en segundos) para que un nodo esté inactivo antes de completar los trabajos antes de reducirse verticalmente. |
Problemas conocidos
-
qsh
el comando para la sesión interactiva no funciona. Useqrsh
como alternativa. - La escalabilidad automática no respeta el
exclusive=1
complejo. Es posible que se inicien menos nodos de los esperados como resultado.
Nota
Aunque Windows es una plataforma GridEngine compatible oficialmente, CycleCloud no admite la ejecución de GridEngine en Windows en este momento.
Esta página se refiere a las funcionalidades y la configuración del uso de GridEngine (Altair) con CycleCloud.
Configuración de recursos
La aplicación cyclecloud-gridengine coincide con los recursos sge de los recursos en la nube de Azure para proporcionar herramientas enriquecidas de configuración de clústeres y escalado automático. La aplicación se implementará automáticamente para los clústeres creados a través de la interfaz de usuario de CycleCloud o se puede instalar en cualquier host de administrador de gridengine en un clúster existente.
Instalación o actualización de cyclecloud-gridengine
El paquete cyclecloud-gridengine está disponible en GitHub como artefacto de versión. La instalación y actualización serán el mismo proceso. La aplicación requiere python3 con virtualenv.
tar xzf cyclecloud-gridengine-pkg-*.tar.gz
cd cyclecloud-gridengine
./install.sh
Archivos importantes
La aplicación analiza la configuración de sge cada vez que se denomina : trabajos, colas y complejos. La información se proporciona en stderr y stdout del comando, así como en un archivo de registro, ambos en niveles configurables. Todos los comandos de administración de gridengine con argumentos también se registran en el archivo.
Descripción | Location |
---|---|
Configuración de escalado automático | /opt/cycle/gridengine/autoscale.json |
Registro de escalado automático | /opt/cycle/jetpack/logs/autoscale.log |
Registro de seguimiento de qconf | /opt/cycle/jetpack/logs/qcmd.log |
Colas de SGE, grupos host y entornos paralelos
La utilidad cyclecloud-gridengine autoscale, azge
, agregará hosts al clúster según la configuración del clúster. Las operaciones de escalado automático realizan las siguientes acciones.
- Lea la solicitud de recurso de trabajo y busque una máquina virtual adecuada para iniciarse.
- Inicie la máquina virtual y espere a que esté lista.
- Leer la cola y el entorno paralelo del trabajo
- En función de la cola o pe, asigne el host a un grupo host adecuado
- Agregue el host al clúster, así como a cualquier otra cola que contenga el grupo host.
Tenga en cuenta la siguiente definición de cola para una cola denominada short.q
hostlist @allhosts @mpihg01 @mpihg02 @lowprio
...
seq_no 10000,[@lowprio=10],[@mpihg01=100],[@mpihg02=200]
pe_list NONE,[@mpihg01=mpi01], \
[@mpihg02=mpi02]
El envío de un trabajo qsub -q short.q -pe mpi02 12 my-script.sh
se iniciará en la concesión de una máquina virtual y, cuando se agregue al clúster, se unirá al grupo de hosts @mpihg02 porque ese es el grupo host disponible para la cola y para el entorno paralelo. También se agregará a @allhosts, que es un grupo host especial.
Sin especificar pe, qsub -q short.q my-script.sh
la máquina virtual resultante se agregará a @allhosts y @lowpriority son los grupos host de la cola que no están asignadas pes.
Por último, un trabajo enviado con qsub -q short.q -pe mpi0* 12 my-script.sh
dará como resultado una máquina virtual agregada a @mpihg01 o @mpihg02 en función de las predicciones de asignación de CycleCloud.
Los entornos paralelos equivalen implícitamente al grupo de selección de ubicación cyclecloud. Las máquinas virtuales de un PE están restringidas a estar dentro de la misma red. Si desea usar un PE que no mantenga un grupo de selección de ubicación, use el archivo autoscale.json para rechazarlo.
Aquí optamos por no participar en grupos de selección de ubicación para la marca pe:
"gridengine": {
"pes": {
"make": {
"requires_placement_groups": false
}
},
Grupos de selección de ubicación de CycleCloud
Los grupos de selección de ubicación de CycleCloud asignan uno a uno a VMSS de Azure con SinglePlacementGroup: las máquinas virtuales de un grupo de selección de ubicación comparten un tejido de Infiniband y comparten solo con máquinas virtuales dentro del grupo de selección de ubicación. Para conservar intuitivamente estos silos, los grupos de selección de ubicación también asignan 1:1 con el entorno paralelo gridengine.
Al especificar un entorno paralelo para un trabajo, se restringirá la ejecución del trabajo en un grupo de selección de ubicación a través de la lógica de asignación de grupos host inteligentes. Puede optar por no participar en este comportamiento con la configuración mencionada anteriormente en autoscale.json : "required_placement_groups" : false
.
Configuración de escalado automático
Este complemento escalará automáticamente la cuadrícula para satisfacer las demandas de la carga de trabajo. El archivo de configuración autoscale.json determina el comportamiento del escalador automático del motor de cuadrícula.
- Establecimiento de los detalles de la conexión cyclecloud
- Establecer el temporizador de finalización para los nodos inactivos
- El escalado automático multidimensional es posible, establezca los atributos que se usarán en el empaquetado del trabajo, por ejemplo, ranuras, memoria.
- Registro de las colas, entornos paralelos y grupos host que se van a administrar
Configuración | Tipo | Descripción |
---|---|---|
url | String | CC URL |
nombre de usuario y contraseña | String | Detalles de conexión cc |
cluster_name | String | Nombre del clúster cc |
default_resources | Asignación | Vinculación de un recurso de nodo a un recurso host del motor de cuadrícula para el escalado automático |
idle_timeout | Int | Tiempo de espera antes de terminar los nodos inactivos (s) |
boot_timeout | Int | Tiempo de espera antes de terminar los nodos durante las fases de configuración largas (s) |
gridengine.relevant_complexes | List (String) | Los complejos del motor de cuadrícula que se deben tener en cuenta en el escalado automático, por ejemplo, ranuras, mem_free |
gridengine.logging | Archivo | Ubicación del archivo de configuración de registro |
gridengine.pes | Estructura | Especificar el comportamiento de los IDE, por ejemplo , requires_placement_group = false |
El programa de escalado automático solo tendrá en cuenta los recursos pertinentes.
Recurso de escalado automático adicional
De forma predeterminada, el clúster con escala en función de cuántas ranuras solicitan los trabajos. Podemos agregar otra dimensión al escalado automático.
Supongamos que queremos escalar automáticamente mediante la solicitud de recurso de trabajo para m_mem_free
.
- Agregar
m_mem_free
agridengine.relevant_resources
en autoscale.json - Vínculo
m_mem_free
al recurso de memoria de nivel de nodo en autoscale.json
Estos atributos pueden ser referencias con node.*
como valor en _default/resources.
Nodo | Tipo | Descripción |
---|---|---|
nodearray | String | Nombre de cyclecloud nodearray |
placement_group | String | Nombre del grupo de selección de ubicación cyclecloud dentro de un elemento nodearray |
vm_size | String | Nombre del producto de máquina virtual, por ejemplo, "Standard_F2s_v2" |
vcpu_count | Int | CPU virtuales disponibles en el nodo, tal como se indica en páginas de productos individuales |
pcpu_count | Int | CPU físicas disponibles en el nodo |
memoria | String | Memoria física aproximada disponible en la máquina virtual con indicador de unidad, por ejemplo, "8,0g" |
Los atributos adicionales están en el node.resources.*
espacio de nombres, por ejemplo, "node.resources".
Nodo | Tipo | Descripción |
---|---|---|
ncpus | String | Número de CPU disponibles en la máquina virtual |
pcpus | String | Número de CPU físicas disponibles en la máquina virtual |
ngpus | Entero | Número de GPU disponibles en la máquina virtual |
memb | String | Memoria física aproximada disponible en la máquina virtual con indicador de unidad, por ejemplo, "8,0b" |
memkb | String | Memoria física aproximada disponible en la máquina virtual con indicador de unidad, por ejemplo, "8,0k" |
memmb | String | Memoria física aproximada disponible en la máquina virtual con indicador de unidad, por ejemplo, "8,0m" |
memgb | String | Memoria física aproximada disponible en la máquina virtual con indicador de unidad, por ejemplo, "8,0g" |
memtb | String | Memoria física aproximada disponible en la máquina virtual con indicador de unidad, por ejemplo, "8.0t" |
slots | Entero | Igual que ncpus |
slot_type | String | Etiqueta de adición para extensiones. Por lo general, no se usa. |
m_mem_free | String | Memoria libre esperada en el host de ejecución, por ejemplo, "3.0g" |
mfree | String | Igual que _m/_mem/gratis |
Asignación de recursos
También hay matemáticas disponibles para el default_resources: reduzca las ranuras de una matriz de nodos determinada en dos y agregue el recurso de Docker a todos los nodos:
"default_resources": [
{
"select": {"node.nodearray": "beegfs"},
"name": "slots",
"value": "node.vcpu_count",
"subtract": 2
},
{
"select": {},
"name": "docker",
"value": true
},
Asigne las vCPU del nodo a las ranuras complejas y memmb
a mem_free
los valores predeterminados que se usan habitualmente.
Se requiere la primera asociación.
"default_resources": [
{
"select": {},
"name": "slots",
"value": "node.vcpu_count"
},
{
"select": {},
"name": "mem_free",
"value": "node.resources.memmb"
}
],
Tenga en cuenta que si un complejo tiene un acceso directo no igual a todo el valor, defina ambos en default_resources donde physical_cpu
sea el nombre complejo:
"default_resources": [
{
"select": {},
"name": "physical_cpu",
"value": "node.pcpu_count"
},
{
"select": {},
"name": "pcpu",
"value": "node.resources.physical_cpu"
}
]
El orden es importante cuando se desea un comportamiento determinado para un atributo específico. Para asignar una sola ranura para una matriz de nodos específica mientras conserva el recuento de ranuras predeterminados para todas las demás nodoarrays:
"default_resources": [
{
"select": {"node.nodearray": "FPGA"},
"name": "slots",
"value": "1",
},
{
"select": {},
"name": "slots",
"value": "node.vcpu_count"
},
]
Grupos host
CycleCloud autoscaler, al intentar satisfacer los requisitos de trabajo, asignará nodos al grupo host adecuado. Se tienen en cuenta todas las colas, entornos paralelos y complejos. Gran parte de la lógica coincide con el cubo cyclecloud adecuado (y la cantidad de nodos) con el grupo host sge adecuado.
Para un trabajo enviado como: qsub -q "cloud.q" -l "m_mem_free=4g" -pe "mpi*" 48 ./myjob.sh
CycleCloud encontrará la intersección de grupos host que:
- Se incluyen en el pe_list de cloud.q y coinciden con el nombre pe, por ejemplo,
pe_list [@allhosts=mpislots],[@hpc1=mpi]
. - Disponer de recursos adecuados y cuota de suscripción para proporcionar todos los recursos de trabajo.
- No se filtran por la configuración de restricciones del grupo host.
Es posible que varios grupos host cumplan estos requisitos, en cuyo caso la lógica tendrá que elegir. Hay tres maneras de resolver ambigüedades en la pertenencia a grupos host:
- Configure las colas para que no haya ambigüedades.
- Agregue restricciones a autoscale.json.
- Deje que CycleCloud elija amoungst los grupos host coincidentes de forma ordenada por nombres ajustando
weight_queue_host_sort < weight_queue_seqno
en la configuración del programador. - Establezca
seq_no 10000,[@hostgroup1=100],[@hostgroup2=200]
en la configuración de la cola para indicar una preferencia de grupo host.
Restricciones de grupo de hosts
Cuando se definen varios grupos de hosts mediante una cola o xproject, todos estos grupos host pueden tener potencialmente los hosts agregados. Puede limitar los tipos de hosts que se pueden agregar a las colas estableciendo restricciones de grupo de hosts. Establezca una restricción basada en las propiedades del nodo.
"gridengine": {
"hostgroups": {
"@mpi": {
"constraints": {
"node.vm_size": "Standard_H44rs"
}
},
"@amd-mem": {
"constraints" : {
"node.vm_size": "Standard_D2_v3",
"node.nodearray": "hpc"
}
},
}
}
SUGERENCIA: Inspeccione todas las propiedades de nodo disponibles por
azge buckets
.
azge
Este paquete incluye una línea de comandos, azge. Este programa debe usarse para realizar el escalado automático y ha desglosado todos los subprocesos en escalabilidad automática.
Estos comandos dependen de las variables de entorno gridengine que se van a establecer: debe poder llamar qconf
a y qsub
desde el mismo perfil en azge
el que se llama.
comandos azge | Descripción |
---|---|
validate | Comprueba si hay errores de configuración conocidos en el escalador automático o gridengine. |
jobs | Muestra todos los trabajos de la cola |
cubos | Muestra los grupos de recursos disponibles para el escalado automático |
nodes | Muestra las propiedades y los hosts del clúster |
Demanda | Coincide con los requisitos de trabajo para los cubos cyclecloud y proporciona el resultado de escalado automático. |
autoscale | Realiza el escalado automático completo, iniciando y quitando nodos según las configuraciones. |
Al modificar las configuraciones del programador (qconf) o las configuraciones de escalado automático (autoscale.json), o incluso la configuración por primera vez, se puede usar azge para comprobar que el comportamiento de escalado automático coincide con las expectativas. Como raíz, puede ejecutar las siguientes operaciones. Es aconsejable familiarizarse con estos para comprender el comportamiento de la escalabilidad automática.
- Ejecute
azge validate
para comprobar las configuraciones de los problemas conocidos. - Ejecute
azge buckets
para examinar qué recursos ofrece el clúster de CycleCloud. - Ejecute
azge jobs
para inspeccionar los detalles del trabajo en cola. - Ejecute
azge demand
el trabajo para buscar coincidencias de cubos, examine qué trabajos se comparan con los cubos y grupos host. - Ejecute
azge autoscale
para iniciar el proceso de asignación de nodos o agregue nodos que estén listos para unirse.
A continuación, cuando estos comandos se comportan según lo previsto, habilite el escalado automático continuo agregando el azge autoscale
comando a la tabla crontab raíz. (Siga las variables de entorno gridengine)
* * * * * . $SGE_ROOT/common/settings.sh && /usr/local/bin/azge autoscale -c /opt/cycle/gridengine/autoscale.json
Creación de un clúster híbrido
CycleCloud admitirá el escenario de expansión a la nube. La configuración base supone que el $SGE_ROOT
directorio está disponible para los nodos en la nube. Esta suposición se puede relajar estableciendo gridengine.shared.spool = false
e gridengine.shared.bin = false
instalando GridEngine localmente.
Para un caso sencillo, debe proporcionar un sistema de archivos que los nodos $SGE_ROOT
de ejecución puedan montar y configurar ese montaje en las opciones opcionales. Cuando se libera la dependencia de los directorios compartidos y sched, puede apagar el nodo del programador que forma parte del clúster de forma predeterminada y usar las configuraciones del sistema de archivos externo.
- Cree un nuevo clúster gridengine.
- Deshabilite el proxy de devolución.
- Reemplace /sched y /shared por sistemas de archivos externos.
- Guarde el clúster.
- Quite el nodo del programador como una acción en la interfaz de usuario.
- Inicie el clúster, no se iniciará inicialmente ningún nodo.
- Configuración
cyclecloud-gridengine
con autoscale.json para usar el nuevo clúster
Uso de Univa Grid Engine en CycleCloud
El proyecto CycleCloud para GridEngine usa sge-2011.11 de forma predeterminada. Puede usar sus propios instaladores de Altair GridEngine según su contrato de licencia de Altair.
En esta sección se documenta cómo usar Altair GridEngine con el proyecto CycleCloud GridEngine.
Prerrequisitos
En este ejemplo se usará la versión 8.6.1-demo, pero se admiten todas las versiones > de ge 8.4.0.
- Los usuarios deben proporcionar archivos binarios UGE.
- ge-8.6.x-bin-lx-amd64.tar.gz
- ge-8.6.x-common.tar.gz
- La CLI de CycleCloud debe estar configurada. La documentación está disponible aquí.
Copia de los archivos binarios en la caja de seguridad en la nube
Una versión complementaria de AGE (8.6.7-demo) se distribuye con CycleCloud. Para usar otra versión, cargue los archivos binarios en la cuenta de almacenamiento que usa CycleCloud.
$ azcopy cp ge-8.6.12-bin-lx-amd64.tar.gz https://<storage-account-name>.blob.core.windows.net/cyclecloud/gridengine/blobs/
$ azcopy cp ge-8.6.12-common.tar.gz https://<storage-account-name>.blob.core.windows.net/cyclecloud/gridengine/blobs/
Modificación de configuraciones en la plantilla de clúster
Realice una copia local de la plantilla gridengine y modifíquela para usar los instaladores de UGE en lugar del valor predeterminado.
wget https://raw.githubusercontent.com/Azure/cyclecloud-gridengine/master/templates/gridengine.txt
En el archivo gridengine.txt , busque la primera aparición de e inserte texto de forma que coincida con el fragmento de [[[configuration]]]
código siguiente. Este archivo no distingue la sangría.
NOTA: Los detalles de la configuración, especialmente la versión, deben coincidir con el nombre del archivo del instalador.
[[[configuration gridengine]]]
make = ge
version = 8.6.12-demo
root = /sched/ge/ge-8.6.12-demo
cell = "default"
sge_qmaster_port = "537"
sge_execd_port = "538"
sge_cluster_name = "grid1"
gid_range = "20000-20100"
qmaster_spool_dir = "/sched/ge/ge-8.6.12-demo/default/spool/qmaster"
execd_spool_dir = "/sched/ge/ge-8.6.12-demo/default/spool"
spooling_method = "berkeleydb"
shadow_host = ""
admin_mail = ""
idle_timeout = 300
managed_fs = true
shared.bin = true
ignore_fqdn = true
group.name = "sgeadmin"
group.gid = 536
user.name = "sgeadmin"
user.uid = 536
user.gid = 536
user.description = "SGE admin user"
user.home = "/shared/home/sgeadmin"
user.shell = "/bin/bash"
Estas configuraciones invalidarán la versión predeterminada de gridengine y la ubicación de instalación cuando se inicie el clúster.
No es seguro salir de , /sched
ya que es una ubicación nfs compartida específicamente en el clúster.