Проблема с планировщиком крутящего момента (узлы не работают)

  • Автор темы rus56
  • 26
  • Обновлено
  • 17, May 2024
  • #1
Привет всем участникам форума. Я только что зарегистрировался на форуме.

Я управляю компьютером с Linux, на котором есть Torque для планирования заданий. Мне бы хотелось получить ваши предложения по следующей проблеме с Torque.

Надеюсь, это правильный раздел для этой темы. Я пытался тщательно проверить все файлы конфигурации и настройки, но узлы всегда не работают. Недавно я обновил пакеты, и пакеты крутящего момента были обновлены до последних версий оборотов.

Однако я не могу перевести узлы в активное состояние (см. вывод команд ниже).
> узлы

node01.cluster

состояние = вниз

НП = 12

свойства = allcomp,gpu,вычислить

ntype = кластер

Mom_service_port = 15002

Mom_manager_port = 15003

графический процессор = 1

node02.cluster

состояние = вниз

НП = 12

свойства = allcomp,gpu,вычислить

ntype = кластер

Mom_service_port = 15002

Mom_manager_port = 15003

графический процессор = 1

?.

?

?

> Momctl -d 3 -h node01 Хост: node01.cluster/node01.cluster Версия: 4.2.10 PID: 12009 Сервер[0]: XXXXXX.cluster (10.1.1.254:15001) ВНИМАНИЕ: с сервера не получено ни одного сообщения. ВНИМАНИЕ: на сервер не отправляются сообщения Домашний каталог: /var/lib/torque/mom_priv Каталог очереди stdout/stderr: '/var/lib/torque/spool/' (доступно 108669845 блоков) ПРИМЕЧАНИЕ.

Системный журнал включен.

МОМ активен: 1755 секунд

Время проверки опроса: 45 секунд

Интервал обновления сервера: 45 секунд.

LogLevel: 7 (для настройки используйте SIGUSR1/SIGUSR2)

Модель связи: TCP

MemLocked: ИСТИНА (млок)

Таймаут TCP: 60 секунд

Пролог: /var/lib/torque/mom_priv/prologue (отключено)

Время будильника: 0 из 10 секунд

Список доверенных клиентов: 10.1.1.1:0,10.1.1.254:0,127.0.0.1:0: 0

Команда копирования: /usr/bin/scp -rpB

ПРИМЕЧАНИЕ.

Локальные задания не обнаружены.

диагностика завершена

Ранее узлы и сервер были активны и функционировали нормально.

Я проверил все файлы конфигурации, и они кажутся правильными.

Я могу подключиться по SSH к узлу 01 или к другим узлам и вернуться на сервер без пароля.

Имя хоста сервера одинаково в поле server_name как в файлах конфигурации сервера, так и в клиенте, а также в записях /etc/hosts.

Демоны munge и trqauthd запущены.

Как видно из команды Momctl, выполненной на сервере, она предоставляет выходные данные, но ПРЕДУПРЕЖДЕНИЯ указывают на то, что сервер и клиент не обмениваются данными.

Я не могу найти подсказку в журналах сервера или мамы.

Не могли бы вы дать несколько указаний по решению этой проблемы? Ниже приведены журналы на сервере и node01.
НА СЕРВЕРЕ:

хвост /var/lib/torque/server_logs/20160503


03.05.2016 09:19:04;0008;PBS_Server.2942;Job;0.XXXXX.cluster;Job

Изменено по просьбе

03.05.2016 09:19:04;0040;PBS_Server.2942;Req;node_spec;распределение заданий

запрос превышает доступные на данный момент узлы кластера, 1 запрошено, 0 доступно

03.05.2016 09:19:04;0008;PBS_Server.2942;Job;0.XXXXX.cluster;не удалось

найти запрошенные ресурсы '1pn=1' (ошибка node_spec) распределение заданий

запрос превышает доступные на данный момент узлы кластера, 1 запрошено, 0 доступно

03.05.2016 09:19:04;0080;PBS_Server.2942;Req;req_reject;Отклонить ответ

code=15046(Ресурс временно недоступен MSG=запрос на выделение задания

превышает доступные на данный момент узлы кластера, 1 запрошено, 0 доступно),

aux=0, тип=RunJob, из

03.05.2016 09:19:04;0008;PBS_Server.2942;Job;0.XXXXX.cluster;Job

Изменено по просьбе

03.05.2016 09:19:48;0002;PBS_Server.2958;Svr;PBS_Server;Torque Server

Версия = 4.2.10, уровень журнала = 0

03.05.2016 09:24:56;0002;PBS_Server.2940;Svr;PBS_Server;Torque Server

Версия = 4.2.10, уровень журнала = 0

> хвост -f sched_logs/20160503

03.05.2016 07:48:19;0080; pbs_sched.2825;Svr;main;точка тормоза 98287616

03.05.2016 07:58:24;0080; pbs_sched.2825;Svr;main;точка тормоза 98811904

03.05.2016 08:08:29;0080; pbs_sched.2825;Svr;main;точка тормоза 99336192

03.05.2016 08:18:34;0080; pbs_sched.2825;Svr;main;точка тормоза 99860480

03.05.2016 08:28:39;0080; pbs_sched.2825;Svr;main;точка тормоза 100384768

03.05.2016 08:38:44;0080; pbs_sched.2825;Svr;main;точка тормоза 100909056

03.05.2016 08:48:49;0080; pbs_sched.2825;Svr;main;точка тормоза 101433344

03.05.2016 08:58:54;0080; pbs_sched.2825;Svr;main;точка тормоза 102486016

03.05.2016 09:19:04;0080; pbs_sched.2825;Svr;main;точка тормоза 103010304

03.05.2016 09:29:09;0080; pbs_sched.2825;Svr;main;точка тормоза 103534592

ВКЛ. node01:
хвост /var/lib/torque/mom_logs/20160503


05/03/2016 09:26:57;0002;

pbs_mom.15663;n/a;mom_server_all_update_stat;составление обновления статуса для

сервер

03.05.2016 09:26:57;0008; pbs_mom.15663;Задание;сканировать_завершено;введено

03.05.2016 09:26:57;0080; pbs_mom.15663;Svr;mom_get_sample;proc_array

загрузка началась

05/03/2016 09:26:57;0002;

pbs_mom.15663;Svr;get_cpuset_pidlist;/dev/cpuset/torque содержит 0 PID

03.05.2016 09:26:57;0080; pbs_mom.15663;н/д;mom_get_sample;proc_array

загружено - nproc=0

03.05.2016 09:26:57;0008; pbs_mom.15663;Задание;сканированиедлятерминированного;pid

15682 не отслеживается, statloc=0, exitval=0

05/03/2016 09:27:42;0002;

pbs_mom.15663;n/a;mom_server_all_update_stat;составление обновления статуса для

сервер

03.05.2016 09:27:42;0008; pbs_mom.15663;Задание;сканировать_завершено;введено

03.05.2016 09:27:42;0080; pbs_mom.15663;Svr;mom_get_sample;proc_array

загрузка началась

05/03/2016 09:27:42;0002;

pbs_mom.15663;Svr;get_cpuset_pidlist;/dev/cpuset/torque содержит 0 PID

03.05.2016 09:27:42;0080; pbs_mom.15663;н/д;mom_get_sample;proc_array

загружено - nproc=0

03.05.2016 09:27:42;0008; pbs_mom.15663;Задание;сканированиедлятерминированного;pid 15684 не отслеживается, statloc=0, exitval=0 Вывод других ключевых команд.

> uname -а Linux stinger.cluster 2.6.32-573.7.1.el6.centos.plus.x86_64 #1 SMP Ср, 23 сентября 03:02:55 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux
> об/мин -aq | Греп крутящий момент крутящий момент-сервер-4.2.10-9.el6.x86_64 крутящий момент-libs-4.2.10-9.el6.x86_64 планировщик крутящего момента-4.2.10-9.el6.x86_64 крутящий момент-мама-4.2.10-9.el6.x86_64 крутящий момент-клиент-4.2.10-9.el6.x86_64 крутящий момент-4.2.10-9.el6.x86_64
> qstat -q сервер: XXXXXX.cluster Очередь Память Время ЦП Время работы узла Состояние очереди Que Lm ---------------- ------ -------- -------- ---- --- --- -- ----- партия -- -- -- -- 0 1 6 E R ----- -----
> qmgr -c 'p s'

#

# Создайте очереди и установите их атрибуты.

#

#

# Создать и определить пакет очереди

#

создать пакет очереди

установить пакетный пакет очередиqueue_type = Выполнение

установить пакет очереди max_running = 6

установить пакетную очередь resources_max.ncpus = 8

установить пакетную очередь resources_max.nodes = 1

установить пакетную очередь resources_default.ncpus = 1

установить пакетную очередь resources_default.neednodes = 1pn=1

установить пакетную очередь resources_default.walltime = 24:00:00

установить пакет очереди max_user_run = 6

включить пакетную обработку очереди = True

установить очередь, пакет запущен = True

#

# Установите атрибуты сервера.

#

установить планирование сервера = True

установить сервер acl_hosts = XXXXXX.cluster

установить сервер acl_hosts += node01

установить сервер default_queue = пакетный

установить сервер log_events = 511

установить сервер mail_from = adm

установить планировщик_итерации сервера = 600

установить сервер node_check_rate = 150

установить сервер tcp_timeout = 300

установить сервер job_stat_rate = 45

установите сервер poll_jobs = True

установить сервер Mom_job_sync = True

установить сервер next_job_number = 1

установить авторизованные_пользователи сервера =

установить сервер moab_array_совместимый = True

установить сервер nppcu = 1

0 1

> кот /var/lib/torque/server_priv/nodes

node01.cluster np=12 gpus=1 вычисление allcomp GPU

node02.cluster np=12 gpus=1 вычисление allcomp GPU

node03.cluster np=12 gpus=1 вычисления allcomp GPU

node04.cluster np=12 gpus=1 вычисление allcomp GPU

node05.cluster np=12 gpus=1 вычисления allcomp GPU

node06.cluster np=12 gpus=1 вычисления allcomp GPU

node07.cluster np=12 gpus=1 вычисления allcomp GPU

node08.cluster np=12 gpus=1 вычисление allcomp GPU

node09.cluster np=12 gpus=1 вычисление allcomp GPU

rus56


Рег
21 Nov, 2014

Тем
1

Постов
1

Баллов
11
Тем
49554
Комментарии
57426
Опыт
552966

Интересно