- 17, May 2024
- #1
Привет всем участникам форума.
Я только что зарегистрировался на форуме.
Я управляю компьютером с Linux, на котором есть Torque для планирования заданий. Мне бы хотелось получить ваши предложения по следующей проблеме с Torque.
Надеюсь, это правильный раздел для этой темы. Я пытался тщательно проверить все файлы конфигурации и настройки, но узлы всегда не работают. Недавно я обновил пакеты, и пакеты крутящего момента были обновлены до последних версий оборотов.
Однако я не могу перевести узлы в активное состояние (см. вывод команд ниже).
> узлы
node01.cluster
состояние = вниз
НП = 12
свойства = allcomp,gpu,вычислить
ntype = кластер
Mom_service_port = 15002
Mom_manager_port = 15003
графический процессор = 1
node02.cluster
состояние = вниз
НП = 12
свойства = allcomp,gpu,вычислить
ntype = кластер
Mom_service_port = 15002
Mom_manager_port = 15003
графический процессор = 1
?.
?
?
> Momctl -d 3 -h node01 Хост: node01.cluster/node01.cluster Версия: 4.2.10 PID: 12009 Сервер[0]: XXXXXX.cluster (10.1.1.254:15001) ВНИМАНИЕ: с сервера не получено ни одного сообщения. ВНИМАНИЕ: на сервер не отправляются сообщения Домашний каталог: /var/lib/torque/mom_priv Каталог очереди stdout/stderr: '/var/lib/torque/spool/' (доступно 108669845 блоков) ПРИМЕЧАНИЕ.
Системный журнал включен.
МОМ активен: 1755 секунд
Время проверки опроса: 45 секунд
Интервал обновления сервера: 45 секунд.
LogLevel: 7 (для настройки используйте SIGUSR1/SIGUSR2)
Модель связи: TCP
MemLocked: ИСТИНА (млок)
Таймаут TCP: 60 секунд
Пролог: /var/lib/torque/mom_priv/prologue (отключено)
Время будильника: 0 из 10 секунд
Список доверенных клиентов: 10.1.1.1:0,10.1.1.254:0,127.0.0.1:0: 0
Команда копирования: /usr/bin/scp -rpB
ПРИМЕЧАНИЕ.
Локальные задания не обнаружены.
диагностика завершена
Ранее узлы и сервер были активны и функционировали нормально.
Я проверил все файлы конфигурации, и они кажутся правильными.
Я могу подключиться по SSH к узлу 01 или к другим узлам и вернуться на сервер без пароля.
Имя хоста сервера одинаково в поле server_name как в файлах конфигурации сервера, так и в клиенте, а также в записях /etc/hosts.
Демоны munge и trqauthd запущены.
Как видно из команды Momctl, выполненной на сервере, она предоставляет выходные данные, но ПРЕДУПРЕЖДЕНИЯ указывают на то, что сервер и клиент не обмениваются данными.
Я не могу найти подсказку в журналах сервера или мамы.
Не могли бы вы дать несколько указаний по решению этой проблемы? Ниже приведены журналы на сервере и node01.
НА СЕРВЕРЕ:
03.05.2016 09:19:04;0008;PBS_Server.2942;Job;0.XXXXX.cluster;Job
Изменено по просьбе
03.05.2016 09:19:04;0040;PBS_Server.2942;Req;node_spec;распределение заданий
запрос превышает доступные на данный момент узлы кластера, 1 запрошено, 0 доступно
03.05.2016 09:19:04;0008;PBS_Server.2942;Job;0.XXXXX.cluster;не удалось
найти запрошенные ресурсы '1pn=1' (ошибка node_spec) распределение заданий
запрос превышает доступные на данный момент узлы кластера, 1 запрошено, 0 доступно
03.05.2016 09:19:04;0080;PBS_Server.2942;Req;req_reject;Отклонить ответ
code=15046(Ресурс временно недоступен MSG=запрос на выделение задания
превышает доступные на данный момент узлы кластера, 1 запрошено, 0 доступно),
aux=0, тип=RunJob, из
03.05.2016 09:19:04;0008;PBS_Server.2942;Job;0.XXXXX.cluster;Job
Изменено по просьбе
03.05.2016 09:19:48;0002;PBS_Server.2958;Svr;PBS_Server;Torque Server
Версия = 4.2.10, уровень журнала = 0
03.05.2016 09:24:56;0002;PBS_Server.2940;Svr;PBS_Server;Torque Server
Версия = 4.2.10, уровень журнала = 0
> хвост -f sched_logs/20160503
03.05.2016 07:48:19;0080; pbs_sched.2825;Svr;main;точка тормоза 98287616
03.05.2016 07:58:24;0080; pbs_sched.2825;Svr;main;точка тормоза 98811904
03.05.2016 08:08:29;0080; pbs_sched.2825;Svr;main;точка тормоза 99336192
03.05.2016 08:18:34;0080; pbs_sched.2825;Svr;main;точка тормоза 99860480
03.05.2016 08:28:39;0080; pbs_sched.2825;Svr;main;точка тормоза 100384768
03.05.2016 08:38:44;0080; pbs_sched.2825;Svr;main;точка тормоза 100909056
03.05.2016 08:48:49;0080; pbs_sched.2825;Svr;main;точка тормоза 101433344
03.05.2016 08:58:54;0080; pbs_sched.2825;Svr;main;точка тормоза 102486016
03.05.2016 09:19:04;0080; pbs_sched.2825;Svr;main;точка тормоза 103010304
03.05.2016 09:29:09;0080; pbs_sched.2825;Svr;main;точка тормоза 103534592
ВКЛ. node01:
05/03/2016 09:26:57;0002;
pbs_mom.15663;n/a;mom_server_all_update_stat;составление обновления статуса для
сервер
03.05.2016 09:26:57;0008; pbs_mom.15663;Задание;сканировать_завершено;введено
03.05.2016 09:26:57;0080; pbs_mom.15663;Svr;mom_get_sample;proc_array
загрузка началась
05/03/2016 09:26:57;0002;
pbs_mom.15663;Svr;get_cpuset_pidlist;/dev/cpuset/torque содержит 0 PID
03.05.2016 09:26:57;0080; pbs_mom.15663;н/д;mom_get_sample;proc_array
загружено - nproc=0
03.05.2016 09:26:57;0008; pbs_mom.15663;Задание;сканированиедлятерминированного;pid
15682 не отслеживается, statloc=0, exitval=0
05/03/2016 09:27:42;0002;
pbs_mom.15663;n/a;mom_server_all_update_stat;составление обновления статуса для
сервер
03.05.2016 09:27:42;0008; pbs_mom.15663;Задание;сканировать_завершено;введено
03.05.2016 09:27:42;0080; pbs_mom.15663;Svr;mom_get_sample;proc_array
загрузка началась
05/03/2016 09:27:42;0002;
pbs_mom.15663;Svr;get_cpuset_pidlist;/dev/cpuset/torque содержит 0 PID
03.05.2016 09:27:42;0080; pbs_mom.15663;н/д;mom_get_sample;proc_array
загружено - nproc=0
03.05.2016 09:27:42;0008; pbs_mom.15663;Задание;сканированиедлятерминированного;pid 15684 не отслеживается, statloc=0, exitval=0 Вывод других ключевых команд.
> uname -а Linux stinger.cluster 2.6.32-573.7.1.el6.centos.plus.x86_64 #1 SMP Ср, 23 сентября 03:02:55 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux
> об/мин -aq | Греп крутящий момент крутящий момент-сервер-4.2.10-9.el6.x86_64 крутящий момент-libs-4.2.10-9.el6.x86_64 планировщик крутящего момента-4.2.10-9.el6.x86_64 крутящий момент-мама-4.2.10-9.el6.x86_64 крутящий момент-клиент-4.2.10-9.el6.x86_64 крутящий момент-4.2.10-9.el6.x86_64
> qstat -q сервер: XXXXXX.cluster Очередь Память Время ЦП Время работы узла Состояние очереди Que Lm ---------------- ------ -------- -------- ---- --- --- -- ----- партия -- -- -- -- 0 1 6 E R ----- -----
> qmgr -c 'p s'
#
# Создайте очереди и установите их атрибуты.
#
#
# Создать и определить пакет очереди
#
создать пакет очереди
установить пакетный пакет очередиqueue_type = Выполнение
установить пакет очереди max_running = 6
установить пакетную очередь resources_max.ncpus = 8
установить пакетную очередь resources_max.nodes = 1
установить пакетную очередь resources_default.ncpus = 1
установить пакетную очередь resources_default.neednodes = 1pn=1
установить пакетную очередь resources_default.walltime = 24:00:00
установить пакет очереди max_user_run = 6
включить пакетную обработку очереди = True
установить очередь, пакет запущен = True
#
# Установите атрибуты сервера.
#
установить планирование сервера = True
установить сервер acl_hosts = XXXXXX.cluster
установить сервер acl_hosts += node01
установить сервер default_queue = пакетный
установить сервер log_events = 511
установить сервер mail_from = adm
установить планировщик_итерации сервера = 600
установить сервер node_check_rate = 150
установить сервер tcp_timeout = 300
установить сервер job_stat_rate = 45
установите сервер poll_jobs = True
установить сервер Mom_job_sync = True
установить сервер next_job_number = 1
установить авторизованные_пользователи сервера =
установить сервер moab_array_совместимый = True
установить сервер nppcu = 1
0 1
> кот /var/lib/torque/server_priv/nodes
node01.cluster np=12 gpus=1 вычисление allcomp GPU
node02.cluster np=12 gpus=1 вычисление allcomp GPU
node03.cluster np=12 gpus=1 вычисления allcomp GPU
node04.cluster np=12 gpus=1 вычисление allcomp GPU
node05.cluster np=12 gpus=1 вычисления allcomp GPU
node06.cluster np=12 gpus=1 вычисления allcomp GPU
node07.cluster np=12 gpus=1 вычисления allcomp GPU
node08.cluster np=12 gpus=1 вычисление allcomp GPU
node09.cluster np=12 gpus=1 вычисление allcomp GPU
Я управляю компьютером с Linux, на котором есть Torque для планирования заданий. Мне бы хотелось получить ваши предложения по следующей проблеме с Torque.
Надеюсь, это правильный раздел для этой темы. Я пытался тщательно проверить все файлы конфигурации и настройки, но узлы всегда не работают. Недавно я обновил пакеты, и пакеты крутящего момента были обновлены до последних версий оборотов.
Однако я не могу перевести узлы в активное состояние (см. вывод команд ниже).
> узлы
node01.cluster
состояние = вниз
НП = 12
свойства = allcomp,gpu,вычислить
ntype = кластер
Mom_service_port = 15002
Mom_manager_port = 15003
графический процессор = 1
node02.cluster
состояние = вниз
НП = 12
свойства = allcomp,gpu,вычислить
ntype = кластер
Mom_service_port = 15002
Mom_manager_port = 15003
графический процессор = 1
?.
?
?
> Momctl -d 3 -h node01 Хост: node01.cluster/node01.cluster Версия: 4.2.10 PID: 12009 Сервер[0]: XXXXXX.cluster (10.1.1.254:15001) ВНИМАНИЕ: с сервера не получено ни одного сообщения. ВНИМАНИЕ: на сервер не отправляются сообщения Домашний каталог: /var/lib/torque/mom_priv Каталог очереди stdout/stderr: '/var/lib/torque/spool/' (доступно 108669845 блоков) ПРИМЕЧАНИЕ.
Системный журнал включен.
МОМ активен: 1755 секунд
Время проверки опроса: 45 секунд
Интервал обновления сервера: 45 секунд.
LogLevel: 7 (для настройки используйте SIGUSR1/SIGUSR2)
Модель связи: TCP
MemLocked: ИСТИНА (млок)
Таймаут TCP: 60 секунд
Пролог: /var/lib/torque/mom_priv/prologue (отключено)
Время будильника: 0 из 10 секунд
Список доверенных клиентов: 10.1.1.1:0,10.1.1.254:0,127.0.0.1:0: 0
Команда копирования: /usr/bin/scp -rpB
ПРИМЕЧАНИЕ.
Локальные задания не обнаружены.
диагностика завершена
Ранее узлы и сервер были активны и функционировали нормально.
Я проверил все файлы конфигурации, и они кажутся правильными.
Я могу подключиться по SSH к узлу 01 или к другим узлам и вернуться на сервер без пароля.
Имя хоста сервера одинаково в поле server_name как в файлах конфигурации сервера, так и в клиенте, а также в записях /etc/hosts.
Демоны munge и trqauthd запущены.
Как видно из команды Momctl, выполненной на сервере, она предоставляет выходные данные, но ПРЕДУПРЕЖДЕНИЯ указывают на то, что сервер и клиент не обмениваются данными.
Я не могу найти подсказку в журналах сервера или мамы.
Не могли бы вы дать несколько указаний по решению этой проблемы? Ниже приведены журналы на сервере и node01.
НА СЕРВЕРЕ:
хвост /var/lib/torque/server_logs/20160503
03.05.2016 09:19:04;0008;PBS_Server.2942;Job;0.XXXXX.cluster;Job
Изменено по просьбе
03.05.2016 09:19:04;0040;PBS_Server.2942;Req;node_spec;распределение заданий
запрос превышает доступные на данный момент узлы кластера, 1 запрошено, 0 доступно
03.05.2016 09:19:04;0008;PBS_Server.2942;Job;0.XXXXX.cluster;не удалось
найти запрошенные ресурсы '1pn=1' (ошибка node_spec) распределение заданий
запрос превышает доступные на данный момент узлы кластера, 1 запрошено, 0 доступно
03.05.2016 09:19:04;0080;PBS_Server.2942;Req;req_reject;Отклонить ответ
code=15046(Ресурс временно недоступен MSG=запрос на выделение задания
превышает доступные на данный момент узлы кластера, 1 запрошено, 0 доступно),
aux=0, тип=RunJob, из
03.05.2016 09:19:04;0008;PBS_Server.2942;Job;0.XXXXX.cluster;Job
Изменено по просьбе
03.05.2016 09:19:48;0002;PBS_Server.2958;Svr;PBS_Server;Torque Server
Версия = 4.2.10, уровень журнала = 0
03.05.2016 09:24:56;0002;PBS_Server.2940;Svr;PBS_Server;Torque Server
Версия = 4.2.10, уровень журнала = 0
> хвост -f sched_logs/20160503
03.05.2016 07:48:19;0080; pbs_sched.2825;Svr;main;точка тормоза 98287616
03.05.2016 07:58:24;0080; pbs_sched.2825;Svr;main;точка тормоза 98811904
03.05.2016 08:08:29;0080; pbs_sched.2825;Svr;main;точка тормоза 99336192
03.05.2016 08:18:34;0080; pbs_sched.2825;Svr;main;точка тормоза 99860480
03.05.2016 08:28:39;0080; pbs_sched.2825;Svr;main;точка тормоза 100384768
03.05.2016 08:38:44;0080; pbs_sched.2825;Svr;main;точка тормоза 100909056
03.05.2016 08:48:49;0080; pbs_sched.2825;Svr;main;точка тормоза 101433344
03.05.2016 08:58:54;0080; pbs_sched.2825;Svr;main;точка тормоза 102486016
03.05.2016 09:19:04;0080; pbs_sched.2825;Svr;main;точка тормоза 103010304
03.05.2016 09:29:09;0080; pbs_sched.2825;Svr;main;точка тормоза 103534592
ВКЛ. node01:
хвост /var/lib/torque/mom_logs/20160503
05/03/2016 09:26:57;0002;
pbs_mom.15663;n/a;mom_server_all_update_stat;составление обновления статуса для
сервер
03.05.2016 09:26:57;0008; pbs_mom.15663;Задание;сканировать_завершено;введено
03.05.2016 09:26:57;0080; pbs_mom.15663;Svr;mom_get_sample;proc_array
загрузка началась
05/03/2016 09:26:57;0002;
pbs_mom.15663;Svr;get_cpuset_pidlist;/dev/cpuset/torque содержит 0 PID
03.05.2016 09:26:57;0080; pbs_mom.15663;н/д;mom_get_sample;proc_array
загружено - nproc=0
03.05.2016 09:26:57;0008; pbs_mom.15663;Задание;сканированиедлятерминированного;pid
15682 не отслеживается, statloc=0, exitval=0
05/03/2016 09:27:42;0002;
pbs_mom.15663;n/a;mom_server_all_update_stat;составление обновления статуса для
сервер
03.05.2016 09:27:42;0008; pbs_mom.15663;Задание;сканировать_завершено;введено
03.05.2016 09:27:42;0080; pbs_mom.15663;Svr;mom_get_sample;proc_array
загрузка началась
05/03/2016 09:27:42;0002;
pbs_mom.15663;Svr;get_cpuset_pidlist;/dev/cpuset/torque содержит 0 PID
03.05.2016 09:27:42;0080; pbs_mom.15663;н/д;mom_get_sample;proc_array
загружено - nproc=0
03.05.2016 09:27:42;0008; pbs_mom.15663;Задание;сканированиедлятерминированного;pid 15684 не отслеживается, statloc=0, exitval=0 Вывод других ключевых команд.
> uname -а Linux stinger.cluster 2.6.32-573.7.1.el6.centos.plus.x86_64 #1 SMP Ср, 23 сентября 03:02:55 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux
> об/мин -aq | Греп крутящий момент крутящий момент-сервер-4.2.10-9.el6.x86_64 крутящий момент-libs-4.2.10-9.el6.x86_64 планировщик крутящего момента-4.2.10-9.el6.x86_64 крутящий момент-мама-4.2.10-9.el6.x86_64 крутящий момент-клиент-4.2.10-9.el6.x86_64 крутящий момент-4.2.10-9.el6.x86_64
> qstat -q сервер: XXXXXX.cluster Очередь Память Время ЦП Время работы узла Состояние очереди Que Lm ---------------- ------ -------- -------- ---- --- --- -- ----- партия -- -- -- -- 0 1 6 E R ----- -----
> qmgr -c 'p s'
#
# Создайте очереди и установите их атрибуты.
#
#
# Создать и определить пакет очереди
#
создать пакет очереди
установить пакетный пакет очередиqueue_type = Выполнение
установить пакет очереди max_running = 6
установить пакетную очередь resources_max.ncpus = 8
установить пакетную очередь resources_max.nodes = 1
установить пакетную очередь resources_default.ncpus = 1
установить пакетную очередь resources_default.neednodes = 1pn=1
установить пакетную очередь resources_default.walltime = 24:00:00
установить пакет очереди max_user_run = 6
включить пакетную обработку очереди = True
установить очередь, пакет запущен = True
#
# Установите атрибуты сервера.
#
установить планирование сервера = True
установить сервер acl_hosts = XXXXXX.cluster
установить сервер acl_hosts += node01
установить сервер default_queue = пакетный
установить сервер log_events = 511
установить сервер mail_from = adm
установить планировщик_итерации сервера = 600
установить сервер node_check_rate = 150
установить сервер tcp_timeout = 300
установить сервер job_stat_rate = 45
установите сервер poll_jobs = True
установить сервер Mom_job_sync = True
установить сервер next_job_number = 1
установить авторизованные_пользователи сервера =
установить сервер moab_array_совместимый = True
установить сервер nppcu = 1
0 1
> кот /var/lib/torque/server_priv/nodes
node01.cluster np=12 gpus=1 вычисление allcomp GPU
node02.cluster np=12 gpus=1 вычисление allcomp GPU
node03.cluster np=12 gpus=1 вычисления allcomp GPU
node04.cluster np=12 gpus=1 вычисление allcomp GPU
node05.cluster np=12 gpus=1 вычисления allcomp GPU
node06.cluster np=12 gpus=1 вычисления allcomp GPU
node07.cluster np=12 gpus=1 вычисления allcomp GPU
node08.cluster np=12 gpus=1 вычисление allcomp GPU
node09.cluster np=12 gpus=1 вычисление allcomp GPU