Как Я Справился С Экранами Смерти На Устаревших Блейд-Серверах

Пост о том, как я боролся с проблемами нового ПО на старом железе, возникшими после установки дополнительного оборудования.



Как я справился с экранами смерти на устаревших блейд-серверах

Кому интересно серверное оборудование и устранение неполадок, обращайтесь в кат. Мы заказали два дополнительных коммутатора Cisco для серверной полки HP C3000 и карта мезонина в каждый блейд-сервер, чтобы сделать все с умом.

Мне хотелось разделить сети на физическом уровне, а также повысить производительность и надежность.

Конфигурация оказалась следующей: Полка hp c3000, в ней

  • 2 л.

    с.

    bl460c g6

  • 2 л.

    с.

    bl490c g7



Как я справился с экранами смерти на устаревших блейд-серверах

  • 2 коммутатора HP GbE2c
  • 2 коммутатора Cisco 3020


Как я справился с экранами смерти на устаревших блейд-серверах

Каждый блейд имеет две мезонинные карты (HP NC382m Dual-Port 1GbE и HP NC364m Quad Port 1GbE) и встроенный двухпортовый модуль FlexFabric 10GbE. Мезанинные карты выглядят так:

Как я справился с экранами смерти на устаревших блейд-серверах

HP NC382m

Как я справился с экранами смерти на устаревших блейд-серверах

HP NC364m Серверы работают под управлением Vmware ESXi 5.5. Изначально все работало стабильный без цисок и четырехпортовых антресолей.

Один коммутатор HP предназначался для сети виртуальных машин, второй — для сетей управления и iscsi. Производительности второго оказалось недостаточно и было принято решение вынести сеть iscsi на отдельные свитчи.

Для этого мы приобрели две карты Cisco и мезонинную карту.

Как вы понимаете, 460 серверы достаточно устарели, но их еще следует поддерживать.

Получен актуальный дистрибутив HP Service Pack, обновлена вся полка.

Я удалил 460 хосты из кластера vmware, вставил туда антресоль карт, воткнул их в полку и.

сразу PSOD при загрузке.



Как я справился с экранами смерти на устаревших блейд-серверах

В данном случае кодом ошибки является строка

PCPU0:32840/помощник14-0
Сначала я подумал, что может быть проблема с материнской платой, так как материнская плата на одном из блейдов уже была заменена именно из-за проблем с сетевыми адаптерами.

Время от времени они исчезали.

Но когда проблема продублировалась на втором блейд-сервере, я отбросил эту мысль.

Стоит отметить, что я пробовал запускать сервер с любой одной мезонинной картой в разных слотах и всё работало без проблем, значит проблема не в карте и не в слоте.

Блейд-сервер перешел в режим отладки, читаю логи, читаю форум vmware. Там написано, что это проблема с оборудованием и ссылается на форум производителя.

Захожу на форум HP, там пишут, что при использовании современных продуктов vmware часто возникают трудности на старом оборудовании.

Ставлю vmware esxi 4.1 - все работает стабильно, но проблема в том, что лицензия на esxi 5.5 и для этой лицензии есть сопутствующий софт, например Vgate 2.7. Я устанавливаю Windows Server 2012 R2, чтобы убедиться, что проблема действительно в программном обеспечении и.

BSOD.

Как я справился с экранами смерти на устаревших блейд-серверах

НМИ_HARDWARE_FAILURE
При следующем запуске Windows все работает нравиться стабильно, оставлю на тестирование.

На следующий день я обнаруживаю bsod. При этом во встроенной консоли администратора возникают ошибки в IML (интегрированном журнале управления).

Неисправимый Ошибка PCI Express (встроенное устройство, шина 0, устройство 9, функция 0, статус ошибки 0x00000000).

Те.

неисправимая аппаратная ошибка, а устройство 9 — это всего лишь вторая промежуточная плата.

Продолжаю читать форум hp, там написано, что на это может повлиять прошивка ilo. Обнаруживаю, что есть более новая прошивка ilo и обновляю оба блейда, но не помогает. Далее на форуме написано, что существует несовместимость прошивки и драйверов FlexFabric. Меняю FlexFabric - все равно ошибка.

Пробую разные дистрибутивы: стандартный дистрибутив vmware esxi 5.5 и дистрибутив производителя HP той же сборки.

Результат тот же.

Прочитал, что в логах, и там ошибка конкретно для bnx2 (это сетевой адаптер FlexFabric).

Драйвера Broadcom устанавливаю с сайта vmware (причём перезапись драйвера работает только из консоли самого esxi. Если устанавливать из-под vcenter, то vcenter не перезаписывает).

Перезагружаюсь и полет нормальный! То же самое произошло и с Emulex FlexFabric на 490 блейдах.

Я также обновил BIOS FlexFabric и переписал драйвер.

Все работало стабильно, быстро, .

но не на долго.



Как я справился с экранами смерти на устаревших блейд-серверах

На этом снимке экрана код ошибки — это строка

PCPU0:32802/UplinkWatchdogWorld
Появилась вторая проблема, связанная с мезонинной картой.

Через некоторое время четырехпортовая мезонинная плата на одном из блейдов полностью исчезла даже из BIOS хоста.

Перезагрузка, сброс биоса ничего не помогало, пока в биосе не нашелся пункт о работе с mezzanine pci адаптерами.

С помощью линий PCI появилась возможность выбора уровня усиления сигнала (всего две точки 6дБ и 3,5дБ).

Да, так и было, потому что этот пункт появился при добавлении четырехпортовой карты.

Переключил уровень усиления и сразу после перезагрузки карта появилась в биосе.

Прошло две рабочие недели и ни одного фиолетового экрана не было.

После обновления прошивки на сетевых картах появилась функция пробуждения по локальной сети, которой раньше не было, и на vcenter было настроено управление питанием.

Теперь хосты просыпаются, когда это необходимо.

И в заключение хочу сказать, что нужно быть внимательным к функционалу, который появляется при добавлении нового оборудования (например, дополнительных пунктов в биосе), а также, что не все неисправимые аппаратные ошибки неисправимы.

Некоторые ошибки вызваны стандартными драйверами и устаревшим биосом.

Надеюсь, мои бои с клинками будут кому-то полезны.

Теги: #Виртуализация #vmware #Windows #BSOD #blade-сервер #экран смерти #psod #LINT1/NMI #mezzanine

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.