Пост о том, как я боролся с проблемами нового ПО на старом железе, возникшими после установки дополнительного оборудования.
Кому интересно серверное оборудование и устранение неполадок, обращайтесь в кат.
Мы заказали два дополнительных коммутатора Cisco для серверной полки HP C3000 и карта мезонина в каждый блейд-сервер, чтобы сделать все с умом.
Мне хотелось разделить сети на физическом уровне, а также повысить производительность и надежность.
Конфигурация оказалась следующей: Полка hp c3000, в ней
- 2 л.
с.
bl460c g6
- 2 л.
с.
bl490c g7
- 2 коммутатора HP GbE2c
- 2 коммутатора Cisco 3020
Каждый блейд имеет две мезонинные карты (HP NC382m Dual-Port 1GbE и HP NC364m Quad Port 1GbE) и встроенный двухпортовый модуль FlexFabric 10GbE. Мезанинные карты выглядят так:
HP NC382m
HP NC364m Серверы работают под управлением Vmware ESXi 5.5. Изначально все работало стабильный без цисок и четырехпортовых антресолей.
Один коммутатор HP предназначался для сети виртуальных машин, второй — для сетей управления и iscsi. Производительности второго оказалось недостаточно и было принято решение вынести сеть iscsi на отдельные свитчи.
Для этого мы приобрели две карты Cisco и мезонинную карту.
Как вы понимаете, 460 серверы достаточно устарели, но их еще следует поддерживать.
Получен актуальный дистрибутив HP Service Pack, обновлена вся полка.
Я удалил 460 хосты из кластера vmware, вставил туда антресоль карт, воткнул их в полку и.
сразу PSOD при загрузке.
В данном случае кодом ошибки является строка
PCPU0:32840/помощник14-0Сначала я подумал, что может быть проблема с материнской платой, так как материнская плата на одном из блейдов уже была заменена именно из-за проблем с сетевыми адаптерами.
Время от времени они исчезали.
Но когда проблема продублировалась на втором блейд-сервере, я отбросил эту мысль.
Стоит отметить, что я пробовал запускать сервер с любой одной мезонинной картой в разных слотах и всё работало без проблем, значит проблема не в карте и не в слоте.
Блейд-сервер перешел в режим отладки, читаю логи, читаю форум vmware. Там написано, что это проблема с оборудованием и ссылается на форум производителя.
Захожу на форум HP, там пишут, что при использовании современных продуктов vmware часто возникают трудности на старом оборудовании.
Ставлю vmware esxi 4.1 - все работает стабильно, но проблема в том, что лицензия на esxi 5.5 и для этой лицензии есть сопутствующий софт, например Vgate 2.7. Я устанавливаю Windows Server 2012 R2, чтобы убедиться, что проблема действительно в программном обеспечении и.
BSOD.
НМИ_HARDWARE_FAILUREПри следующем запуске Windows все работает нравиться стабильно, оставлю на тестирование.
На следующий день я обнаруживаю bsod. При этом во встроенной консоли администратора возникают ошибки в IML (интегрированном журнале управления).
Неисправимый Ошибка PCI Express (встроенное устройство, шина 0, устройство 9, функция 0, статус ошибки 0x00000000).
Те.
неисправимая аппаратная ошибка, а устройство 9 — это всего лишь вторая промежуточная плата.
Продолжаю читать форум hp, там написано, что на это может повлиять прошивка ilo. Обнаруживаю, что есть более новая прошивка ilo и обновляю оба блейда, но не помогает. Далее на форуме написано, что существует несовместимость прошивки и драйверов FlexFabric. Меняю FlexFabric - все равно ошибка.
Пробую разные дистрибутивы: стандартный дистрибутив vmware esxi 5.5 и дистрибутив производителя HP той же сборки.
Результат тот же.
Прочитал, что в логах, и там ошибка конкретно для bnx2 (это сетевой адаптер FlexFabric).
Драйвера Broadcom устанавливаю с сайта vmware (причём перезапись драйвера работает только из консоли самого esxi. Если устанавливать из-под vcenter, то vcenter не перезаписывает).
Перезагружаюсь и полет нормальный! То же самое произошло и с Emulex FlexFabric на 490 блейдах.
Я также обновил BIOS FlexFabric и переписал драйвер.
Все работало стабильно, быстро, .
но не на долго.
На этом снимке экрана код ошибки — это строка
PCPU0:32802/UplinkWatchdogWorldПоявилась вторая проблема, связанная с мезонинной картой.
Через некоторое время четырехпортовая мезонинная плата на одном из блейдов полностью исчезла даже из BIOS хоста.
Перезагрузка, сброс биоса ничего не помогало, пока в биосе не нашелся пункт о работе с mezzanine pci адаптерами.
С помощью линий PCI появилась возможность выбора уровня усиления сигнала (всего две точки 6дБ и 3,5дБ).
Да, так и было, потому что этот пункт появился при добавлении четырехпортовой карты.
Переключил уровень усиления и сразу после перезагрузки карта появилась в биосе.
Прошло две рабочие недели и ни одного фиолетового экрана не было.
После обновления прошивки на сетевых картах появилась функция пробуждения по локальной сети, которой раньше не было, и на vcenter было настроено управление питанием.
Теперь хосты просыпаются, когда это необходимо.
И в заключение хочу сказать, что нужно быть внимательным к функционалу, который появляется при добавлении нового оборудования (например, дополнительных пунктов в биосе), а также, что не все неисправимые аппаратные ошибки неисправимы.
Некоторые ошибки вызваны стандартными драйверами и устаревшим биосом.
Надеюсь, мои бои с клинками будут кому-то полезны.
Теги: #Виртуализация #vmware #Windows #BSOD #blade-сервер #экран смерти #psod #LINT1/NMI #mezzanine
-
Валентин И К.
19 Oct, 24 -
Как Мы Будем Бороться Со Спамом?
19 Oct, 24