Whatsminer: EEPROM error / EEPROM NG — расшифровка и что делать

EEPROM error / EEPROM NG на Whatsminer означает, что контроллер не смог корректно прочитать «паспорт» платы и/или калибровочные данные из энергонезависимой памяти (EEPROM). Без валидного «паспорта» плата не поднимается: цепочка чипов не выходит в рабочий режим, инициализация срывается, а в соседних строках журнала часто появляются find 0 asic/chain missing, сообщения про MCU/PIC или всплески CRC.

Whatsminer: EEPROM error / EEPROM NG — расшифровка и что делать

Эта статья — детальный практический гид: где искать и как читать журналы, чем «паспорт» отличается от «калибровок», почему иногда виноват шлейф или питание, а не сама память, и как пройти пошаговую диагностику без пайки, чтобы понять — это окружение или действительно дефект платы.

Коротко о EEPROM error / EEPROM NG в Whatsminer

  • Что значит. Плата не предъявила валидные данные из EEPROM (идентификаторы, ревизии, калибровки).
  • Где видно. Интерфейс майнера и в начале Kernel log после холодного пуска; рядом часто упоминаются MCU/PIC, chain missing/find 0 asic, fan/thermal, CRC.
  • Что делать сначала. Вернуть сток-профиль, снять журналы с холодного старта, исключить питание/шлейфы/воздух, запустить по одной плате.
  • Когда сервис. Если в стоке, на эталонном PSU и с новыми шлейфами ошибка остаётся строго на одной плате — нужна стендовая диагностика её логики и памяти.

Что такое «паспорт» платы и почему без него нельзя

EEPROM хранит:

  • Идентификаторы и ревизии платы и её компонентов.
  • Калибровочные коэффициенты (температуры, напряжения, иногда табличные поправки).
  • Служебные флаги и параметры, необходимые локальной логике (см. PIC-контроллер) для корректного старта.

При старте MCU/PIC читает EEPROM и передаёт контроллеру валидные данные. Если чтение неудачно или контрольная проверка не проходит, плата переводится в безопасное состояние — запуска не будет, а в журнале появляются сообщения EEPROM error/NG и/или ошибки инициализации.

Как читать журналы Kernel и находить первопричину

Откройте kernel log с самого начала холодного пуска. Важна последовательность:

  1. Проверка вентиляторов и базовых датчиков.
  2. Считывание паспортов/калибровок плат (EEPROM).
  3. Инициализация цепочки чипов.
  4. Выбор частот/напряжений, выход в хеширование.

Если EEPROM error/NG появляется до попытки поднять цепочку — главная версия: «паспорт/калибровки не прочитаны или невалидны». Если сперва идут CRC/помехи, скачки по fan/thermal, а уж потом EEPROM-ошибка — вероятен срыв чтения из-за среды: питание, земля или шлейф «шумят», охлаждение на грани. Смотрите PSU, CRC, PWM, NTC-термистор.

Почему EEPROM ругается, даже если память «живая»

  • Связь/шлейф. Плохой контакт/окисление/перелом — MCU банально не может стабильно прочитать ячейки. Ошибка «ходит» за кабелем/портом.
  • Питание/земля. Просадки и «пила» на старте, «шумная» опора — чтение срывается. В логах рядом вспыхивают CRC и рывки оборотов вентиляторов.
  • Перегрев/охлаждение. Пыль, рециркуляция и «удар» холодного воздуха дают или троттлинг, или конденсат → «шумные» контакты.
  • Несостыкованные версии/ревизии. Редко, но бывает: прошивка/профиль не «понимает» формат паспорта конкретной ревизии платы.
  • Собственно дефект EEPROM/логики. Когда всё исключено, остаётся сам чип памяти, дорожки, питание памяти, локальный контроллер.

Пошаговая диагностика без пайки

Шаг первый — сток-профиль Отключите разгон/касты. Сток снижает требования к питанию и охлаждению, а также исключает «креативные» форматы калибровок.

Шаг второй — журналы с холодного старта Сразу после включения сохраните kernel/current/history. Пометьте минуту/секунду, где впервые всплыл EEPROM error/NG, и какие строки соседствуют: PIC/MCU, CRC, fan/thermal, find 0 asic/chain missing.

Шаг третий — воздух и пыль Очистите решётки/радиаторы, убедитесь, что выхлоп не возвращается во вход. Если обороты сразу в потолок при умеренном входе — поток слабый или датчик «врет». Повторите холодный запуск и снова снимите журналы. См. влияние среды.

Шаг четвёртый — питание и контактные группы Осмотрите силовые кабели/коннекторы: потемнение пинов, «пожелтевшая» изоляция, люфт. По возможности повторите запуск на эталонном PSU на короткой линии. Если ошибка исчезла — причина в электрике. Подробнее — PSU.

Шаг пятый — шлейфы и порты Поменяйте шлейфы между платами, смените порт контроллера. Если ошибка «переезжает» — виноват шлейф/порт. Если остаётся на той же физической плате — круг сужается.

Шаг шестой — изоляция плат Запускайте по одной плате. Если EEPROM-ошибка появляется только с конкретной платой — фиксируйте. Это ключ к решению.

Шаг седьмой — датчики и вентиляторы Сверьте температуру «вход/выход», реакцию PWM, тахосигнал. Переставьте вентиляторы местами. Если поведение непонятно — смотрите PWM, NTC.

Шаг восьмой — программные соответствия Проверьте историю: не менялись ли прошивки/профили перед появлением ошибки. Несоответствие формата калибровок иногда мимикрирует под «битый паспорт».

Шаг девятый — повтор на другой розеточной группе Перенесите стенд: другой удлинитель/группа, другой PSU. Если ошибка пропала — первична сеть/линия.

Шаг десятый — вывод Если после всех исключений ошибка жёстко привязана к одной плате — это стендовая диагностика платы: EEPROM, дорожки, питание памяти, локальный MCU.

«Симптом → вероятная зона → действие»

Симптом в журнале Вероятная зона Действие сейчас
EEPROM error/NG сразу после шага чтения паспорта Память/логика платы Сток, запуск по одной плате, новый шлейф; если стабильно за платой — сервис
EEPROM error/NG после всплеска CRC и «рывков» вентиляторов Питание/земля/среда Эталонный PSU, очистка тракта, исключить рециркуляцию
EEPROM рядом с PIC/MCU init ошибками Локальная логика/связь Проверить шлейф/порт, повторить в стоке; см. PIC-контроллер
EEPROM + find 0 asic/chain missing Инициализация сорвана по паспорту Изоляция платы, сбор логов, сервис платы
Ошибка «переезжает» со шлейфом/портом Шлейф/порт/контакты Заменить шлейф, осмотреть порт, закрепить жгуты

Как отличить «битый паспорт» от «плохой среды»

  • Время появления. Если EEPROM-строки идут до всего остального — вероятнее сам паспорт/логика. Если после CRC/thermal — среда.
  • Повторяемость. На эталонном PSU и при чистом воздухе «настоящая» память продолжит ругаться; средовая — затихнет.
  • Изоляция. Если в запуске по одной плате только одна стабильно выдаёт EEPROM-ошибку — вопрос к ней.
  • Связь. «Переезды» с кабелем/портом — почти всегда шлейф/контакты, а не EEPROM.

Что не делать в домашних условиях

  • Не прошивать вслепую локальный MCU/EEPROM — риск «окирпичить» плату, а первопричина может быть в шлейфе или питании.
  • Не игнорировать холодный лог. Именно там видно, на каком шаге всё сорвалось.
  • Не «лечить» оборотами. Повышение целей по PWM маскирует перегрев и ускоряет износ вентиляторов.

Практические сценарии

  • Шлейф и порт. Ошибка возникала на «цепочке 2», после перестановки шлейфа стала на «цепочке 1». Вывод: виноват шлейф/порт. Новый шлейф и фиксация жгутов проблему закрыли.
  • Жара и просадки. В жаркий день EEPROM-ошибка вспыхивала вместе с CRC. На эталонном PSU и в стоке запуск проходил. После усиления вытяжки и замены уставших коннекторов ошибка исчезла.
  • Реально «битый паспорт». Любые перестановки и «чистый» стенд не помогли: на одной плате EEPROM-ошибка стабильно появлялась до любых fan/CRC. Сервис восстановил калибровки, проверил питание памяти — плата вернулась в строй.
  • Влажность и конденсат. При ночном охлаждении приток «ледяного» воздуха дал конденсат на коннекторах — периодические EEPROM/CRC. После утепления канала и плавного микса с тёплым воздухом проблема ушла.

Чек-лист на один час

  • Вернуть сток-профиль.
  • Холодный старт → сохранить журналы.
  • Очистить решётки/радиаторы, исключить рециркуляцию.
  • Проверить силовые кабели/коннекторы, при возможности — запустить на эталонном PSU.
  • Поменять шлейфы местами/порт контроллера.
  • Запустить по одной плате; отметить плату, на которой ошибка стабильна.
  • Если после всего ошибка «привязана» к плате — готовить её к сервисной диагностике (с пакетами логов и заметками).

Профилактика

  • Чистый воздух и разделение холодной/горячей зон: меньше троттлинга и «шумных» контактов.
  • Здоровая электрика: короткая линия, без перегруженных тройников и «соплей», качественные кабели и плотные коннекторы.
  • Кабель-менеджмент: шлейфы без натяжения, без перегибов; держите комплект исправных резервных шлейфов.
  • Сток в жару. Разгон только при запасе по охлаждению и питанию.
  • Журнал обслуживания: когда чистили, какие были температуры «вход/выход», обороты при типовой нагрузке, когда вспыхивали EEPROM-ошибки и что помогло.

Вопросы и ответы

Почему после перезапуска ошибку иногда «как рукой сняло» Потому что условия старта случайно сложились удачно: температура ниже, контакт «прихватился», ток вырос плавнее. Первопричина не устранена — ошибка вернётся.

Можно ли «обнулить» калибровки и поехать дальше Без официальной процедуры — нет. Неверные данные в памяти могут окончательно вывести плату из строя. Сначала исключите среду и шлейфы, затем — сервис.

Если в логе рядом PIC/MCU и EEPROM — что главное Смотрите последовательность. Если MCU «падает» после неудачного чтения EEPROM, начинайте с памяти/связи. Если MCU «падает» раньше — ищите питание/шум/датчики.

Есть ли смысл в обновлении прошивки контроллера Только после того, как исключены питание, шлейфы, воздух и подтверждена совместимость ревизий. «Магических» прошивок от грязного коннектора не бывает.

Как понять, что это точно не сеть/PSU Эталонный блок питания на короткой линии и «чистая» розеточная группа. Если там ошибка остаётся и строго за одной платой — это уже аппаратная история платы.

См. также

Task Runner