EEPROM error / EEPROM NG на Whatsminer означает, что контроллер не смог корректно прочитать «паспорт» платы и/или калибровочные данные из энергонезависимой памяти (EEPROM). Без валидного «паспорта» плата не поднимается: цепочка чипов не выходит в рабочий режим, инициализация срывается, а в соседних строках журнала часто появляются find 0 asic/chain missing, сообщения про MCU/PIC или всплески CRC.
Эта статья — детальный практический гид: где искать и как читать журналы, чем «паспорт» отличается от «калибровок», почему иногда виноват шлейф или питание, а не сама память, и как пройти пошаговую диагностику без пайки, чтобы понять — это окружение или действительно дефект платы.
Коротко о EEPROM error / EEPROM NG в Whatsminer
- Что значит. Плата не предъявила валидные данные из EEPROM (идентификаторы, ревизии, калибровки).
- Где видно. Интерфейс майнера и в начале Kernel log после холодного пуска; рядом часто упоминаются MCU/PIC, chain missing/find 0 asic, fan/thermal, CRC.
- Что делать сначала. Вернуть сток-профиль, снять журналы с холодного старта, исключить питание/шлейфы/воздух, запустить по одной плате.
- Когда сервис. Если в стоке, на эталонном PSU и с новыми шлейфами ошибка остаётся строго на одной плате — нужна стендовая диагностика её логики и памяти.
Что такое «паспорт» платы и почему без него нельзя
EEPROM хранит:
- Идентификаторы и ревизии платы и её компонентов.
- Калибровочные коэффициенты (температуры, напряжения, иногда табличные поправки).
- Служебные флаги и параметры, необходимые локальной логике (см. PIC-контроллер) для корректного старта.
При старте MCU/PIC читает EEPROM и передаёт контроллеру валидные данные. Если чтение неудачно или контрольная проверка не проходит, плата переводится в безопасное состояние — запуска не будет, а в журнале появляются сообщения EEPROM error/NG и/или ошибки инициализации.
Как читать журналы Kernel и находить первопричину
Откройте kernel log с самого начала холодного пуска. Важна последовательность:
- Проверка вентиляторов и базовых датчиков.
- Считывание паспортов/калибровок плат (EEPROM).
- Инициализация цепочки чипов.
- Выбор частот/напряжений, выход в хеширование.
Если EEPROM error/NG появляется до попытки поднять цепочку — главная версия: «паспорт/калибровки не прочитаны или невалидны». Если сперва идут CRC/помехи, скачки по fan/thermal, а уж потом EEPROM-ошибка — вероятен срыв чтения из-за среды: питание, земля или шлейф «шумят», охлаждение на грани. Смотрите PSU, CRC, PWM, NTC-термистор.
Почему EEPROM ругается, даже если память «живая»
- Связь/шлейф. Плохой контакт/окисление/перелом — MCU банально не может стабильно прочитать ячейки. Ошибка «ходит» за кабелем/портом.
- Питание/земля. Просадки и «пила» на старте, «шумная» опора — чтение срывается. В логах рядом вспыхивают CRC и рывки оборотов вентиляторов.
- Перегрев/охлаждение. Пыль, рециркуляция и «удар» холодного воздуха дают или троттлинг, или конденсат → «шумные» контакты.
- Несостыкованные версии/ревизии. Редко, но бывает: прошивка/профиль не «понимает» формат паспорта конкретной ревизии платы.
- Собственно дефект EEPROM/логики. Когда всё исключено, остаётся сам чип памяти, дорожки, питание памяти, локальный контроллер.
Пошаговая диагностика без пайки
Шаг первый — сток-профиль Отключите разгон/касты. Сток снижает требования к питанию и охлаждению, а также исключает «креативные» форматы калибровок.
Шаг второй — журналы с холодного старта Сразу после включения сохраните kernel/current/history. Пометьте минуту/секунду, где впервые всплыл EEPROM error/NG, и какие строки соседствуют: PIC/MCU, CRC, fan/thermal, find 0 asic/chain missing.
Шаг третий — воздух и пыль Очистите решётки/радиаторы, убедитесь, что выхлоп не возвращается во вход. Если обороты сразу в потолок при умеренном входе — поток слабый или датчик «врет». Повторите холодный запуск и снова снимите журналы. См. влияние среды.
Шаг четвёртый — питание и контактные группы Осмотрите силовые кабели/коннекторы: потемнение пинов, «пожелтевшая» изоляция, люфт. По возможности повторите запуск на эталонном PSU на короткой линии. Если ошибка исчезла — причина в электрике. Подробнее — PSU.
Шаг пятый — шлейфы и порты Поменяйте шлейфы между платами, смените порт контроллера. Если ошибка «переезжает» — виноват шлейф/порт. Если остаётся на той же физической плате — круг сужается.
Шаг шестой — изоляция плат Запускайте по одной плате. Если EEPROM-ошибка появляется только с конкретной платой — фиксируйте. Это ключ к решению.
Шаг седьмой — датчики и вентиляторы Сверьте температуру «вход/выход», реакцию PWM, тахосигнал. Переставьте вентиляторы местами. Если поведение непонятно — смотрите PWM, NTC.
Шаг восьмой — программные соответствия Проверьте историю: не менялись ли прошивки/профили перед появлением ошибки. Несоответствие формата калибровок иногда мимикрирует под «битый паспорт».
Шаг девятый — повтор на другой розеточной группе Перенесите стенд: другой удлинитель/группа, другой PSU. Если ошибка пропала — первична сеть/линия.
Шаг десятый — вывод Если после всех исключений ошибка жёстко привязана к одной плате — это стендовая диагностика платы: EEPROM, дорожки, питание памяти, локальный MCU.
«Симптом → вероятная зона → действие»
| Симптом в журнале | Вероятная зона | Действие сейчас |
|---|---|---|
| EEPROM error/NG сразу после шага чтения паспорта | Память/логика платы | Сток, запуск по одной плате, новый шлейф; если стабильно за платой — сервис |
| EEPROM error/NG после всплеска CRC и «рывков» вентиляторов | Питание/земля/среда | Эталонный PSU, очистка тракта, исключить рециркуляцию |
| EEPROM рядом с PIC/MCU init ошибками | Локальная логика/связь | Проверить шлейф/порт, повторить в стоке; см. PIC-контроллер |
| EEPROM + find 0 asic/chain missing | Инициализация сорвана по паспорту | Изоляция платы, сбор логов, сервис платы |
| Ошибка «переезжает» со шлейфом/портом | Шлейф/порт/контакты | Заменить шлейф, осмотреть порт, закрепить жгуты |
Как отличить «битый паспорт» от «плохой среды»
- Время появления. Если EEPROM-строки идут до всего остального — вероятнее сам паспорт/логика. Если после CRC/thermal — среда.
- Повторяемость. На эталонном PSU и при чистом воздухе «настоящая» память продолжит ругаться; средовая — затихнет.
- Изоляция. Если в запуске по одной плате только одна стабильно выдаёт EEPROM-ошибку — вопрос к ней.
- Связь. «Переезды» с кабелем/портом — почти всегда шлейф/контакты, а не EEPROM.
Что не делать в домашних условиях
- Не прошивать вслепую локальный MCU/EEPROM — риск «окирпичить» плату, а первопричина может быть в шлейфе или питании.
- Не игнорировать холодный лог. Именно там видно, на каком шаге всё сорвалось.
- Не «лечить» оборотами. Повышение целей по PWM маскирует перегрев и ускоряет износ вентиляторов.
Практические сценарии
- Шлейф и порт. Ошибка возникала на «цепочке 2», после перестановки шлейфа стала на «цепочке 1». Вывод: виноват шлейф/порт. Новый шлейф и фиксация жгутов проблему закрыли.
- Жара и просадки. В жаркий день EEPROM-ошибка вспыхивала вместе с CRC. На эталонном PSU и в стоке запуск проходил. После усиления вытяжки и замены уставших коннекторов ошибка исчезла.
- Реально «битый паспорт». Любые перестановки и «чистый» стенд не помогли: на одной плате EEPROM-ошибка стабильно появлялась до любых fan/CRC. Сервис восстановил калибровки, проверил питание памяти — плата вернулась в строй.
- Влажность и конденсат. При ночном охлаждении приток «ледяного» воздуха дал конденсат на коннекторах — периодические EEPROM/CRC. После утепления канала и плавного микса с тёплым воздухом проблема ушла.
Чек-лист на один час
- Вернуть сток-профиль.
- Холодный старт → сохранить журналы.
- Очистить решётки/радиаторы, исключить рециркуляцию.
- Проверить силовые кабели/коннекторы, при возможности — запустить на эталонном PSU.
- Поменять шлейфы местами/порт контроллера.
- Запустить по одной плате; отметить плату, на которой ошибка стабильна.
- Если после всего ошибка «привязана» к плате — готовить её к сервисной диагностике (с пакетами логов и заметками).
Профилактика
- Чистый воздух и разделение холодной/горячей зон: меньше троттлинга и «шумных» контактов.
- Здоровая электрика: короткая линия, без перегруженных тройников и «соплей», качественные кабели и плотные коннекторы.
- Кабель-менеджмент: шлейфы без натяжения, без перегибов; держите комплект исправных резервных шлейфов.
- Сток в жару. Разгон только при запасе по охлаждению и питанию.
- Журнал обслуживания: когда чистили, какие были температуры «вход/выход», обороты при типовой нагрузке, когда вспыхивали EEPROM-ошибки и что помогло.
Вопросы и ответы
Почему после перезапуска ошибку иногда «как рукой сняло» Потому что условия старта случайно сложились удачно: температура ниже, контакт «прихватился», ток вырос плавнее. Первопричина не устранена — ошибка вернётся.
Можно ли «обнулить» калибровки и поехать дальше Без официальной процедуры — нет. Неверные данные в памяти могут окончательно вывести плату из строя. Сначала исключите среду и шлейфы, затем — сервис.
Если в логе рядом PIC/MCU и EEPROM — что главное Смотрите последовательность. Если MCU «падает» после неудачного чтения EEPROM, начинайте с памяти/связи. Если MCU «падает» раньше — ищите питание/шум/датчики.
Есть ли смысл в обновлении прошивки контроллера Только после того, как исключены питание, шлейфы, воздух и подтверждена совместимость ревизий. «Магических» прошивок от грязного коннектора не бывает.
Как понять, что это точно не сеть/PSU Эталонный блок питания на короткой линии и «чистая» розеточная группа. Если там ошибка остаётся и строго за одной платой — это уже аппаратная история платы.
