Hashboard (хэшборд) — устройство платы, типовые поломки и диагностика (Antminer/Whatsminer)

Hashboard (хэшборд) — это основная вычислительная плата ASIC-майнера с набором чипов для расчёта хеша, силовыми цепями, интерфейсными шинами и датчиками. В типичной машине стоят 2–3 хэшборда, каждый со своими линиями питания и связью с контроллером. Любая нестабильность на хэшборде вызывает ошибки и падение хешрейта — от «find 0 asic/chain missing» до перегрева и CRC-всплесков. Понимание конструкции платы помогает быстрее диагностировать и безопасно обслуживать оборудование.

Hashboard (хэшборд) — устройство платы, типовые поломки и диагностика (Antminer/Whatsminer)

Коротко по хэшбордам

  • Хэшборд = чипы + силовые цепи + шины связи + датчики + локальная логика (часто PIC и/или малая память).
  • Частые симптомы: «chain missing», «find 0 asic», рост CRC, «fan/thermal» ошибки, нестабильный запуск.
  • Диагностика без пайки: сток-профиль, лог Kernel log, изоляция платы, проверка PSU/шлейфов/охлаждения.
  • Ключевые узлы: память EEPROM (паспорт/калибровки), датчики температуры NTC, управление вентиляторами PWM, питание PSU.

Конструкция хэшборда: основные узлы

  • ASIC-чипы — формируют вычислительную «цепочку» (chain). Разводка и питание чипов чувствительны к перегреву и просадкам.
  • Силовые цепи — DC-DC преобразователи, шунты, фильтры. Регулируют ток/напряжение для чипов; перегрев и деградация приводят к сбоям.
  • Интерфейсные шины — линии связи к контроллеру и между узлами (I²C/SPI/UART — зависят от платформы). «Шум» и плохие контакты дают рост ошибок CRC.
  • Датчики — NTC-термисторы, иногда токовые датчики; их корректность критична для алгоритмов охлаждения и защиты (см. NTC).
  • Локальная логика — PIC/микроконтроллер, который инициализирует плату, и малая память EEPROM с «паспортом»/калибровками.
  • Коннекторы/шлейфы — связь с контроллером и питание от PSU. Место повышенного риска: окисление, нагрев, разболтанность.
  • Радиаторы и воздушный тракт — отвод тепла с чипов и силовой части. Пыль и «пробки» воздуха резко снижают ресурс.

Как хэшборд стартует и почему срывается инициализация

Последовательность типична: подача питания → инициализация локальной логики → чтение «паспорта»/калибровок из EEPROM → тест датчиков → запуск цепочки чипов → выход на рабочие частоты/напряжения. Срыв возможен на любом шаге:

  • нет связи с локальной логикой/EEPROM → «EEPROM error/NG», «chain missing»;
  • датчики вне диапазона → форсаж вентиляторов, «thermal»/ошибки запуска;
  • линии связи шумят → «CRC counter high», нестабильные ответы чипов;
  • силовые цепи не тянут → падение частоты, «find 0 asic», ребуты.

Типичные симптомы по логам и что они означают

Симптом в логах/панели Что это на плате Почему так
chain X missing / find 0 asic Плата не инициализировалась, чипы «молчат» Обрыв/шум шины, ошибка локальной логики/EEPROM, питание «проседает»
EEPROM error / EEPROM NG «Паспорт»/калибровки не читаются/некорректны Плохой контакт, «битые» данные, несоответствие ревизии, деградация памяти
CRC/nonce CRC растёт Ошибки целостности при обмене/приёме nonce Шум/помехи, просадки по питанию, перегрев, разгон
fan error / low RPM (при нормальных вентиляторах) Контроллер видит нестабильный тахосигнал или неверную температуру Питание/земля «шумят», датчики NTC «врут», контакт/разъём проблемный
thermal throttling / overheat Реальный перегрев чипов или силовой части Пыль/приток воздуха слабый, высокие частоты, плохой контакт радиатора

Подробные формулировки и разбор читайте в Kernel log: коды и расшифровка.

Диагностика хэшборда без пайки (пошагово)

  1. Сток-профиль. Отключить касты/разгон, вернуть рекомендованные частоты/напряжения.
  2. Снять логи. Kernel/current/history — зафиксировать момент старта, первые ошибки/температуры/обороты.
  3. Окружение. Очистить пыль, обеспечить прямой поток воздуха; проверить решётки/фильтры.
  4. Питание. Осмотреть кабели/коннекторы, нагрев пинов/жгутов; по возможности поставить эталонный PSU.
  5. Шлейфы связи. Перекинуть шлейфы/порты, исключить «шумный» кабель/разъём.
  6. Изоляция платы. Запуск по одной плате (остальные отключены). Симптом «следует» именно за проблемной?
  7. Перекрёстная проверка. Поменять местами платы/шлейфы — смотрим, меняется ли номер «падающей» цепочки.
  8. Температура/датчики. Сравнить показания NTC; искать «выпавшие»/скачущие значения (см. NTC).
  9. Повторяемость. Если в стоке, на другом PSU/шлейфах, при чистом обдуве проблема сохраняется за конкретной платой — требуется стендовая диагностика.

Таблица «симптом → причина → действие»

Симптом Вероятные причины на хэшборде Что сделать сначала Если не помогло
chain missing / find 0 asic Шина/контакт, локальная логика, питание Сток, чистка, замена шлейфов/портов, эталонный PSU Изоляция платы, сервис (EEPROM/PIC/шины)
EEPROM error / NG «Битые» калибровки, контакт памяти Сброс, проверка шлейфов/контактов, сток-прошивка Восстановление по мануалу; диагностика EEPROM
CRC counter high Помехи/просадки/перегрев Эталонный PSU, охлаждение, уменьшить частоты Диагностика линий/платы; см. CRC
Thermal throttling Недостаточный обдув/локальный перегрев Чистка, проверка крыльчаток, приток/вытяжка Ревизия термоконтакта радиаторов; сервис
Fan error/low RPM Тахосигнал/контакт/питание Перестановка вентиляторов/разъёмов, кабели Диагностика управления; см. PWM

Частые зоны риска на хэшборде

  • Коннекторы/кабели. Возле них часто следы нагрева/окисления. Плотная посадка и чистый контакт критичны.
  • Силовые элементы. Нагрев VRM, дросселей, MOSFET — признак перегрузки/плохого обдува.
  • Трассы шины. Перегибы/нажим жгутами могут вызывать периодические «шумовые» глюки.
  • Радиаторы/термопрокладки. Неплотный контакт → локальные «горячие острова» и ранний троттлинг.

Профилактика: как продлить ресурс плат

  • Чистота и поток. Регулярная продувка, правильная ориентация по воздушному тракту, отсутствие «пробок».
  • Стабильное питание. Запас по мощности, качественные кабели/разъёмы, короткие линии.
  • Жёсткая фиксация жгутов. Никаких «висячих» тяжёлых кабелей, которые тянут за коннекторы.
  • Сток в жару. В периоды высокой ambient-температуры — без разгона, чтобы не перегружать силовые цепи.
  • Журнал обслуживания. Фиксировать чистки, замены вентиляторов/кабелей, симптомы и их решения.

Практические сценарии

  • Майнер не видит одну цепочку. По логам — «chain 2 missing». Перекинули шлейфы: «missing» переехал на другую позицию → виноват кабель/порт. Если остался на той же физической плате — смотреть плату (EEPROM/шина/питание).
  • CRC растёт в жару. После чистки и уменьшения частот ошибки исчезли → перегрев и просадки по питанию были первопричиной.
  • Сезон пыли. Вентиляторы на 100%, троттлинг. После продувки — нормальный профиль оборотов, стабильный запуск.

FAQ

Можно ли «полечить» хэшборд одной прошивкой? Если причина — контакт/охлаждение/питание, прошивка не поможет. Начинайте с стенда: сток-профиль, PSU, шлейфы, чистка, изоляция.

Почему «find 0 asic» иногда пропадает после перезагрузки? Граничные условия: контакт/температура/питание. Но если симптом повторяется — это не «глюк», а нарастающая проблема.

Нужно ли менять все шлейфы сразу? Рационально иметь комплект исправных шлейфов для диагностики. Менять «подозрительные» и оставлять контрольные в резерв.

Чем опасны локальные горячие точки? Они ускоряют деградацию силовой части/чипов, вызывают ранний троттлинг и нестабильный запуск. Следите за равномерностью охлаждения.

См. также

Task Runner