Whatsminer: ошибки температуры и вентиляторов — диагностика и решения

Ошибки fan/thermal на Whatsminer — одна из самых частых причин срыва запуска, падения хешрейта и повышенного износа. Они проявляются сообщениями fan error, low RPM, thermal throttling, overheat и целой россыпью косвенных симптомов: постоянные максимальные обороты, «пила» по скорости вентиляторов, всплески CRC, «find 0 asic» после прогрева. При этом первопричина далеко не всегда в самих вентиляторах: чаще виноваты воздушный тракт, датчики температуры, электропитание и кабель-менеджмент.

Whatsminer: ошибки температуры и вентиляторов — диагностика и решения

Эта статья — практический, расширенный гид по диагностике без пайки. Мы разберём логику работы контура охлаждения, научимся быстро читать Kernel log, сопоставлять телеметрию с реальными условиями, выстроим пошаговый алгоритм и дадим матрицу «симптом → причина → действие». В конце — профилактика и разбор живых сценариев.

Коротко о ошибке температуры и вентиляторов

  • Ошибки fan/thermal чаще всего вызваны средой: пылью, рециркуляцией, слабым притоком или вытяжкой, а также «шумной» линией питания.
  • Вентиляторы и датчики — лишь исполнители: если окружение плохое, они реагируют аварийно и провоцируют вторичные сбои.
  • Быстрый путь к решению — сток-профиль, чистый воздухотракт, проверка питания и шлейфов, потом — изоляция платы и сверка датчиков.
  • Плотная посадка коннекторов, равномерная раскладка жгутов и отсутствие натяжения — обязательны для стабильной работы.

Как устроен контур охлаждения на практике

Контроллер читает датчики температуры NTC на платах и ориентируется на заданные пороги. Через шину он управляет скоростью вентиляторов в формате PWM: чем горячее плата и «грязнее» воздух, тем выше скважность PWM и обороты. В норме обороты меняются плавно, а температура предсказуема: после прогрева система держит устойчивое плато.

Что ломает этот контур:

  • Пыль и рециркуляция. Горячий выхлоп возвращается во вход, радиаторы зарастают, вентиляторы «бьются» в потолок.
  • Выпавшие датчики. Один NTC может «уползти» в ноль, экстремум или «—», и контроллер включит защитный режим.
  • Плохая земля и просадки по питанию. На рывках тока сигнал датчиков и тахосигнал плавно превращаются в шум — отсюда ложные аварии и «пила» по оборотам.
  • Натянутые жгуты и разболтанные коннекторы. Плавающие контакты дают фантомные low RPM и «провалы» в журнале.

Где искать и как читать Kernel log

Диагностику начинаем с холодного запуска и сохраняем kernel/current/history. Смотрим:

  • самые ранние строки про вентиляторы и датчики: контроллер сообщает целевые PWM и полученные RPM;
  • моменты форсажа вентиляторов и появление thermal сообщений;
  • соседние события: CRC, find 0 asic/chain missing, EEPROM/PIC.

Полезная привычка — отмечать временные метки: где именно вентиляция пошла в потолок, где «зашумели» датчики, когда пошли CRC и спустя сколько строк появился критический thermal. Это показывает последовательность и помогает отличить первопричину от следствия (подсказки по формулировкам — в разборе Kernel log).

Основные сообщения и что они значат

Сообщение в панели/журнале Что это означает на деле Куда смотреть в первую очередь
fan error Контроллер не видит честный тахосигнал от одного из вентиляторов Разъём и кабель вентилятора, механика крыльчатки, питание и земля
low RPM Обороты ниже ожиданий при заданном PWM Фрикция/грязь, износ втулки, обратное давление в канале, питание
thermal throttling Контроллер снижает частоты/напряжение из-за перегрева Пыль, рециркуляция, слабая вытяжка, высокая температура входа
overheat / over temperature Достигнут аварийный порог — работа остановлена Немедленно чистить тракт, проверить датчики, исключить рециркуляцию
temp sensor error Выпал датчик, показания за пределами допустимых Цепь NTC на плате, разъёмы, шлейф, локальная логика

Пошаговая диагностика без пайки

Первый шаг — вернуть сток-профиль Уберите разгон и кастомные кривые. Сток возвращает предсказуемые пороги PWM и снижает тепловую нагрузку.

Второй шаг — снять журналы с холодного пуска Сразу после включения сохраняем kernel/current/history. Отмечаем, с какого момента вентиляторы ушли в потолок и какие предупреждения этому предшествовали.

Третий шаг — навести порядок в воздухотракте Продуйте решётки, радиаторы, пылевые карманы. Убедитесь, что горячий выхлоп не подсасывается во вход. Если обороты почти сразу упираются в максимум при умеренной температуре входного воздуха — это недобор расхода, а не «характер майнера». Базовые принципы и формулы расчёта расхода — в гайде по среде.

Четвёртый шаг — проверить вентиляторы и разъёмы Пальцами прокрутите крыльчатки: ход должен быть плавным, без закусываний. Осмотрите разъёмы: потемнения, люфт, «уставший» пластик. Поменяйте вентиляторы местами (front ↔ rear): если симптом «ходит» за вентилятором — механика, если остаётся на разъёме — цепь управления/питания.

Пятый шаг — посмотреть питание и землю Силовые коннекторы и жгуты — частая скрытая причина. Нагретые пины, слабая обжимка, длинные удлинители и «тройники» дают просадки, на которых тахосигнал «дрожит», а контроллер видит low RPM и поднимает PWM до потолка. Повтор на эталонном PSU и короткой линии — лучший тест. Подробно — PSU.

Шестой шаг — переставить шлейфы и порты Меняем шлейфы между платами, используем другой порт на контроллере. Если «фан-ошибка» меняет «адрес» вместе с шлейфом — виноват кабель/порт. Если остаётся за платой — смотрим датчики и её локальную логику.

Седьмой шаг — изолировать платы Запускаем майнер по одной плате. Если thermal-сбои появляются только с конкретной платой — круг сужается до её датчиков, логики и силовой части.

Восьмой шаг — сопоставить с другими симптомами Если рядом в те же секунды идут всплески CRC, это знак «шумной» электрики или перегрева силовой части. Если рядом EEPROM/PIC, а вентиляторы уже в потолке — датчики/среда могли сорвать чтение «паспорта». См. CRC, EEPROM, PIC-контроллер.

Воздушный тракт и признаки рециркуляции

Рециркуляция — когда часть горячего потока возвращается во вход:

  • решётки и фронт корпуса быстро покрываются пылью «после» фильтра;
  • температура выхода растёт, а разница «вход ↔ выход» становится аномально высокой;
  • вентиляторы держатся у потолка даже при умеренном наружном воздухе;
  • в журналах видны ступени PWM и «пила» по RPM без стабильного плато.

Лечение: разделить горячую и холодную зоны перегородкой или экраном, убрать «мешки» и лишние повороты, согласовать приток/вытяжку с запасом и обеспечить лёгкий доступ к фильтрам (подробные схемы и формулы — в руководстве по среде).

Датчики температуры: что ломается и как это видно

NTC-термисторы иногда «выпадают»: показывают ноль, экстремум или «—». Причины — окисленные контакты, натяжение жгутов, влажность и конденсат, перегрев. В логах это выглядит как нелепые скачки, а вентиляторы тут же улетают в максимум.

Как проверять:

  • сверяйте показания всех датчиков на платах; один «выпавший» — уже повод искать;
  • сравнивайте датчики между платами: выпадающий на одной при норме на других — кандидат на ремонт;
  • мягко «пошевелите» жгуты в месте подключения — если показания «оживают», контакт неустойчив;
  • исключите конденсат: утеплите «ледяные» каналы, не дуйте сверххолодным воздухом прямо на плату (подробности — в разделе про влажность).

Вентиляторы: механика, питание и тахосигнал

Вентилятор — механический узел, которому вредят пыль, вибрации и перекос корпуса:

  • Фрикция и грязь снижают RPM при том же PWM — контроллер считает это low RPM.
  • Изношенная втулка/подшипник даёт «пилу» по скорости, свист, дрожание тахосигнала.
  • Плохой разъём или «шумная» земля искажают фронты тахо — контроллер видит «фантомные» остановки.

Правила:

  • вентиляторы не должны висеть на кабелях; жгуты крепим так, чтобы не тянули разъёмы;
  • избегаем острых перегибов и «гармошек»;
  • держим пару исправных вентиляторов для быстрой перестановки и проверки гипотезы.

Электропитание и влияние на fan/thermal

Даже идеальный воздух не поможет, если линия шумная: удлинители, «тройники», совместная розетка с нагревателем — классика ложных fan error и low RPM. На рывках тока тахосигнал «дрожит», PWM меняется ступенями, а затем приходит thermal.

Быстрые признаки электрической первопричины:

  • фан-ошибки возникают вместе со всплесками CRC и перезапусками цепочек;
  • на эталонном PSU симптом пропадает;
  • на коннекторах заметны следы нагрева и ослабленная обжимка.

Подробные рекомендации — в статье про PSU и в чек-листе диагностики.

Когда виновата программная часть

Редко, но случается несостыковка профиля и ревизии: кривые PWM, пороги и поведение на старте «не совпадают» с железом. Это проявляется как устойчивые, воспроизводимые аномалии без видимых проблем с воздухом и питанием на чистом стенде. В такой ситуации сперва исключают среду и электрику, собирают корректные журналы, фиксируют ревизии и уже потом рассматривают программные несоответствия.

Матрица «симптом → причина → действие»

Симптом Вероятная причина Что делать сейчас
Вентиляторы сразу в потолке при умеренном входе Пыль, рециркуляция, слабая вытяжка Продувка, разделение потоков, усиление вытяжки, проверка фильтров
fan error или low RPM без явного шума Разъём, питание вентилятора, фрикция Переставить вентиляторы, осмотреть разъёмы, смонтировать жгуты без натяжения
thermal throttling на ровном месте Недобор расхода воздуха или локальные «пробки» Сократить повороты и «мешки», проверить решётки, сравнить «вход ↔ выход»
overheat после нескольких минут работы Перегрев силовой части/радиаторов Увеличить приток/вытяжку, убрать рециркуляцию, вернуть сток-профиль
fan error вместе с всплесками CRC «Шумная» линия, просадки по питанию Эталонный PSU, короткая линия, замена нагретых коннекторов
аномалия «ходит» за вентилятором Износ/грязь конкретного вентилятора Заменить вентилятор, очистить, проверить баланс крыльчатки
аномалия остаётся на разъёме Цепь управления или датчик Осмотреть разъём, шлейф, логи датчиков, тест с одной платой
повторяемая аномалия только на одной плате Датчик/логика/силовая часть платы Изоляция платы, сбор логов, сервисная диагностика

Сценарии из практики

  • Комната с обратной тягой. Горячий поток заворачивал во вход. Вентиляторы сразу под потолком, через несколько минут — throttling, затем overheat. Разделили зоны, усилили вытяжку, убрали один поворот — система вышла на стабильное плато.
  • Фантомный low RPM. На простом стенде вентиляторы норм, в рабочей комнате — постоянные жалобы. В журналах рядом CRC. Замена удлинителя и проблемного тройника, перестановка жгутов питания — fan-ошибки исчезли.
  • Один «выпавший» датчик. При любом профиле контроллер уводил PWM в потолок. Сравнение датчиков показало единичный экстремум на одной плате. Изоляция платы подтвердила: именно она вызывает аномалию. Ремонт датчика — и всё стабильно.
  • Вентилятор с изношенной втулкой. Шум, вибрация, «пила» по RPM. Перестановка вентиляторов переносила симптом — итогом стала замена пары и нормализация логов.

Профилактика и эксплуатационная дисциплина

  • Чистый воздух: фильтрация притока, лёгкая разборка для обслуживания, никаких «мешков» и острых поворотов.
  • Разделённые зоны: холодная и горячая часть не пересекаются, щели уплотнены, рециркуляция исключена.
  • Здоровая электрика: отдельная линия без перегруженных тройников, короткий путь, качественные коннекторы, плотная посадка.
  • Кабель-менеджмент: жгуты не тянут разъёмы, не висят и не трутся о корпус; шлейфы без перегибов.
  • Сток в жару: агрессивные профили только при очевидном запасе по воздуху и PSU.
  • Резерв: держите комплект исправных вентиляторов и шлейфов — это экономит часы диагностики.
  • Журнал обслуживания: даты чистки, замены вентиляторов, температуры «вход ↔ выход», RPM при типовой нагрузке, когда и почему срабатывали fan/thermal.

Ответы на частые вопросы

Почему вентиляторы «зависают» в потолке даже при нормальной погоде Потому что поток внутри комнаты организован неверно. Рециркуляция и пылевые пробки заставляют систему видеть «вечный перегрев», даже если наружный воздух прохладный.

Можно ли поднять целевую скорость и «забыть» про проблему Увеличение PWM — временная маскировка. Это ускорит износ вентиляторов и не устранит первопричину. Правильный путь — вычистить тракт и исключить рециркуляцию.

Почему рядом с fan-ошибками часто вспыхивает CRC Из-за просадок и «шумной» земли. На рывках тока тахосигнал и датчики дрожат, обмен «сыпется». Электрика и воздух — два элемента одного контура стабильности.

Нужно ли менять все вентиляторы сразу Нет. Рациональнее иметь проверенную пару и тестировать перестановкой. Меняем только уставшие/шумные — остальные чистим и контролируем.

Если выпал один датчик, можно ли работать дальше Не стоит. Контроллер будет «слеп» по одной зоне и реагировать избыточно. Лучше оперативно диагностировать плату и вернуть корректные показания.

Связанные материалы

Task Runner