Ошибки fan/thermal на Whatsminer — одна из самых частых причин срыва запуска, падения хешрейта и повышенного износа. Они проявляются сообщениями fan error, low RPM, thermal throttling, overheat и целой россыпью косвенных симптомов: постоянные максимальные обороты, «пила» по скорости вентиляторов, всплески CRC, «find 0 asic» после прогрева. При этом первопричина далеко не всегда в самих вентиляторах: чаще виноваты воздушный тракт, датчики температуры, электропитание и кабель-менеджмент.
Эта статья — практический, расширенный гид по диагностике без пайки. Мы разберём логику работы контура охлаждения, научимся быстро читать Kernel log, сопоставлять телеметрию с реальными условиями, выстроим пошаговый алгоритм и дадим матрицу «симптом → причина → действие». В конце — профилактика и разбор живых сценариев.
Коротко о ошибке температуры и вентиляторов
- Ошибки fan/thermal чаще всего вызваны средой: пылью, рециркуляцией, слабым притоком или вытяжкой, а также «шумной» линией питания.
- Вентиляторы и датчики — лишь исполнители: если окружение плохое, они реагируют аварийно и провоцируют вторичные сбои.
- Быстрый путь к решению — сток-профиль, чистый воздухотракт, проверка питания и шлейфов, потом — изоляция платы и сверка датчиков.
- Плотная посадка коннекторов, равномерная раскладка жгутов и отсутствие натяжения — обязательны для стабильной работы.
Как устроен контур охлаждения на практике
Контроллер читает датчики температуры NTC на платах и ориентируется на заданные пороги. Через шину он управляет скоростью вентиляторов в формате PWM: чем горячее плата и «грязнее» воздух, тем выше скважность PWM и обороты. В норме обороты меняются плавно, а температура предсказуема: после прогрева система держит устойчивое плато.
Что ломает этот контур:
- Пыль и рециркуляция. Горячий выхлоп возвращается во вход, радиаторы зарастают, вентиляторы «бьются» в потолок.
- Выпавшие датчики. Один NTC может «уползти» в ноль, экстремум или «—», и контроллер включит защитный режим.
- Плохая земля и просадки по питанию. На рывках тока сигнал датчиков и тахосигнал плавно превращаются в шум — отсюда ложные аварии и «пила» по оборотам.
- Натянутые жгуты и разболтанные коннекторы. Плавающие контакты дают фантомные low RPM и «провалы» в журнале.
Где искать и как читать Kernel log
Диагностику начинаем с холодного запуска и сохраняем kernel/current/history. Смотрим:
- самые ранние строки про вентиляторы и датчики: контроллер сообщает целевые PWM и полученные RPM;
- моменты форсажа вентиляторов и появление thermal сообщений;
- соседние события: CRC, find 0 asic/chain missing, EEPROM/PIC.
Полезная привычка — отмечать временные метки: где именно вентиляция пошла в потолок, где «зашумели» датчики, когда пошли CRC и спустя сколько строк появился критический thermal. Это показывает последовательность и помогает отличить первопричину от следствия (подсказки по формулировкам — в разборе Kernel log).
Основные сообщения и что они значат
| Сообщение в панели/журнале | Что это означает на деле | Куда смотреть в первую очередь |
|---|---|---|
| fan error | Контроллер не видит честный тахосигнал от одного из вентиляторов | Разъём и кабель вентилятора, механика крыльчатки, питание и земля |
| low RPM | Обороты ниже ожиданий при заданном PWM | Фрикция/грязь, износ втулки, обратное давление в канале, питание |
| thermal throttling | Контроллер снижает частоты/напряжение из-за перегрева | Пыль, рециркуляция, слабая вытяжка, высокая температура входа |
| overheat / over temperature | Достигнут аварийный порог — работа остановлена | Немедленно чистить тракт, проверить датчики, исключить рециркуляцию |
| temp sensor error | Выпал датчик, показания за пределами допустимых | Цепь NTC на плате, разъёмы, шлейф, локальная логика |
Пошаговая диагностика без пайки
Первый шаг — вернуть сток-профиль Уберите разгон и кастомные кривые. Сток возвращает предсказуемые пороги PWM и снижает тепловую нагрузку.
Второй шаг — снять журналы с холодного пуска Сразу после включения сохраняем kernel/current/history. Отмечаем, с какого момента вентиляторы ушли в потолок и какие предупреждения этому предшествовали.
Третий шаг — навести порядок в воздухотракте Продуйте решётки, радиаторы, пылевые карманы. Убедитесь, что горячий выхлоп не подсасывается во вход. Если обороты почти сразу упираются в максимум при умеренной температуре входного воздуха — это недобор расхода, а не «характер майнера». Базовые принципы и формулы расчёта расхода — в гайде по среде.
Четвёртый шаг — проверить вентиляторы и разъёмы Пальцами прокрутите крыльчатки: ход должен быть плавным, без закусываний. Осмотрите разъёмы: потемнения, люфт, «уставший» пластик. Поменяйте вентиляторы местами (front ↔ rear): если симптом «ходит» за вентилятором — механика, если остаётся на разъёме — цепь управления/питания.
Пятый шаг — посмотреть питание и землю Силовые коннекторы и жгуты — частая скрытая причина. Нагретые пины, слабая обжимка, длинные удлинители и «тройники» дают просадки, на которых тахосигнал «дрожит», а контроллер видит low RPM и поднимает PWM до потолка. Повтор на эталонном PSU и короткой линии — лучший тест. Подробно — PSU.
Шестой шаг — переставить шлейфы и порты Меняем шлейфы между платами, используем другой порт на контроллере. Если «фан-ошибка» меняет «адрес» вместе с шлейфом — виноват кабель/порт. Если остаётся за платой — смотрим датчики и её локальную логику.
Седьмой шаг — изолировать платы Запускаем майнер по одной плате. Если thermal-сбои появляются только с конкретной платой — круг сужается до её датчиков, логики и силовой части.
Восьмой шаг — сопоставить с другими симптомами Если рядом в те же секунды идут всплески CRC, это знак «шумной» электрики или перегрева силовой части. Если рядом EEPROM/PIC, а вентиляторы уже в потолке — датчики/среда могли сорвать чтение «паспорта». См. CRC, EEPROM, PIC-контроллер.
Воздушный тракт и признаки рециркуляции
Рециркуляция — когда часть горячего потока возвращается во вход:
- решётки и фронт корпуса быстро покрываются пылью «после» фильтра;
- температура выхода растёт, а разница «вход ↔ выход» становится аномально высокой;
- вентиляторы держатся у потолка даже при умеренном наружном воздухе;
- в журналах видны ступени PWM и «пила» по RPM без стабильного плато.
Лечение: разделить горячую и холодную зоны перегородкой или экраном, убрать «мешки» и лишние повороты, согласовать приток/вытяжку с запасом и обеспечить лёгкий доступ к фильтрам (подробные схемы и формулы — в руководстве по среде).
Датчики температуры: что ломается и как это видно
NTC-термисторы иногда «выпадают»: показывают ноль, экстремум или «—». Причины — окисленные контакты, натяжение жгутов, влажность и конденсат, перегрев. В логах это выглядит как нелепые скачки, а вентиляторы тут же улетают в максимум.
Как проверять:
- сверяйте показания всех датчиков на платах; один «выпавший» — уже повод искать;
- сравнивайте датчики между платами: выпадающий на одной при норме на других — кандидат на ремонт;
- мягко «пошевелите» жгуты в месте подключения — если показания «оживают», контакт неустойчив;
- исключите конденсат: утеплите «ледяные» каналы, не дуйте сверххолодным воздухом прямо на плату (подробности — в разделе про влажность).
Вентиляторы: механика, питание и тахосигнал
Вентилятор — механический узел, которому вредят пыль, вибрации и перекос корпуса:
- Фрикция и грязь снижают RPM при том же PWM — контроллер считает это low RPM.
- Изношенная втулка/подшипник даёт «пилу» по скорости, свист, дрожание тахосигнала.
- Плохой разъём или «шумная» земля искажают фронты тахо — контроллер видит «фантомные» остановки.
Правила:
- вентиляторы не должны висеть на кабелях; жгуты крепим так, чтобы не тянули разъёмы;
- избегаем острых перегибов и «гармошек»;
- держим пару исправных вентиляторов для быстрой перестановки и проверки гипотезы.
Электропитание и влияние на fan/thermal
Даже идеальный воздух не поможет, если линия шумная: удлинители, «тройники», совместная розетка с нагревателем — классика ложных fan error и low RPM. На рывках тока тахосигнал «дрожит», PWM меняется ступенями, а затем приходит thermal.
Быстрые признаки электрической первопричины:
- фан-ошибки возникают вместе со всплесками CRC и перезапусками цепочек;
- на эталонном PSU симптом пропадает;
- на коннекторах заметны следы нагрева и ослабленная обжимка.
Подробные рекомендации — в статье про PSU и в чек-листе диагностики.
Когда виновата программная часть
Редко, но случается несостыковка профиля и ревизии: кривые PWM, пороги и поведение на старте «не совпадают» с железом. Это проявляется как устойчивые, воспроизводимые аномалии без видимых проблем с воздухом и питанием на чистом стенде. В такой ситуации сперва исключают среду и электрику, собирают корректные журналы, фиксируют ревизии и уже потом рассматривают программные несоответствия.
Матрица «симптом → причина → действие»
| Симптом | Вероятная причина | Что делать сейчас |
|---|---|---|
| Вентиляторы сразу в потолке при умеренном входе | Пыль, рециркуляция, слабая вытяжка | Продувка, разделение потоков, усиление вытяжки, проверка фильтров |
| fan error или low RPM без явного шума | Разъём, питание вентилятора, фрикция | Переставить вентиляторы, осмотреть разъёмы, смонтировать жгуты без натяжения |
| thermal throttling на ровном месте | Недобор расхода воздуха или локальные «пробки» | Сократить повороты и «мешки», проверить решётки, сравнить «вход ↔ выход» |
| overheat после нескольких минут работы | Перегрев силовой части/радиаторов | Увеличить приток/вытяжку, убрать рециркуляцию, вернуть сток-профиль |
| fan error вместе с всплесками CRC | «Шумная» линия, просадки по питанию | Эталонный PSU, короткая линия, замена нагретых коннекторов |
| аномалия «ходит» за вентилятором | Износ/грязь конкретного вентилятора | Заменить вентилятор, очистить, проверить баланс крыльчатки |
| аномалия остаётся на разъёме | Цепь управления или датчик | Осмотреть разъём, шлейф, логи датчиков, тест с одной платой |
| повторяемая аномалия только на одной плате | Датчик/логика/силовая часть платы | Изоляция платы, сбор логов, сервисная диагностика |
Сценарии из практики
- Комната с обратной тягой. Горячий поток заворачивал во вход. Вентиляторы сразу под потолком, через несколько минут — throttling, затем overheat. Разделили зоны, усилили вытяжку, убрали один поворот — система вышла на стабильное плато.
- Фантомный low RPM. На простом стенде вентиляторы норм, в рабочей комнате — постоянные жалобы. В журналах рядом CRC. Замена удлинителя и проблемного тройника, перестановка жгутов питания — fan-ошибки исчезли.
- Один «выпавший» датчик. При любом профиле контроллер уводил PWM в потолок. Сравнение датчиков показало единичный экстремум на одной плате. Изоляция платы подтвердила: именно она вызывает аномалию. Ремонт датчика — и всё стабильно.
- Вентилятор с изношенной втулкой. Шум, вибрация, «пила» по RPM. Перестановка вентиляторов переносила симптом — итогом стала замена пары и нормализация логов.
Профилактика и эксплуатационная дисциплина
- Чистый воздух: фильтрация притока, лёгкая разборка для обслуживания, никаких «мешков» и острых поворотов.
- Разделённые зоны: холодная и горячая часть не пересекаются, щели уплотнены, рециркуляция исключена.
- Здоровая электрика: отдельная линия без перегруженных тройников, короткий путь, качественные коннекторы, плотная посадка.
- Кабель-менеджмент: жгуты не тянут разъёмы, не висят и не трутся о корпус; шлейфы без перегибов.
- Сток в жару: агрессивные профили только при очевидном запасе по воздуху и PSU.
- Резерв: держите комплект исправных вентиляторов и шлейфов — это экономит часы диагностики.
- Журнал обслуживания: даты чистки, замены вентиляторов, температуры «вход ↔ выход», RPM при типовой нагрузке, когда и почему срабатывали fan/thermal.
Ответы на частые вопросы
Почему вентиляторы «зависают» в потолке даже при нормальной погоде Потому что поток внутри комнаты организован неверно. Рециркуляция и пылевые пробки заставляют систему видеть «вечный перегрев», даже если наружный воздух прохладный.
Можно ли поднять целевую скорость и «забыть» про проблему Увеличение PWM — временная маскировка. Это ускорит износ вентиляторов и не устранит первопричину. Правильный путь — вычистить тракт и исключить рециркуляцию.
Почему рядом с fan-ошибками часто вспыхивает CRC Из-за просадок и «шумной» земли. На рывках тока тахосигнал и датчики дрожат, обмен «сыпется». Электрика и воздух — два элемента одного контура стабильности.
Нужно ли менять все вентиляторы сразу Нет. Рациональнее иметь проверенную пару и тестировать перестановкой. Меняем только уставшие/шумные — остальные чистим и контролируем.
Если выпал один датчик, можно ли работать дальше Не стоит. Контроллер будет «слеп» по одной зоне и реагировать избыточно. Лучше оперативно диагностировать плату и вернуть корректные показания.
