Ошибка датчика температуры на Antminer обычно отображается в панели и в Kernel log как сообщения наподобие temp sensor error, sensor abnormal, over temperature, thermal protection. На практике это не всегда поломка самого датчика: часто срабатывание вызвано плохой средой (пыль, рециркуляция, слабая вытяжка), электрикой (просадки, «шумная» земля, уставшие коннекторы), кабель-менеджментом (натянутые жгуты), а уже затем — дефектом NTC на плате или проблемой цепи чтения.
Эта статья даёт системный подход к диагностике без пайки: как быстро отличить ложную тревогу от реальной, где смотреть в журналах, как изолировать плату и что делать, чтобы вернуть стабильность.
Коротко об ошибке датчика температуры в Antminer
- Что это: контроллер видит некорректные показания температуры и уводит устройство в защиту — снижает частоты или останавливает хеширование.
- Почему так бывает: пыль и рециркуляция, неверно организованный воздушный тракт, «шумная» линия питания, уставшие вентиляторы, выпавший или «шумный» NTC, разъём и шлейф, реже — несостыкованный профиль.
- С чего начать: вернуть сток-профиль, снять журналы с холодного старта, привести в порядок воздух и коннекторы, переставить вентиляторы и шлейфы, запустить по одной плате.
- Когда ремонт: если в стоке, на эталонном PSU и с чистым воздухом ошибка «привязана» к одной плате и сохраняется при любых перестановках — стендовая диагностика этой платы.
Как устроен контур температуры на Antminer
Основа — NTC-термисторы на каждой плате и иногда в потоке воздуха. Контроллер считывает их и по кривым PWM управляет вентиляторами. В норме:
- после холодного пуска температура и обороты растут плавно,
- формируется устойчивое плато без «пилы»,
- при росте ambient обороты поднимаются умеренно, без аварийных ступеней.
Что ломает картину:
- пыль на радиаторах и решётках,
- возврат горячего выхлопа во вход (рециркуляция),
- выпавший NTC (ноль, экстремум, «—»),
- электрические просадки, делающие сигнал датчика «шумным».
Подробно про физику среды и расчёт воздуха — в гайде по среде. База терминов — NTC-термистор и PWM вентилятора.
Как читать Kernel log и что важно поймать
Открывайте kernel/current/history и всегда анализируйте самое начало холодного пуска. Ищите:
- упоминания temp sensor error / sensor abnormal,
- соседние строки fan/thermal, команды на PWM и полученные RPM,
- попытки коррекции частот (thermal throttling) и аварийный shutdown,
- параллельные всплески CRC/nonce CRC, find 0 asic/chain missing, EEPROM/PIC.
Ключ — последовательность. Если сначала идёт скачок ventilator PWM, затем «sensor abnormal», а следом CRC, это одна картина. Если сперва CRC и «пила» по RPM, а только потом «temp sensor error», вероятнее электрика, а не датчик. Подсказки по формулировкам — в разделе про Kernel log.
Быстрая карта действий
- вернуть сток-профиль;
- провести холодный пуск и сразу сохранить журналы;
- очистить решётки и радиаторы, исключить рециркуляцию;
- осмотреть силовые коннекторы и кабели, по возможности проверить на эталонном PSU;
- переставить вентиляторы местами и проверить реакцию;
- перекинуть шлейфы/порты и посмотреть, «ходит» ли симптом;
- запустить по одной плате, чтобы изолировать неисправную;
- фиксировать, что помогло — это ускорит последующие решения.
Пошаговая диагностика без пайки
Первый шаг — стоковый профиль Любой разгон и кастомные кривые отключаются. Контроллер рассчитывает поведение вентиляции и пороги защиты именно под сток. Это снижает риск ложных срабатываний во время старта.
Второй шаг — журналы холодного старта Сделайте полный power off, подождите, затем запуститесь и сразу сохраните kernel/current/history. Отметьте:
- когда впервые упомянут temp sensor error,
- что стоит в журналах до и после этого сообщения,
- в какой момент PWM ушла в потолок и какие были RPM.
Третий шаг — вычищаем воздухотракт Продуйте радиаторы, снимите «шубу» с решёток, освободите вход. Проверьте, не разворачивается ли горячий выхлоп в сторону забора. Если обороты уезжают в потолок ещё до выхода в хеширование — уже есть проблема с расходом воздуха. Детали организации потока и формулы — в руководстве по среде.
Четвёртый шаг — проверяем вентиляторы и разъёмы Крыльчатки должны вращаться свободно, без скрежета. Переставьте front ↔ rear и проверьте, переносится ли симптом. Если «температурная» аномалия «ходит» за вентилятором — механика/износ. Если остаётся на разъёме — цепь управления или датчики платы.
Пятый шаг — электрика и коннекторы Осмотрите силовые кабели: потемневшие пины, «поджаренный» пластик, люфт — маркеры проблем. На рывках тока «дрожит» опора АЦП, и датчики «шумят» — отсюда ложные аварии. По возможности повторите запуск на эталонном PSU по короткой линии. Про типичные признаки см. PSU.
Шестой шаг — шлейфы и порты Перекиньте шлейфы между платами и порты на контроллере. Если адрес аномалии меняется вместе с кабелем — виноват шлейф/порт. Если остаётся за платой — круг сузился до датчиков и логики этой платы.
Седьмой шаг — изоляция плат Запускайте по одной плате. Если ошибка появляется только при подключении конкретной платы, а в остальных конфигурациях тишина — это кандидат на стендовую диагностику.
Восьмой шаг — смотрим соседние симптомы Если рядом идут CRC/nonce CRC, проверьте питание, землю и коннекторы. Если рядом EEPROM/NG или PIC/MCU, оцените последовательность: возможно, чтение «паспорта» сорвалось из-за «шумной» среды, а не из-за самой памяти. См. CRC, EEPROM, PIC-контроллер.
Матрица «симптом → вероятная зона → действие»
| Симптом в журналах/панели | Вероятная зона | Что сделать сейчас |
|---|---|---|
| temp sensor error / sensor abnormal на раннем старте | NTC или его разъём, шлейф, цепь чтения | Сток → переставить вентиляторы → новый шлейф → запуск по одной плате |
| thermal throttling без явного роста ambient | Пыль, рециркуляция, слабая вытяжка | Продувка, развести потоки, усилить вытяжку, проверить направление обдува |
| overheat после нескольких минут работы | Перегрев радиаторов/VRM, узкие каналы | Увеличить расход воздуха, убрать «мешки» и повороты, вернуть сток |
| fan error / low RPM вместе с temp sensor error | Питание вентилятора, разъём, уставший вентилятор | Перестановка вентиляторов, осмотр разъёмов, эталонный PSU |
| «температура» скачет при касании жгута | Контакт датчика/шлейф/разъём | Закрепить жгуты без натяга, прочистить/заменить разъём, новый шлейф |
| Ошибка остаётся за конкретной платой при любых перестановках | Локальная проблема платы (датчик/логика) | Изоляция, журналы, стендовая диагностика платы |
Как отличить ложную тревогу от реальной перегрузки по теплу
Ложная тревога характерна тем, что:
- показания «скачут» ступенями,
- вентиляторы ведут себя «рвано»,
- рядом «вспыхивает» CRC и другие вторичные симптомы,
- на эталонном PSU и с чистым воздухом картина «успокаивается».
Реальная перегрузка проявляется иначе:
- плавный выход на «потолок» PWM при растущей температуре,
- отсутствие ступеней и «пилы»,
- повторяемость при любой электрике,
- улучшение только после увеличения расхода воздуха и удаления пыли.
Если сомневаетесь — сравните температуру входа и выхода у майнера; избыточная разница при тех же настройках — признак слабого потока. При необходимости вернитесь к формулам из руководства по среде.
Почему электрика «ломает» показания датчиков
На старте и при переходных процессах вентиляторов ток растёт ступенями. Если линия и коннекторы «на грани», появляется «пила» по питанию и «шумная» земля. АЦП начинает «дрожать», четырёхпроводные вентиляторы теряют стабильный тахосигнал, контроллер ошибочно видит low RPM, а затем и sensor error. В журналах это заметно как синхронные всплески CRC, ступени PWM и «температурные» аномалии. Подробно — в PSU и CRC.
Воздухотракт и рециркуляция: тревожные признаки
- пыль появляется после фильтра и на фронте корпуса,
- температура выхода стабильно выше привычной,
- вентиляторы почти всегда у потолка,
- в логах видна «лестница» PWM вместо плато,
- хешрейт «плавает» на прогреве.
Решение — разделить холодную и горячую зоны, убрать лишние повороты и «мешки», обеспечить запас по притоку и вытяжке, поставить фильтрацию притока с удобной чисткой. См. влияние среды.
Вентиляторы: как быстро понять их роль
- переставьте местами front ↔ rear и проверьте, переносится ли симптом;
- если переносится — уставший вентилятор или фрикция,
- если остаётся — смотрим разъём, питание вентилятора, цепь управления, датчики платы;
- следите, чтобы жгуты не тянули разъёмы и не перетирались о кромки корпуса.
Шлейфы, порты и связь с контроллером
«Температурные» аномалии иногда «переезжают» со шлейфом. Это характерно для окисленных контактов и микротрещин. Меняйте кабель, порт и закрепляйте жгуты так, чтобы исключить вибрации и натяжение. Быстрый тест — лёгкое шевеление жгута при наблюдении логов: если симптом меняется — контакт слабый.
Связанная телеметрия: EEPROM, PIC и CRC
- Если EEPROM/NG идёт после «температурного» хаоса, вероятно, чтение сорвалось из-за среды.
- Если PIC/MCU ругается до вентиляции — ищите электрику.
- Если CRC вспыхивает синхронно с форсажем вентиляторов — обратите внимание на PSU и коннекторы.
Ссылки для углубления: EEPROM, PIC-контроллер, CRC.
Практические сценарии
- Комната без разделения потоков. Горячий выхлоп частично возвращался во вход. В журналах — ранний форсаж вентиляторов, «лестница» PWM, затем temp sensor error. После установки перегородки и усиления вытяжки система вышла на устойчивое плато.
- Ложный датчик из-за электрики. На старте — вспышки CRC, «дрожащие» RPM, потом sensor abnormal. На эталонном PSU и короткой линии ошибки исчезли; виноваты удлинители и перегруженный тройник.
- Уставший вентилятор. Шум и вибрация, «пила» по RPM, периодические low RPM с temp sensor error. Перестановка переносила симптом — замена пары вентиляторов решила вопрос.
- Один «выпавший» NTC на плате. В любой конфигурации контроллер уходил в защиту при подключении конкретной платы. Изоляция подтвердила локальную причину; плата уехала на стенд, датчик и цепь чтения восстановлены.
- Влажность и конденсат. Зимой приток «ледяного» воздуха без подмеса дал конденсат на коннекторах — периодические sensor abnormal. Утепление канала и плавный микс с тёплым воздухом устранили симптом.
Частые ошибки при диагностике
- начинать с «прошивок», не исключив воздух и электрику;
- игнорировать журналы холодного старта (там видна причинно-следственная цепочка);
- держать жгуты в натяг и через острые кромки;
- «лечить» проблему повышением оборотов — это маскировка, а не решение;
- менять всё сразу без изоляции — потом сложно понять, что действительно помогло.
Профилактика
- Сток-профиль в жаркий сезон и при высокой пыли; разгон — только при очевидном запасе по воздуху и PSU.
- Фильтрация притока и лёгкий сервис фильтров; регулярная продувка радиаторов.
- Разделённые зоны: горячая и холодная не пересекаются, щели уплотнены, рециркуляции нет.
- Здоровая электрика: короткая линия, качественные удлинители, отсутствие перегруженных тройников, плотная посадка коннекторов.
- Кабель-менеджмент: жгуты и шлейфы без натяжения и перегибов, фиксация от вибраций.
- Резерв: держите комплект исправных вентиляторов и шлейфов.
- Журнал обслуживания: даты чистки, температуры «вход/выход», RPM при типовой нагрузке, любые «температурные» события и что помогло.
Вопросы и ответы
Почему иногда спасает простой перезапуск Потому что условия совпали удачно: воздух стал прохладнее, контакт «прижался», нагрузка росла мягче. Но первопричина остаётся — ошибка вернётся.
Можно ли временно поднять обороты и забыть Повышение PWM — временная маскировка, которая ускоряет износ вентиляторов и не лечит первопричину. Правильно — наладить воздух и электрику.
Как понять, что виновата именно плата Если на эталонном PSU, с чистым воздухом, при изоляции плат проблема стабильна только с одной платой, а перестановка вентиляторов и шлейфов ничего не меняет — это её локальная цепь датчиков/логики.
Нужно ли обновлять прошивку Только после исключения среды и электрики, и при признаках несостыковки профиля с ревизией. «Магических» прошивок от пыли и рециркуляции не существует.
Почему рядом с temp sensor error часто вспыхивает CRC Из-за «шумной» электрики и переходных процессов вентиляции. На рывках тока сигналы дрожат, датчики «шумят», обмен «пачкается». Лечат питание и воздух.
