Antminer: ошибка датчика температуры — диагностика и решения

Ошибка датчика температуры на Antminer обычно отображается в панели и в Kernel log как сообщения наподобие temp sensor error, sensor abnormal, over temperature, thermal protection. На практике это не всегда поломка самого датчика: часто срабатывание вызвано плохой средой (пыль, рециркуляция, слабая вытяжка), электрикой (просадки, «шумная» земля, уставшие коннекторы), кабель-менеджментом (натянутые жгуты), а уже затем — дефектом NTC на плате или проблемой цепи чтения.

Antminer: ошибка датчика температуры — диагностика и решения

Эта статья даёт системный подход к диагностике без пайки: как быстро отличить ложную тревогу от реальной, где смотреть в журналах, как изолировать плату и что делать, чтобы вернуть стабильность.

Коротко об ошибке датчика температуры в Antminer

  • Что это: контроллер видит некорректные показания температуры и уводит устройство в защиту — снижает частоты или останавливает хеширование.
  • Почему так бывает: пыль и рециркуляция, неверно организованный воздушный тракт, «шумная» линия питания, уставшие вентиляторы, выпавший или «шумный» NTC, разъём и шлейф, реже — несостыкованный профиль.
  • С чего начать: вернуть сток-профиль, снять журналы с холодного старта, привести в порядок воздух и коннекторы, переставить вентиляторы и шлейфы, запустить по одной плате.
  • Когда ремонт: если в стоке, на эталонном PSU и с чистым воздухом ошибка «привязана» к одной плате и сохраняется при любых перестановках — стендовая диагностика этой платы.

Как устроен контур температуры на Antminer

Основа — NTC-термисторы на каждой плате и иногда в потоке воздуха. Контроллер считывает их и по кривым PWM управляет вентиляторами. В норме:

  • после холодного пуска температура и обороты растут плавно,
  • формируется устойчивое плато без «пилы»,
  • при росте ambient обороты поднимаются умеренно, без аварийных ступеней.

Что ломает картину:

  • пыль на радиаторах и решётках,
  • возврат горячего выхлопа во вход (рециркуляция),
  • выпавший NTC (ноль, экстремум, «—»),
  • электрические просадки, делающие сигнал датчика «шумным».

Подробно про физику среды и расчёт воздуха — в гайде по среде. База терминов — NTC-термистор и PWM вентилятора.

Как читать Kernel log и что важно поймать

Открывайте kernel/current/history и всегда анализируйте самое начало холодного пуска. Ищите:

  • упоминания temp sensor error / sensor abnormal,
  • соседние строки fan/thermal, команды на PWM и полученные RPM,
  • попытки коррекции частот (thermal throttling) и аварийный shutdown,
  • параллельные всплески CRC/nonce CRC, find 0 asic/chain missing, EEPROM/PIC.

Ключ — последовательность. Если сначала идёт скачок ventilator PWM, затем «sensor abnormal», а следом CRC, это одна картина. Если сперва CRC и «пила» по RPM, а только потом «temp sensor error», вероятнее электрика, а не датчик. Подсказки по формулировкам — в разделе про Kernel log.

Быстрая карта действий

  1. вернуть сток-профиль;
  2. провести холодный пуск и сразу сохранить журналы;
  3. очистить решётки и радиаторы, исключить рециркуляцию;
  4. осмотреть силовые коннекторы и кабели, по возможности проверить на эталонном PSU;
  5. переставить вентиляторы местами и проверить реакцию;
  6. перекинуть шлейфы/порты и посмотреть, «ходит» ли симптом;
  7. запустить по одной плате, чтобы изолировать неисправную;
  8. фиксировать, что помогло — это ускорит последующие решения.

Пошаговая диагностика без пайки

Первый шаг — стоковый профиль Любой разгон и кастомные кривые отключаются. Контроллер рассчитывает поведение вентиляции и пороги защиты именно под сток. Это снижает риск ложных срабатываний во время старта.

Второй шаг — журналы холодного старта Сделайте полный power off, подождите, затем запуститесь и сразу сохраните kernel/current/history. Отметьте:

  • когда впервые упомянут temp sensor error,
  • что стоит в журналах до и после этого сообщения,
  • в какой момент PWM ушла в потолок и какие были RPM.

Третий шаг — вычищаем воздухотракт Продуйте радиаторы, снимите «шубу» с решёток, освободите вход. Проверьте, не разворачивается ли горячий выхлоп в сторону забора. Если обороты уезжают в потолок ещё до выхода в хеширование — уже есть проблема с расходом воздуха. Детали организации потока и формулы — в руководстве по среде.

Четвёртый шаг — проверяем вентиляторы и разъёмы Крыльчатки должны вращаться свободно, без скрежета. Переставьте front ↔ rear и проверьте, переносится ли симптом. Если «температурная» аномалия «ходит» за вентилятором — механика/износ. Если остаётся на разъёме — цепь управления или датчики платы.

Пятый шаг — электрика и коннекторы Осмотрите силовые кабели: потемневшие пины, «поджаренный» пластик, люфт — маркеры проблем. На рывках тока «дрожит» опора АЦП, и датчики «шумят» — отсюда ложные аварии. По возможности повторите запуск на эталонном PSU по короткой линии. Про типичные признаки см. PSU.

Шестой шаг — шлейфы и порты Перекиньте шлейфы между платами и порты на контроллере. Если адрес аномалии меняется вместе с кабелем — виноват шлейф/порт. Если остаётся за платой — круг сузился до датчиков и логики этой платы.

Седьмой шаг — изоляция плат Запускайте по одной плате. Если ошибка появляется только при подключении конкретной платы, а в остальных конфигурациях тишина — это кандидат на стендовую диагностику.

Восьмой шаг — смотрим соседние симптомы Если рядом идут CRC/nonce CRC, проверьте питание, землю и коннекторы. Если рядом EEPROM/NG или PIC/MCU, оцените последовательность: возможно, чтение «паспорта» сорвалось из-за «шумной» среды, а не из-за самой памяти. См. CRC, EEPROM, PIC-контроллер.

Матрица «симптом → вероятная зона → действие»

Симптом в журналах/панели Вероятная зона Что сделать сейчас
temp sensor error / sensor abnormal на раннем старте NTC или его разъём, шлейф, цепь чтения Сток → переставить вентиляторы → новый шлейф → запуск по одной плате
thermal throttling без явного роста ambient Пыль, рециркуляция, слабая вытяжка Продувка, развести потоки, усилить вытяжку, проверить направление обдува
overheat после нескольких минут работы Перегрев радиаторов/VRM, узкие каналы Увеличить расход воздуха, убрать «мешки» и повороты, вернуть сток
fan error / low RPM вместе с temp sensor error Питание вентилятора, разъём, уставший вентилятор Перестановка вентиляторов, осмотр разъёмов, эталонный PSU
«температура» скачет при касании жгута Контакт датчика/шлейф/разъём Закрепить жгуты без натяга, прочистить/заменить разъём, новый шлейф
Ошибка остаётся за конкретной платой при любых перестановках Локальная проблема платы (датчик/логика) Изоляция, журналы, стендовая диагностика платы

Как отличить ложную тревогу от реальной перегрузки по теплу

Ложная тревога характерна тем, что:

  • показания «скачут» ступенями,
  • вентиляторы ведут себя «рвано»,
  • рядом «вспыхивает» CRC и другие вторичные симптомы,
  • на эталонном PSU и с чистым воздухом картина «успокаивается».

Реальная перегрузка проявляется иначе:

  • плавный выход на «потолок» PWM при растущей температуре,
  • отсутствие ступеней и «пилы»,
  • повторяемость при любой электрике,
  • улучшение только после увеличения расхода воздуха и удаления пыли.

Если сомневаетесь — сравните температуру входа и выхода у майнера; избыточная разница при тех же настройках — признак слабого потока. При необходимости вернитесь к формулам из руководства по среде.

Почему электрика «ломает» показания датчиков

На старте и при переходных процессах вентиляторов ток растёт ступенями. Если линия и коннекторы «на грани», появляется «пила» по питанию и «шумная» земля. АЦП начинает «дрожать», четырёхпроводные вентиляторы теряют стабильный тахосигнал, контроллер ошибочно видит low RPM, а затем и sensor error. В журналах это заметно как синхронные всплески CRC, ступени PWM и «температурные» аномалии. Подробно — в PSU и CRC.

Воздухотракт и рециркуляция: тревожные признаки

  • пыль появляется после фильтра и на фронте корпуса,
  • температура выхода стабильно выше привычной,
  • вентиляторы почти всегда у потолка,
  • в логах видна «лестница» PWM вместо плато,
  • хешрейт «плавает» на прогреве.

Решение — разделить холодную и горячую зоны, убрать лишние повороты и «мешки», обеспечить запас по притоку и вытяжке, поставить фильтрацию притока с удобной чисткой. См. влияние среды.

Вентиляторы: как быстро понять их роль

  • переставьте местами front ↔ rear и проверьте, переносится ли симптом;
  • если переносится — уставший вентилятор или фрикция,
  • если остаётся — смотрим разъём, питание вентилятора, цепь управления, датчики платы;
  • следите, чтобы жгуты не тянули разъёмы и не перетирались о кромки корпуса.

Шлейфы, порты и связь с контроллером

«Температурные» аномалии иногда «переезжают» со шлейфом. Это характерно для окисленных контактов и микротрещин. Меняйте кабель, порт и закрепляйте жгуты так, чтобы исключить вибрации и натяжение. Быстрый тест — лёгкое шевеление жгута при наблюдении логов: если симптом меняется — контакт слабый.

Связанная телеметрия: EEPROM, PIC и CRC

  • Если EEPROM/NG идёт после «температурного» хаоса, вероятно, чтение сорвалось из-за среды.
  • Если PIC/MCU ругается до вентиляции — ищите электрику.
  • Если CRC вспыхивает синхронно с форсажем вентиляторов — обратите внимание на PSU и коннекторы.

Ссылки для углубления: EEPROM, PIC-контроллер, CRC.

Практические сценарии

  • Комната без разделения потоков. Горячий выхлоп частично возвращался во вход. В журналах — ранний форсаж вентиляторов, «лестница» PWM, затем temp sensor error. После установки перегородки и усиления вытяжки система вышла на устойчивое плато.
  • Ложный датчик из-за электрики. На старте — вспышки CRC, «дрожащие» RPM, потом sensor abnormal. На эталонном PSU и короткой линии ошибки исчезли; виноваты удлинители и перегруженный тройник.
  • Уставший вентилятор. Шум и вибрация, «пила» по RPM, периодические low RPM с temp sensor error. Перестановка переносила симптом — замена пары вентиляторов решила вопрос.
  • Один «выпавший» NTC на плате. В любой конфигурации контроллер уходил в защиту при подключении конкретной платы. Изоляция подтвердила локальную причину; плата уехала на стенд, датчик и цепь чтения восстановлены.
  • Влажность и конденсат. Зимой приток «ледяного» воздуха без подмеса дал конденсат на коннекторах — периодические sensor abnormal. Утепление канала и плавный микс с тёплым воздухом устранили симптом.

Частые ошибки при диагностике

  • начинать с «прошивок», не исключив воздух и электрику;
  • игнорировать журналы холодного старта (там видна причинно-следственная цепочка);
  • держать жгуты в натяг и через острые кромки;
  • «лечить» проблему повышением оборотов — это маскировка, а не решение;
  • менять всё сразу без изоляции — потом сложно понять, что действительно помогло.

Профилактика

  • Сток-профиль в жаркий сезон и при высокой пыли; разгон — только при очевидном запасе по воздуху и PSU.
  • Фильтрация притока и лёгкий сервис фильтров; регулярная продувка радиаторов.
  • Разделённые зоны: горячая и холодная не пересекаются, щели уплотнены, рециркуляции нет.
  • Здоровая электрика: короткая линия, качественные удлинители, отсутствие перегруженных тройников, плотная посадка коннекторов.
  • Кабель-менеджмент: жгуты и шлейфы без натяжения и перегибов, фиксация от вибраций.
  • Резерв: держите комплект исправных вентиляторов и шлейфов.
  • Журнал обслуживания: даты чистки, температуры «вход/выход», RPM при типовой нагрузке, любые «температурные» события и что помогло.

Вопросы и ответы

Почему иногда спасает простой перезапуск Потому что условия совпали удачно: воздух стал прохладнее, контакт «прижался», нагрузка росла мягче. Но первопричина остаётся — ошибка вернётся.

Можно ли временно поднять обороты и забыть Повышение PWM — временная маскировка, которая ускоряет износ вентиляторов и не лечит первопричину. Правильно — наладить воздух и электрику.

Как понять, что виновата именно плата Если на эталонном PSU, с чистым воздухом, при изоляции плат проблема стабильна только с одной платой, а перестановка вентиляторов и шлейфов ничего не меняет — это её локальная цепь датчиков/логики.

Нужно ли обновлять прошивку Только после исключения среды и электрики, и при признаках несостыковки профиля с ревизией. «Магических» прошивок от пыли и рециркуляции не существует.

Почему рядом с temp sensor error часто вспыхивает CRC Из-за «шумной» электрики и переходных процессов вентиляции. На рывках тока сигналы дрожат, датчики «шумят», обмен «пачкается». Лечат питание и воздух.

См. также

Task Runner