Whatsminer: nonce CRC error — расшифровка и что делать

nonce CRC error / CRC high — это сообщения о нарушении целостности обмена или результатов вычислений на Whatsminer. Проще говоря, контроллер получил данные, которые не проходят проверку по CRC: либо приёму помешали шумы и просадки, либо чипы/плата работают в условиях, где обмен становится нестабильным. На практике всплески CRC часто идут рука об руку с просадками питания, перегревом силовой части, проблемами воздухотракта, «шумной» землёй и агрессивными частотами.

Whatsminer: nonce CRC error — расшифровка и что делать

Ниже — разбор для тех, кто хочет быстро и без пайки отделить средовые факторы от неисправности конкретной платы, понять, что именно смотреть в kernel log, и вернуть стабильность.

Коротко о nonce CRC error в Whatsminer

  • Что это: индикатор сбоев целостности при обмене данными и приёме «nonce» от ASIC-чипов.
  • Почему возникает: шумная линия, просадки и «пила» по питанию, перегрев силовой части, рециркуляция горячего воздуха, выпавшие датчики, плохие шлейфы и контакты; реже — несостыкованные профили.
  • Где смотреть: начало kernel log после холодного пуска и моменты появления симптомов. Ищем соседние строки: fan/thermal, find 0 asic/chain missing, EEPROM/PIC, перезапуски инициализации.
  • Что делать сначала: вернуть сток-профиль, очистить тракт, исключить PSU/коннекторы, переставить шлейфы/порты, запустить по одной плате, сопоставить с журналами и температурой.

Что такое CRC и почему «nonce» важен

CRC — контрольная сумма, с помощью которой проверяется, что данные по пути не исказились. В майнинге контроллер принимает от чипов nonce — кандидат решения. Если в канале помехи или сама плата работает на грани, часть пакетов «ломается», и CRC указывает: «получили мусор».

Важный нюанс: CRC — симптом, а не диагноз. Он редко «один»; рядом почти всегда видны причины, которые влияют на качество сигнала и стабильность обмена: питание, температура, шлейфы, земля.

Где и как читать сообщения в журналах

Снимаем kernel/current/history сразу после холодного старта и в момент, когда «сыплются» ошибки. Ищем:

  • строки с nonce CRC error / CRC high;
  • соседние fan/thermal и скачки PWM/RPM;
  • попытки повторной инициализации цепочек, «find 0 asic/chain missing»;
  • упоминания EEPROM/PIC (часто вторично, но помогает понять последовательность событий).

Полезный приём: отметить временные метки появлений CRC и сопоставить их с ростом оборотов, температур и событиями питания (перезапуски, «затыки»). Это быстро покажет, что первично — среда или плата.

Типичные сценарии, когда растёт CRC

  • Просадки и «пила» по питанию. На старте и под нагрузкой линия «гуляет», земля «шумит» — обмен и датчики ведут себя непредсказуемо.
  • Перегрев силовой части и рециркуляция. Горячий выхлоп возвращается во вход; вентиляторы в потолке, а VRM перегревается → «грязное» питание на плате.
  • Шлейфы и коннекторы. Окисление, натянутые жгуты, микротрещины. Ошибка «переезжает» при смене кабеля или порта.
  • Агрессивные частоты и напряжения. Разгон заставляет силовую часть работать на грани, усиливает шумы и увеличивает чувствительность канала.
  • Датчики «врут». Выпавший NTC и «скакуны» в показаниях приводят к неверной реакции контроллера: обороты на максимум, резкие режимные сдвиги и «пованивающая» телеметрия на шинах.
  • Редкие программные несостыковки. После вмешательств профиль не соответствует ревизии железа — обмен «сыпется» при старте.

Пошаговая диагностика без пайки

Цель — отсечь среду и изоляцией понять, «чьё» CRC: сеть/PSU, шлейф, плата или профиль.

Сначала — сток-профиль Уберите разгон и касты. Сток снижает требования к PSU и охлаждению и стабилизирует режимы обмена. Если в стоке тишина — причина была в агрессивных настройках.

Далее — чистый воздухотракт Продуйте решётки и радиаторы, исключите рециркуляцию, проверьте свободный ход крыльчаток. Если обороты упираются в потолок при умеренной температуре входа — воздуха мало или датчик «врёт». См. влияние среды, PWM, NTC-термистор.

Теперь — питание и коннекторы Осмотрите силовые кабели и пины: потемнения, запах, люфт — признаки нагрева/окисления. По возможности запуск на эталонном PSU на короткой линии. Если CRC исчезают — первична электрика. Развернуто — PSU.

Перекидываем шлейфы и порты Меняем кабели между платами и порты на контроллере. Если CRC «переезжает» — виновата связь/порт. Если остаётся — смотрим конкретную плату.

Изолируем платы Запуск по одной плате. CRC идёт только с одной — круг сузился. Если при любых перестановках «шумит» одна и та же плата, а воздух/PSU исключены — стендовая диагностика платы.

Сверяем последовательность в журналах CRC вспыхивает до инициализации цепочек — часто электрическая часть или шлейф. CRC следует после форсажа вентиляторов и «thermal» — чаще воздух и перегрев силовой части. CRC рядом с EEPROM/PIC — смотрим логику старта, но сначала исключаем связь/PSU.

Проверяем программные соответствия Если недавно меняли прошивку/профиль, проверьте совместимость ревизий. Несостыкованность иногда выглядит как «вечная» нестабильность на старте.

Таблица «симптом → первичная гипотеза → что сделать»

Симптом в журналах Первичная гипотеза Действие сейчас
CRC растёт на холодном старте и при росте потребления Просадки по питанию, «шумная» земля Эталонный PSU, короткая линия, проверка пинов и распределения жгутов
CRC вспыхивает вместе с «fan/thermal» Недостаточный поток, рециркуляция, перегрев VRM Чистка, разделить горячую и холодную зоны, усилить вытяжку
CRC «переезжает» со шлейфом/портом Связь/порт/коннектор Новый шлейф, другой порт, фиксация жгутов без натяжения
CRC только на одной плате при любой конфигурации Локальная проблема платы Изоляция, журналы, стендовая диагностика платы
CRC исчезают после возврата к стоку Агрессивные частоты/напряжения Работать в стоке; разгон только при запасе по PSU/охлаждению
CRC идут рядом с EEPROM/PIC Срыв логики старта на конкретной плате Исключить связь/PSU; если остаётся — смотреть EEPROM и PIC-контроллер

Как питание «делает» CRC

Просадки и «пила» на силовой линии и «шумная» земля искажают уровни сигналов, подтягивают пороги, наводят ложные импульсы. Особенно ярко это видно:

  • на холодном старте, когда потребление растёт ступенчато;
  • при переходных процессах вентиляторов (резкие подъёмы RPM);
  • в моменты перегрева силовой части и коррекции частоты/напряжения.

Признаки электрической первопричины:

  • CRC совпадает по времени с «рывками» оборотов и перезапусками инициализации;
  • на эталонном PSU и короткой линии обмен «чистый»;
  • визуально есть следы нагрева пинов, жгуты неравномерно распределены.

Решения — в первую очередь электрика: другой блок питания для пробы, короткий путь, добротные кабели, плотные коннекторы, равномерное распределение жгутов между платами.

Как воздух и датчики «делают» CRC

Пыль и рециркуляция заставляют вентиляторы работать «на стенку». VRM и шины на плате перегреваются → питание на микросекунды становится «грязным», а обмен в такие моменты ломается. Выпавшие датчики и «шумные» показания вызывают агрессивную реакцию контроллера: форсаж оборотов, резкие наклоны режимов — и снова CRC.

Признаки средовой первопричины:

  • CRC следуют за сообщениями thermal/fan;
  • температура выхода заметно выше привычной при том же профиле;
  • после чистки и разнесения потоков обмен «тихнет».

Решения — воздух: чистка, фильтрация притока, разнесение горячей и холодной зон, никакой рециркуляции. Подсказки и формулы расчёта расхода — в гайде по среде.

Шлейфы, разъёмы и кабель-менеджмент

Шлейфы чувствительны к натяжению, перегибам и вибрациям. Слабые замки и окисление дают плавающие ошибки, которые легко принять за «битую» плату.

Как быстро понять, что виноват именно кабель:

  • CRC и «chain missing» появляются и исчезают вместе при перестановке шлейфа;
  • «адрес» проблемы меняется при смене порта на контроллере;
  • лёгкое пошевеливание жгута провоцирует/исправляет симптом.

Правила: жгуты не должны тянуть разъёмы; избегайте острых изгибов; держите пару резервных шлейфов для диагностики.

Как отделить плату от окружения логикой эксперимента

  • Сток и «чистая» комната с нормальным PSU — базовая сцена. Если тут чисто, но в рабочей комнате «шумит» — среда очевидна.
  • Перекрёстные перестановки: шлейфы и порты меняем местами. Следит ли CRC за кабелем?
  • Изоляция платы: запускаем по одной. Если только с одной CRC «фонтаном» — сервисный кандидат.
  • Повторяемость: одно нерешительное срабатывание — случайность; повтор в тех же условиях — закономерность.

Ошибки, которые часто путают с CRC

  • find 0 asic / chain missing. Часто соседствуют: цепочка не поднимается из-за той же первопричины — питания/связи/воздуха. Логика поиска такая же. См. разбор find ноль asic.
  • EEPROM error / PIC init fail. Если это до CRC — смотреть паспорт/логику платы. Если после всплесков CRC — вероятно, сорвалось чтение на шумной линии. См. разбор EEPROM и PIC-контроллер.
  • Сетевые ошибки GUI. Не путать с целостностью внутренних шин: веб-интерфейс может «тормозить» сам по себе, а CRC идут по внутренним каналам.

Профилактика для «тихого» обмена

  • Запас по воздуху и отсутствие рециркуляции. Фильтры притока, чистые радиаторы, прямой тракт.
  • Здоровая электрика: короткая линия, без перегруженных тройников и «соплей», качественные кабели, плотные коннекторы, равномерное распределение жгутов.
  • Стоковый профиль в жару и при высокой пыли. Разгон — только при ясном запасе по охлаждению и PSU.
  • Кабель-менеджмент: шлейфы без натяжения, без перегибов, фиксируются так, чтобы не «гулять» от вибраций.
  • Журнал обслуживания: даты чистки, «вход/выход» по температуре, RPM при типовой нагрузке, заметки о CRC и что помогло.

Практические сценарии

  • Горячая комната и рециркуляция. Выхлоп забрасывало во вход, вентиляторы в потолке, CRC вспыхивают на прогреве. После разделения зон и усиления вытяжки ошибки исчезли.
  • Уставший коннектор. Пины потемнели, кабель тянул разъём. CRC шли на старте. Новый кабель и восстановление плотной посадки сняли проблему.
  • Агрессивный профиль. Разгон на пределе вызывал CRC «по часам» в пик температуры. Возврат к стоку стабилизировал обмен.
  • Шлейф-пересмешник. CRC и «chain missing» «переезжали» вместе с одним кабелем — заменили, закрепили жгуты, симптом исчез.
  • Ложный след на EEPROM. В начале лога мелькал EEPROM error, но после вспышек CRC и «fan» — реальной первопричиной были просадки по питанию.

Часто задаваемые вопросы

CRC — это обязательно «умирает плата»? Нет. Чаще всего это среда: питание, воздух, шлейфы. Плата — лишь один из кандидатов, который проверяют после исключения окружения.

Почему после перезапуска всё иногда спокойно? Совпали счастливые условия: воздух прохладнее, контакт «прижался», нагрузка росла мягче. Но без устранения первопричины CRC вернётся.

Нужно ли обновлять прошивку ради CRC? Только если исключены воздух/PSU/шлейфы и есть признаки версии/профиля-несостыковки. «Магической» прошивки от грязного контакта не существует.

Можно ли «вылечить» повышением оборотов вентиляторов? Если причина в потоке — временно поможет, но это маскировка и быстрый износ вентиляторов. Правильно — почистить тракт и устранить рециркуляцию.

Как понять, что виновата именно плата? CRC идёт только с одной платы при любой перестановке шлейфов и на эталонном PSU, а воздух в норме. Тогда — стендовая диагностика.

Наблюдение и дисциплина эксплуатации

Ведите журнал: версии прошивок, даты чистки, температуры «вход/выход», RPM при типовой нагрузке, моменты всплесков CRC и предпринятые шаги. Привязка к времени суток и погоде часто раскрывает картину: пик температуры помещения, включение соседних мощных потребителей, пыльные работы поблизости — и вот уже CRC «по расписанию».

См. также

Task Runner