LINUX.ORG.RU
ФорумTalks

Перегрелся процессор на сервере

 ,


0

1

Сейчас я (по работе) провожу учебный курс по Yocto Project. Для тех кто не в курсе - это вроде Gentoo, только кросс-компилированный для всяких странных процессоров типа ARM. Т.е. это надо собирать, и это нагружает процессор по полной, и это долго. Чтобы не было проблем с настройкой среды разработки у учащихся, решили все компилировать и тестировать на выделенном сервере. Заказывали сервер тут: https://www.reliablesite.net/dedicated-servers/Quad-Core-server/intel-core-i7... (по принципу «поближе к учащимся и побыстрее»)

Итог: оно у всех скомпилировалось как надо, учебный процесс идет, но вот в dmesg есть весьма неприятные строчки.

[11532.886461] CPU7: Core temperature above threshold, cpu clock throttled (total events = 1)
[11532.886462] CPU3: Core temperature above threshold, cpu clock throttled (total events = 1)
[11532.886463] CPU4: Package temperature above threshold, cpu clock throttled (total events = 1)
[11532.886465] CPU0: Package temperature above threshold, cpu clock throttled (total events = 1)
[11532.886465] CPU6: Package temperature above threshold, cpu clock throttled (total events = 1)
[11532.886466] CPU1: Package temperature above threshold, cpu clock throttled (total events = 1)
[11532.886467] CPU2: Package temperature above threshold, cpu clock throttled (total events = 1)
[11532.886468] CPU5: Package temperature above threshold, cpu clock throttled (total events = 1)
[11532.886468] CPU3: Package temperature above threshold, cpu clock throttled (total events = 1)
[11532.886683] CPU7: Package temperature above threshold, cpu clock throttled (total events = 1)
[11532.887477] CPU3: Core temperature/speed normal
[11532.887477] CPU7: Core temperature/speed normal
[11532.887478] CPU1: Package temperature/speed normal
[11532.887479] CPU2: Package temperature/speed normal
[11532.887480] CPU5: Package temperature/speed normal
[11532.887480] CPU6: Package temperature/speed normal
[11532.887481] CPU3: Package temperature/speed normal
[11532.887481] CPU7: Package temperature/speed normal
[11532.887482] CPU4: Package temperature/speed normal
[11532.887482] CPU0: Package temperature/speed normal
[19251.206576] perf: interrupt took too long (2502 > 2500), lowering kernel.perf_event_max_sample_rate to 79750
...
и еще много такого же

Т.е. с системой охлаждения на сервере явно не все в порядке.

Для сравнения попробовал собрать Yocto на выделенном сервере с похожей конфигурацией у OVH в Сингапуре (https://www.ovh.com/sg/dedicated-servers/game/173mc9.xml). Там такой проблемы нет - все собралось, жалоб на перегрев в dmesg нет. Но: на этом сервере thermald стоит (был там по умолчанию), а на сервере, где произошел перегрев - нет.

Хотелось бы у собрать побольше данных, на каких хостингах еще есть сервера с плохим охлаждением процессора. Чтобы еще раз не обжечься.

★★★★★

Додики Дедики на ой7 вообще странная вещь, платы в большинстве случаев отнюдь не server-grade, экономят и на охладе и на памяти (ставят китайговно)

И еще тебя не смутило что первый почему-то имеет цену почти в два раза ниже?

Алсо может что в датацентре/конкретно с сервером случилось - компиляция не линпак, avx не поджаривает, так что...

Ну и вообще, хоть бы на выхлоп sensors взглянул, мож там действительно вентилятор сдох. Или fancontrol потыкал (мамка не серверная, привет кривой и странный acpi). Дедик сам себя не обслужит, это же не виртуалка где хостер за железом следит.

Короче, ты не выяснил причину, не собрал достаточно данных и обвиняешь хостера который дешево подогнал сервак.

P.S. тебя карма догнала!
AEP ★★★★★  Вахтер, не знает что такое уменьшительно-ласкательные суффиксы.
timdorohin ★★★★
()
Ответ на: комментарий от timdorohin

sensors посмотрел. К сожалению, ничего, кроме coretemp и acpitz, он не находит. Т.е. скорость вращения вентиляторов проверить не представляется возможным. Мамка таки серверная и там и там, Supermicro Super Server/X11SSL-F у ReliableSite и Supermicro SYS-3U12SLKE-MAI16-OS017/X11SSE-F у OVH. Разница в цене - из-за географии, азиатские сервера всегда дороже.

AEP ★★★★★
() автор топика
Последнее исправление: AEP (всего исправлений: 1)
Ответ на: комментарий от AEP

А у тебя доступ к IPMI есть? Если есть глянь там датчики. Иначе, увы, придется сразу обращаться к ТП, хотя бы чтобы они глянули че там по датчикам.

RiseOfDeath ★★★★
()
Последнее исправление: RiseOfDeath (всего исправлений: 2)

У OVH у тебя, скорее всего, KVM, а не дедик, там таких сообщений не будет.

CYB3R ★★★★★
()
Последнее исправление: CYB3R (всего исправлений: 1)
Ответ на: комментарий от timdorohin

sensors-detect сделал

Да. Ответил YES на все вопросы об обнаружении датчиков, кроме ASPEED I2C.

AEP ★★★★★
() автор топика
Ответ на: комментарий от Deleted

IPMICFG

А вот за это спасибо. Вентиляторы не остановились, но OVH ставит что-то очень необычное (11000 RPM???) на свои сервера.

AEP ★★★★★
() автор топика
Ответ на: комментарий от AEP

Вентиляторы не остановились, но OVH ставит что-то очень необычное (11000 RPM???) на свои сервера.

Обычное дело для серверов. При нулевой нагрузке 8krpm, под нагрузкой взлетают до 14krpm.

Deleted
()
Ответ на: комментарий от AEP

Это 1U мымрики 40х40х40, жуткая вещь, могут до ампера жрать.

Я из пары таких мелкому собрал «катер на воздушной подушке», тяга у них бешенная.

У ReliableSite может стоять на 2U, тогда нормальные обороты вентиляторов - 5к. Однако это странно для дедика, их всегда пытаются паковать как можно плотнее.

timdorohin ★★★★
()
Ответ на: комментарий от AEP

sensors посмотрел. К сожалению, ничего, кроме coretemp и acpitz, он не находит.

Мамка таки серверная и там и там, Supermicro Super Server/X11SSL-F у ReliableSite и Supermicro SYS-3U12SLKE-MAI16-OS017/X11SSE-F

Обе мат. платы поддерживают IPMI. Там можно получить детальный отчет о состоянии железа (в том числе вентиляторов).

Upd: Прошу прощения, не заметил, что посмотреть IPMI уже посоветовали.

Serge10 ★★★★★
()
Последнее исправление: Serge10 (всего исправлений: 1)
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.