Сервер: Штеуд SR1500ALR Девайс:
00:08.0 System peripheral [0880]: Intel Corporation 5000 Series Chipset DMA Engine [8086:1a38] (rev b1)
Subsystem: Intel Corporation Device [8086:346c]
Control: I/O- Mem+ BusMaster+ SpecCycle- MemWINV- VGASnoop- ParErr+ Stepping- SERR+ FastB2B- DisINTx+
Status: Cap+ 66MHz- UDF- FastB2B- ParErr- DEVSEL=fast >TAbort- <TAbort- <MAbort- >SERR- <PERR- INTx-
Latency: 0
Interrupt: pin A routed to IRQ 57
Region 0: Memory at fe700000 (64-bit, non-prefetchable) [size=1K]
Capabilities: [50] Power Management version 2
Flags: PMEClk- DSI- D1- D2- AuxCurrent=0mA PME(D0+,D1-,D2-,D3hot+,D3cold+)
Status: D0 PME-Enable- DSel=0 DScale=0 PME-
Capabilities: [58] Message Signalled Interrupts: Mask- 64bit- Count=1/1 Enable+
Address: feeff00c Data: 41b9
Capabilities: [6c] Express (v1) Root Complex Integrated Endpoint, MSI 00
DevCap: MaxPayload 128 bytes, PhantFunc 0, Latency L0s <64ns, L1 <1us
ExtTag- RBE- FLReset-
DevCtl: Report errors: Correctable+ Non-Fatal+ Fatal+ Unsupported-
RlxdOrd- ExtTag- PhantFunc- AuxPwr- NoSnoop+
MaxPayload 128 bytes, MaxReadReq 128 bytes
DevSta: CorrErr- UncorrErr- FatalErr- UnsuppReq- AuxPwr- TransPend-
LnkCap: Port #0, Speed unknown, Width x0, ASPM unknown, Latency L0 <64ns, L1 <1us
ClockPM- Suprise- LLActRep- BwNot-
LnkCtl: ASPM L1 Enabled; Disabled- Retrain- CommClk-
ExtSynch- ClockPM- AutWidDis- BWInt- AutBWInt-
LnkSta: Speed unknown, Width x0, TrErr- Train- SlotClk- DLActive- BWMgmt- ABWMgmt-
Kernel driver in use: ioatdma
Kernel modules: ioatdma
При нагрузке на винт (причем, судя по всему, только на запись) в логи падает огромное количество дряни вида:
Apr 26 12:00:18 ms kernel: [343867.214702] ioatdma 0000:00:08.0: Channel halted, chanerr = 2
Apr 26 12:00:18 ms kernel: [343867.214705] ioatdma 0000:00:08.0: Channel halted, chanerr = 2
Apr 26 12:00:18 ms kernel: [343867.214707] ioatdma 0000:00:08.0: Channel halted, chanerr = 2
На сервере зимбра. Не сразу, но не позже, чем через примерно час, после появления этих строк в логах, все службы зимбры останавливаются (причем, по SIGTERM).
1. Кто сталкивался с подобными ошибками в логах? страшно/не страшно? (багзилла по этому поводу молчит, судя по гуглу, первые коммиты по штуед-пятитычячнику в данном драйвере были в районе 2.6.26) 2. Как отследить отправителя SIGTERM, а затем того, кто запустил этого отправителя ну и т.д. Серверов с зимброй в данный момент 3 штуки (standalone), ни на одном подобного не наблюдалось, правда, и железо на них другое.