Discussion:
Mainboard Crash mit Kernel?
Manfred Rebentisch
2018-10-04 09:23:45 UTC
Permalink
Hallo,
ich habe zwei Rechner, bei denen folgender Effekt auftrat: System ist
plötzlich absolut tot, aber die CPU läuft und wird so heiß, dass man
sich die Finger am Kühlgerippe oder Komponenten fast verbrennt. Auch die
Festplatte wurde sehr heiss.

Das erste gecrashte System ist ein Fujitsu-Siemens Board mit debian 8.11
Kernel 3.16.0-6-amd64

Das andere ist ein älterer iCore5 Rechner mit XUbuntu stretch/sid Kernel
4.8.0-36-generic.

Es können ja auch Zufälle und defekte Hardware sein. Aber ich habe das
Gerücht gehört, dass es im Kernel eine Macke geben könnte, die die CPU
zum heiss laufen bringt. Was ist dran?

Grüße
Manfred
--
Manfred Rebentisch
29456 Hitzacker
Manfred Rebentisch
2018-10-04 09:37:55 UTC
Permalink
Hallo,
hab noch vergessen, das letzte vom LOG zu senden:


Die letzten Meldungen aus dem daemon.log:

Aug 21 09:22:12 bkup7 systemd[1]: Started Cleanup of Temporary Directories.
Aug 21 09:59:31 bkup7 smartd[422]: Device: /dev/sda [SAT], SMART Usage
Attribute: 194 Temperature_Celsius changed from 113 to 114
Aug 21 13:29:31 bkup7 smartd[422]: Device: /dev/sda [SAT], SMART Usage
Attribute: 194 Temperature_Celsius changed from 114 to 113
Aug 21 16:29:31 bkup7 smartd[422]: Device: /dev/sda [SAT], SMART Usage
Attribute: 194 Temperature_Celsius changed from 113 to 112
Aug 21 19:29:31 bkup7 smartd[422]: Device: /dev/sda [SAT], SMART Usage
Attribute: 194 Temperature_Celsius changed from 112 to 113
Aug 21 23:30:01 bkup7 systemd[1]: Starting Run anacron jobs...
Aug 21 23:30:01 bkup7 systemd[1]: Started Run anacron jobs.
Aug 21 23:35:52 bkup7 systemd[1]: Reloading.
Aug 21 23:35:53 bkup7 systemd[1]: Started ACPI event daemon.
Aug 21 23:35:53 bkup7 systemd[1]: Listening on ACPID Listen Socket.
Aug 21 23:35:53 bkup7 systemd[1]: Activated swap
/dev/disk/by-uuid/196e89d5-b446-4e7e-857e-e605c364ee4f.
Aug 21 23:35:53 bkup7 systemd[1]: Found device WDC_WD10JFCX-68N6GN0 2.
Aug 21 23:35:53 bkup7 systemd[1]: Mounted /home.
Aug 21 23:35:53 bkup7 systemd[1]: Mounted /.
Aug 21 23:35:53 bkup7 systemd[1]: Started File System Check on
/dev/disk/by-uuid/6a988e77-7cf0-438c-9c1a-b486232f0ea0.
Aug 21 23:35:53 bkup7 systemd[1]: Found device WDC_WD10JFCX-68N6GN0 5.
Aug 21 23:35:53 bkup7 systemd[1]: Created slice
system-systemd\x2dfsck.slice.
Aug 21 23:35:53 bkup7 systemd[1]: Found device WDC_WD10JFCX-68N6GN0 2.
Aug 21 23:35:53 bkup7 systemd[1]: Found device WDC_WD10JFCX-68N6GN0 2.
Aug 21 23:35:53 bkup7 systemd[1]: Found device WDC_WD10JFCX-68N6GN0 2.
Aug 21 23:35:53 bkup7 systemd[1]: Found device WDC_WD10JFCX-68N6GN0 2.
Aug 21 23:35:53 bkup7 systemd[1]: Found device WDC_WD10JFCX-68N6GN0 5.
Aug 21 23:35:53 bkup7 systemd[1]: Found device WDC_WD10JFCX-68N6GN0 5.
Aug 21 23:35:53 bkup7 systemd[1]: Found device WDC_WD10JFCX-68N6GN0 5.
Aug 21 23:35:53 bkup7 systemd[1]: Found device WDC_WD10JFCX-68N6GN0 5.
Aug 21 23:35:53 bkup7 systemd[1]: Activated swap /dev/sda2.
Aug 21 23:35:53 bkup7 systemd[1]: Activated swap
/dev/disk/by-id/ata-WDC_WD10JFCX-68N6GN0_WD-WXL1E84E95PV-part2.
Aug 21 23:35:53 bkup7 systemd[1]: Activated swap
/dev/disk/by-id/wwn-0x50014ee65a86e1e3-part2.
Aug 21 23:35:58 bkup7 systemd[1]: Reloading.
Aug 21 23:35:58 bkup7 systemd[1]: Started ACPI event daemon.
Aug 21 23:35:58 bkup7 systemd[1]: Listening on ACPID Listen Socket.
Aug 21 23:35:58 bkup7 systemd[1]: Activated swap
/dev/disk/by-uuid/196e89d5-b446-4e7e-857e-e605c364ee4f.
Aug 21 23:35:58 bkup7 systemd[1]: Found device WDC_WD10JFCX-68N6GN0 2.
Aug 21 23:35:58 bkup7 systemd[1]: Mounted /home.
Aug 21 23:35:58 bkup7 systemd[1]: Mounted /.
Aug 21 23:35:58 bkup7 systemd[1]: Started File System Check on
/dev/disk/by-uuid/6a988e77-7cf0-438c-9c1a-b486232f0ea0.

Das obige wiederholt sich andauernd, bis die folgenden letzten Zeilen
erscheinen:

Aug 29 00:29:31 bkup7 smartd[422]: Device: /dev/sda [SAT], SMART Usage
Attribute: 194 Temperature_Celsius changed from 116 to 115
Aug 29 00:59:31 bkup7 smartd[422]: Device: /dev/sda [SAT], SMART Usage
Attribute: 194 Temperature_Celsius changed from 115 to 116
--
Manfred Rebentisch
29456 Hitzacker
Markus Kolb
2018-10-04 16:09:49 UTC
Permalink
Post by Manfred Rebentisch
Hallo,
Aug 21 09:22:12 bkup7 systemd[1]: Started Cleanup of Temporary
Directories.
...
Aug 21 23:35:58 bkup7 systemd[1]: Mounted /home.
Aug 21 23:35:58 bkup7 systemd[1]: Mounted /.
Aug 21 23:35:58 bkup7 systemd[1]: Started File System Check on
/dev/disk/by-uuid/6a988e77-7cf0-438c-9c1a-b486232f0ea0.
Das obige wiederholt sich andauernd, bis die folgenden letzten Zeilen
Aug 29 00:29:31 bkup7 smartd[422]: Device: /dev/sda [SAT], SMART Usage
Attribute: 194 Temperature_Celsius changed from 116 to 115
Aug 29 00:59:31 bkup7 smartd[422]: Device: /dev/sda [SAT], SMART Usage
Attribute: 194 Temperature_Celsius changed from 115 to 116
Hi Manfred,
also aus dem Log ist kein Fehler ersichtlich, denke ich.
Die Wiederholungen dürften von den Reboots kommen oder nicht?!

Ich würde mal mit top die Prozessliste beobachten.
Evt. wäre auch ein mitloggen von ps -efa in ner Schleife mit sleep 5 Sekunden sinnvoll.
Mein Verdacht ist, dass ein Prozess irgendwie Threads endlos loopen lässt und deine CPU Zeit aufbraucht. Da werden die auch heiß und bei entsprechender Priorisierung macht es auch den Anschein, dass das System hängt.

Ansonsten hilft vielleicht die journal Ausgabe weiter. journalctl ...

sg
Manfred Rebentisch
2018-10-05 04:30:36 UTC
Permalink
Hallo Markus,
Post by Markus Kolb
Hi Manfred,
also aus dem Log ist kein Fehler ersichtlich, denke ich.
Die Wiederholungen dürften von den Reboots kommen oder nicht?!
Ich würde mal mit top die Prozessliste beobachten.
Evt. wäre auch ein mitloggen von ps -efa in ner Schleife mit sleep 5 Sekunden sinnvoll.
Mein Verdacht ist, dass ein Prozess irgendwie Threads endlos loopen lässt und deine CPU Zeit aufbraucht. Da werden die auch heiß und bei entsprechender Priorisierung macht es auch den Anschein, dass das System hängt.
Ansonsten hilft vielleicht die journal Ausgabe weiter. journalctl ...
sg
Naja, der Rechner ist halt tot, die Festplatte kann ich via USB
auslesen, mehr nicht.

Grüße
Manfred
--
Manfred Rebentisch
29456 Hitzacker
Markus Kolb
2018-10-05 06:34:09 UTC
Permalink
Post by Manfred Rebentisch
Hallo Markus,
Post by Markus Kolb
Hi Manfred,
also aus dem Log ist kein Fehler ersichtlich, denke ich.
Die Wiederholungen dÃŒrften von den Reboots kommen oder nicht?!
Ich wÃŒrde mal mit top die Prozessliste beobachten.
Evt. wÀre auch ein mitloggen von ps -efa in ner Schleife mit sleep 5
Sekunden sinnvoll.
Post by Markus Kolb
Mein Verdacht ist, dass ein Prozess irgendwie Threads endlos loopen
lÀsst und deine CPU Zeit aufbraucht. Da werden die auch heiß und bei
entsprechender Priorisierung macht es auch den Anschein, dass das
System hÀngt.
Post by Markus Kolb
Ansonsten hilft vielleicht die journal Ausgabe weiter. journalctl ...
sg
Naja, der Rechner ist halt tot, die Festplatte kann ich via USB
auslesen, mehr nicht.
GrÌße
Manfred
--
Manfred Rebentisch
29456 Hitzacker
Ok. Dann mal mit Boot von einem anderen Linux(version) auf USB Stick/CD probieren.
Da siehst ja dann ob es die Installation oder der installierte Kernel ist oder die Hardware ihren Geist aufgibt.
Mich wundert, dass du gleiche Symptome bei unterschiedlichen Rechnern bekommen hast. Das macht einen Hardwaredefekt ja eher unwahrscheinlich...
Evt. hilft dir ein chroot auf der Platte weiter um das System vernÃŒnftig auszulesen. So solltest jedenfalls auch ans journal kommen.
Simon Kengelbacher
2018-10-05 10:18:46 UTC
Permalink
Post by Manfred Rebentisch
Hallo Markus,
Naja, der Rechner ist halt tot, die Festplatte kann ich via USB
auslesen, mehr nicht.
Grüße
Manfred
Was bedeutet denn "tot"? Wenn die CPU und Festplatte sehr heiss werden,
muss da ja noch irgendwas leben. Kommt denn auf dem Monitor kein Bild
mehr? Laufen die Lüfter noch? Piepst oder blinkt irgendwas noch auf dem
Mainboard (Meist sind das dann Fehlercodes)?

Falls gar nichts mehr geht, versuch mal einen CMOS-Reset. Manche Boards
haben dafür mittlerweile glaub ich sogar einen Schalter auf der
Platine, bei älteren Mainboards findest du irgendwo eine Knopf-
Batterie. Zuerst Netzteil vom Strom, Batterie rausnehmen, 10 Sek
warten, Batterie rein und nochmal probieren einzuschalten.

Lesen Sie weiter auf narkive:
Loading...