मैंने कुछ नागों की रिपोर्ट और सवालों (स्टैकएक्सचेंज और अन्य जगहों पर) के बारे में देखा है "BUG: soft lockup - CPU#<n> stuck for <dt>s!"
। अब तक, मुझे कोई सुराग नहीं मिला है कि क्या करना है या क्या करना है (बल्कि, जो सुराग मैंने पाया है और ऐसा होने से नहीं रोका है)। मैं इस बारे में चिंतित हूं क्योंकि:
- इन घटनाओं की आवृत्ति हाल ही में धीरे-धीरे बढ़ रही है (प्रति माह 700 से अधिक),
yum update
और रिबूट ने इसे थोड़ी देर के लिए धीमा कर दिया, लेकिन मैंने कुछ लॉकअप फिर से शुरू होते हुए देखे हैं,- कई प्रक्रियाएं (यदि पूरी मेजबान नहीं है, तो यह बताना मुश्किल है), निश्चित रूप से मेरे सभी इंटरैक्टिव गोले कुछ समय के लिए जमे हुए हैं, जैसे कि,
- मुझे यकीन नहीं है कि यह संबंधित है, लेकिन मैं बहुत से लॉग / संदेश देख रहा हूं, जो एनटीपीपी से संबंधित हैं, घड़ी को अपडेट करने में सक्षम नहीं हैं।
निम्नलिखित का एक अंश है $(grep 'soft lockup' /var/log/messages*)
:
Mar 22 10:02:35 localhost kernel: BUG: soft lockup - CPU#15 stuck for 10s! [kjournald:1048]
Mar 22 10:02:36 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:36 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:37 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:37 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:38 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:38 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:39 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:39 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:40 localhost kernel: BUG: soft lockup - CPU#15 stuck for 25s! [swapper:0]
Mar 22 15:42:16 localhost kernel: BUG: soft lockup - CPU#8 stuck for 25s! [kjournald:1048]
Mar 22 18:22:13 localhost kernel: BUG: soft lockup - CPU#15 stuck for 10s! [postgres:21356]
Mar 22 18:22:20 localhost kernel: BUG: soft lockup - CPU#7 stuck for 10s! [java:8653]
Mar 22 18:22:20 localhost kernel: BUG: soft lockup - CPU#8 stuck for 72s! [kjournald:1048]
Mar 22 21:21:37 localhost kernel: BUG: soft lockup - CPU#12 stuck for 29s! [kjournald:1048]
Mar 22 21:22:07 localhost kernel: BUG: soft lockup - CPU#12 stuck for 27s! [kjournald:1048]
Mar 23 02:01:47 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [kblockd/8:276]
Mar 23 02:02:22 localhost kernel: BUG: soft lockup - CPU#8 stuck for 34s! [kblockd/8:276]
यह यादृच्छिक प्रक्रियाओं के लिए होता है, और लगता है कि आभासी मेजबान के 16 "कोर" पर काफी अच्छी तरह से वितरित किया गया है।
होस्ट एक AWS EC2 "cc1.4xlarge" उदाहरण है, जिसका नाम "EC2 CentOS 5.5 GPU HVM AMI (ड्राइवर 260.19.29) (ami-42a2532b)" है। यह Xen के साथ वर्चुअलाइज्ड लगता है।
cat /etc/redhat-release
पैदावार CentOS release 5.9 (Final)
। 'free'
21G RAM की रिपोर्ट करता है।
का सिर dmesg
है:
Linux version 2.6.18-348.3.1.el5 (mockbuild@builder10.centos.org) (gcc version 4.1.2 20080704 (Red Hat 4.1.2-54)) #1 SMP Mon Mar 11 19:39:25 EDT 2013
Command line: ro root=/dev/VolGroup00/LogVol00 rhgb quiet console=tty0 console=ttyS0,115200n8
BIOS-provided physical RAM map:
BIOS-e820: 0000000000010000 - 000000000009fc00 (usable)
BIOS-e820: 000000000009fc00 - 00000000000a0000 (reserved)
BIOS-e820: 00000000000e0000 - 0000000000100000 (reserved)
BIOS-e820: 0000000000100000 - 00000000c0000000 (usable)
BIOS-e820: 00000000fc000000 - 0000000100000000 (reserved)
BIOS-e820: 0000000100000000 - 00000005dd800000 (usable)
DMI 2.4 present.
DMI: Xen HVM domU, BIOS 3.4.3-2.6.18 08/29/2012
ACPI: RSDP (v002 Xen ) @ 0x00000000000ea020
ACPI: XSDT (v001 Xen HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc0062b0
ACPI: FADT (v004 Xen HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc005ee0
ACPI: MADT (v002 Xen HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc005fe0
ACPI: SRAT (v001 Xen HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc0060c0
ACPI: SLIT (v001 Xen HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc006240
ACPI: HPET (v001 Xen HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc006270
ACPI: DSDT (v002 Xen HVM 0x00000000 INTL 0x20090220) @ 0x(null)
निम्नलिखित हाल के समय में इन "सॉफ्ट लॉकअप्स" की संचयी गणना दिखाता है (रेडलाइन है जब मैंने आखिरी बार yum update
पीछा किया था reboot
)
:।
निम्नलिखित अवधि का हिस्टोग्राम दर्शाता है (होस्ट कब तक अटका है) :।