बग: नरम लॉकअप - सीपीयू # एक्स सेकंड के लिए अटक गया


33

मैंने कुछ नागों की रिपोर्ट और सवालों (स्टैकएक्सचेंज और अन्य जगहों पर) के बारे में देखा है "BUG: soft lockup - CPU#<n> stuck for <dt>s!"। अब तक, मुझे कोई सुराग नहीं मिला है कि क्या करना है या क्या करना है (बल्कि, जो सुराग मैंने पाया है और ऐसा होने से नहीं रोका है)। मैं इस बारे में चिंतित हूं क्योंकि:

  1. इन घटनाओं की आवृत्ति हाल ही में धीरे-धीरे बढ़ रही है (प्रति माह 700 से अधिक),
  2. yum update और रिबूट ने इसे थोड़ी देर के लिए धीमा कर दिया, लेकिन मैंने कुछ लॉकअप फिर से शुरू होते हुए देखे हैं,
  3. कई प्रक्रियाएं (यदि पूरी मेजबान नहीं है, तो यह बताना मुश्किल है), निश्चित रूप से मेरे सभी इंटरैक्टिव गोले कुछ समय के लिए जमे हुए हैं, जैसे कि,
  4. मुझे यकीन नहीं है कि यह संबंधित है, लेकिन मैं बहुत से लॉग / संदेश देख रहा हूं, जो एनटीपीपी से संबंधित हैं, घड़ी को अपडेट करने में सक्षम नहीं हैं।

निम्नलिखित का एक अंश है $(grep 'soft lockup' /var/log/messages*):

Mar 22 10:02:35 localhost kernel: BUG: soft lockup - CPU#15 stuck for 10s! [kjournald:1048]
Mar 22 10:02:36 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:36 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:37 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:37 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:38 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:38 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:39 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:39 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:40 localhost kernel: BUG: soft lockup - CPU#15 stuck for 25s! [swapper:0]
Mar 22 15:42:16 localhost kernel: BUG: soft lockup - CPU#8 stuck for 25s! [kjournald:1048]
Mar 22 18:22:13 localhost kernel: BUG: soft lockup - CPU#15 stuck for 10s! [postgres:21356]
Mar 22 18:22:20 localhost kernel: BUG: soft lockup - CPU#7 stuck for 10s! [java:8653]
Mar 22 18:22:20 localhost kernel: BUG: soft lockup - CPU#8 stuck for 72s! [kjournald:1048]
Mar 22 21:21:37 localhost kernel: BUG: soft lockup - CPU#12 stuck for 29s! [kjournald:1048]
Mar 22 21:22:07 localhost kernel: BUG: soft lockup - CPU#12 stuck for 27s! [kjournald:1048]
Mar 23 02:01:47 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [kblockd/8:276]
Mar 23 02:02:22 localhost kernel: BUG: soft lockup - CPU#8 stuck for 34s! [kblockd/8:276]

यह यादृच्छिक प्रक्रियाओं के लिए होता है, और लगता है कि आभासी मेजबान के 16 "कोर" पर काफी अच्छी तरह से वितरित किया गया है।

होस्ट एक AWS EC2 "cc1.4xlarge" उदाहरण है, जिसका नाम "EC2 CentOS 5.5 GPU HVM AMI (ड्राइवर 260.19.29) (ami-42a2532b)" है। यह Xen के साथ वर्चुअलाइज्ड लगता है।

cat /etc/redhat-releaseपैदावार CentOS release 5.9 (Final)'free'21G RAM की रिपोर्ट करता है।

का सिर dmesgहै:

Linux version 2.6.18-348.3.1.el5 (mockbuild@builder10.centos.org) (gcc version 4.1.2 20080704 (Red Hat 4.1.2-54)) #1 SMP Mon Mar 11 19:39:25 EDT 2013
Command line: ro root=/dev/VolGroup00/LogVol00 rhgb quiet console=tty0 console=ttyS0,115200n8
BIOS-provided physical RAM map:
 BIOS-e820: 0000000000010000 - 000000000009fc00 (usable)
 BIOS-e820: 000000000009fc00 - 00000000000a0000 (reserved)
 BIOS-e820: 00000000000e0000 - 0000000000100000 (reserved)
 BIOS-e820: 0000000000100000 - 00000000c0000000 (usable)
 BIOS-e820: 00000000fc000000 - 0000000100000000 (reserved)
 BIOS-e820: 0000000100000000 - 00000005dd800000 (usable)
DMI 2.4 present.
DMI: Xen HVM domU, BIOS 3.4.3-2.6.18 08/29/2012
ACPI: RSDP (v002    Xen                                ) @ 0x00000000000ea020
ACPI: XSDT (v001    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc0062b0
ACPI: FADT (v004    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc005ee0
ACPI: MADT (v002    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc005fe0
ACPI: SRAT (v001    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc0060c0
ACPI: SLIT (v001    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc006240
ACPI: HPET (v001    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc006270
ACPI: DSDT (v002    Xen      HVM 0x00000000 INTL 0x20090220) @ 0x(null)

निम्नलिखित हाल के समय में इन "सॉफ्ट लॉकअप्स" की संचयी गणना दिखाता है (रेडलाइन है जब मैंने आखिरी बार yum updateपीछा किया था reboot) मुलायम लॉकअप की सह-गणना:।

निम्नलिखित अवधि का हिस्टोग्राम दर्शाता है (होस्ट कब तक अटका है) अवधि हिस्टोग्राम:।


1
संभावित कारणों के टन। केवीएम उदाहरण में मैंने इसे एक बार देखा था। इसका कारण मेजबान नेटवर्क ड्राइवर (रियलटेक) था, जो उच्च नेटवर्क लोड पर कुछ करेगा जो वर्चुअलाइजेशन की उम्मीद नहीं करता था, और वॉयला आपको वीएम में अटक सीपीयू मिलता है। तो मूल रूप से नेटवर्क ड्राइवर में एक बग जो सड़क के नीचे अन्य बग को ट्रिगर करता है। समाधान एक अलग कर्नेल संस्करण (होस्ट पर) पर स्विच करना था जो उस विशेष व्यवहार को ट्रिगर नहीं करता था।
फ्रॉस्ट्सचुट्ज़

1
हमें यह त्रुटि संदेश मिला, क्योंकि नए सर्वर में भौतिक सीपीयू की तुलना में कुछ VMs में अधिक vcpus कॉन्फ़िगर किया गया था, हमने अपने डिजिटल नीदरलैंड को स्थानांतरित कर दिया।
जार्ज लुडविग

जवाबों:


11

मेरे पास एक्सएन 4.2 पर 3.6 और 3.8 कर्नेल (एल्पाइनलाइन) के साथ भी यह मुद्दा है।

मैं चारों ओर गुगली और घड़ियाँ जोड़कर = मेरी गिरी में झाँक कर मैंने इसे ठीक कर दिया। जिफ़ियों के बजाय आप "गड्ढे" भी आज़मा सकते थे।

BIOS में सी-स्टेट्स को अक्षम करने की रिपोर्टें भी हैं ।


4
वे कर्नेल पैरामीटर क्या करते हैं?
बुरहान अली

2
क्लॉकसोर्स मुझे बहुत स्पष्ट लगता है और सी-स्टेट्स सीपीयू के पावर स्टेट्स हैं।
फ्रांज बेट्टैग

+1। सी-स्टेट्स को निष्क्रिय करना मेरे लिए काम कर गया।
एंड्रयू एनस्ले जूल 28'13

2

मुझे अपने थिंकपैड T520 के साथ भी यही समस्या थी। लेकिन कर्नेल में दूर हैकिंग के बजाय मैंने कुछ और सरल किया। सबसे पहले मैं Centos7 का उपयोग कर रहा हूं मैंने बेस सिस्टम स्थापित किया है जो सभी ठीक काम करता है। मैंने तब गनोम जीयूआई को जोड़ा, जो तब है जब मुझे ऊपर बताई गई समस्याएं मिलनी शुरू हुईं। मैं देखता हूं कि बहुत सारे निर्माता विंडोज इंस्टॉल के लिए सेट अप करते हैं। Win7 के लिए ग्राफिक्स कार्ड आमतौर पर सेटअप होता है (NVIDIA OPTIMUS) I इसे एकीकृत ग्राफिक्स मोड में रीसेट करता है और अधिक हैंगिंग / त्रुटियां नहीं होती हैं। यह कैसे करना है? BIOS में जाने के लिए अपने थिंकपैड को F1 या नीला थिंकपैड बटन दबाएं। सहेजने और बाहर निकलने के लिए ग्राफिक्स का चयन करें फिर एकीकृत ग्राफिक्स का चयन करें। इस कार्ड के लिए 3 सेटिंग हैं: एकीकृत, असतत और NVIDIA OPTIMUS (केवल Win7?) आशा है कि यह किसी को कुछ समय बचाता है?


उच्छ्वास, ज्यादातर सब कुछ की तरह, अलग से सामान स्थापित करना एक नहीं-नहीं है। वापस कार्यालय और अन्य बकवास के साथ फूला हुआ डेस्कटॉप संस्करण के लिए :(
किलोजा
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.