MCE संदेश से दोषपूर्ण मेमोरी मॉड्यूल कैसे खोजें?


11

मैं एक सर्वर पर कौन सा मेमोरी मॉड्यूल खराब है यह जानने के लिए MCE संदेश को समझने की कोशिश कर रहा हूं। यह संदेश /var/log/kern.logएक सर्वर में दिखाई देता है जो आज दो बार फ्रीज करता है।

Apr 13 22:39:22 mbox kernel: [36247975.116860] sbridge: HANDLING MCE MEMORY ERROR
Apr 13 22:39:22 mbox kernel: [36247975.116867] CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010090
Apr 13 22:39:22 mbox kernel: [36247975.116869] TSC 0 ADDR 4a0d75900 MISC 21405cdc86 PROCESSOR 0:206d7 TIME 1428957562 SOCKET 0 APIC 0
Apr 13 22:39:22 mbox kernel: [36247975.951013] EDAC MC0: 1 CE memory read error 

मुझे खराब मेमोरी मॉड्यूल पर संदेह है। सर्वर 8x8Go मेमोरी मॉड्यूल (प्रत्येक सीपीयू के लिए 8 मेमोरी स्लॉट) के साथ एक 2x Xeon E5-2650 है

यहाँ से स्मृति मॉड्यूल जनसंख्या है lshw:

 *-memory:0
      description: System Memory
      physical id: 2d
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B83AE5C2
         slot: P1_DIMMA1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P1_DIMMA2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EC309238
         slot: P1_DIMMB1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P1_DIMMB2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E9305438
         slot: P1_DIMMC1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P1_DIMMC2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305738
         slot: P1_DIMMD1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P1_DIMMD2
         width: 64 bits
 *-memory:1
      description: System Memory
      physical id: 3f
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B63A08C3
         slot: P2_DIMME1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P2_DIMME2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EA309638
         slot: P2_DIMMF1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P2_DIMMF2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E7305938
         slot: P2_DIMMG1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P2_DIMMG2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305B38
         slot: P2_DIMMH1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P2_DIMMH2
         width: 64 bits
 *-memory:2 UNCLAIMED
      physical id: 7
 *-memory:3 UNCLAIMED
      physical id: 9

जैसा कि आप देख सकते हैं, बैंक # 5 पर कोई मेमोरी मॉड्यूल नहीं है। तो मेरा सवाल है: क्या आप सहमत हैं कि यह संदेश स्मृति विफलता के बारे में है? और यदि हां, तो मुझे कैसे पता चलेगा कि किस मॉड्यूल को प्रतिस्थापित किया जाना है?

जवाबों:


10

ये त्रुटियां EDAC से आ रही हैं - डिवाइस का त्रुटि पता और सुधार edac_mc वर्ग।

आपके द्वारा प्राप्त की जा रही ईवेंट ईवेंट (सुधारात्मक त्रुटियां) हैं। ये संकेत हैं कि एक DIMM विफल होने लगा है।

EDAC ने इस बारे में कोई विशेष सूचना नहीं दी है कि यह किस मेमोरी रो या चैनल को संदर्भित करता है, इसलिए यह बताना मुश्किल है कि कौन सा विफल होने तक प्रतिस्थापित किया जाए।

लेकिन इस पर एक नज़र है: / sys / devices / system / edac / mc / mc * और यह आपको थोड़ा और बता सकता है कि कौन सी पंक्ति / dimm दोषपूर्ण हो सकती है।

उदाहरण के लिए

ls -s /sys/devices/system/edac/mc/mc0 total 0 0 ce_count 0 csrow1 0 csrow4 0 csrow7 0 reset_counters 0 size_mb 0 ce_noinfo_count 0 csrow2 0 csrow5 0 device 0 sdram_scrub_rate 0 ue_count 0 csrow0 0 csrow3 0 csrow6 0 mc_name 0 seconds_since_reset 0 ue_noinfo_count

Ce_count फ़ील्ड देखें।

एक और बात :

सिस्टम अभी भी काम करना जारी रख सकता है, लेकिन कम सुरक्षा के साथ। निवारक रखरखाव और मेमोरी के डीआईएमएम के सक्रिय भाग के प्रतिस्थापन से सीईएस का प्रदर्शन खतरनाक यूई (अपरिवर्तनीय त्रुटि) घटनाओं और सिस्टम 'पैनिक्स' की संभावना को कम कर सकता है।

यहाँ edac पर अधिक जानकारी:

https://www.kernel.org/doc/Documentation/edac.txt


या रिबूट, और GRUB बूट स्क्रीन पर, यादगार का चयन करें और यह आपको थोड़ी अधिक जानकारी दे सकता है।
कम्गर

आज सुबह कोई और अधिक MCE संदेश नहीं है (सर्वर तक कोई भौतिक पहुँच नहीं है), इसके लिए edac, अच्छे विचार की जाँच करने की प्रतीक्षा कर रहा है!
Matg

1

यह mcelog को स्थापित करने और इसे डेमन के रूप में चलाने में मदद कर सकता है, यह बेहतर रिपोर्ट प्रदान करने में मदद कर सकता है। वे अभी भी गुप्त हैं लेकिन दोषी डीआईएमएम को खोजने के लिए जाने के लिए थोड़ा और जानकारी है।

mcelog अत्यधिक मेमोरी त्रुटियों वाले पृष्ठों को अक्षम करके वास्तविक समय के मुद्दों को भी संभाल सकता है और इस प्रकार आपको मशीन को लंबे समय तक चालू रखने का मौका देता है जब तक आप इसे ठीक नहीं कर सकते।


धन्यवाद, यह वही है जो मैंने किया है, लेकिन पहली पोस्ट के बाद कोई और त्रुटि नहीं है। हमने सभी डीआईएमएम को बदलने का फैसला किया।
Matg

कभी-कभी त्रुटियों को क्षणभंगुर क्षणभंगुर होते हैं और कभी-कभी वे केवल बहुत विशिष्ट स्थानों से बंधे होते हैं जिन्हें शायद ही कभी छुआ जाता है। यदि त्रुटियाँ दोहराई नहीं गईं, तो मैंने व्यक्तिगत रूप से डिम्पल को नहीं बदला और बस निगरानी रखी जाएगी, लेकिन रिप्लेसमेंट भी मान्य है।
बरूच

1

कुछ विक्रेताओं का कहना है कि एक निश्चित अवधि के दौरान कई सुधारात्मक त्रुटियों का कोई नुकसान नहीं है।

उदाहरण के लिए, ओरेकल का कहना है कि एक डीआईएमएम को प्रतिस्थापित करें जब निम्न में से एक घटना होती है:

  • 24 से अधिक सुधारात्मक त्रुटियां (सीईएस) एक ही डीआईएमएम से 24 घंटे में उत्पन्न होती हैं और कोई अन्य डीआईएमएम आगे सीई नहीं दिखा रहा है।

  • DIMM BIOS के तहत मेमोरी टेस्टिंग को Unorrectable Memory Errors (UCEs) के कारण विफल कर देता है।

  • यूसीई होता है और जांच से पता चलता है कि त्रुटियां स्मृति से उत्पन्न हुई हैं।

24 घंटे में 24 त्रुटियों को नोटिस करें।

https://docs.oracle.com/cd/E19150-01/820-4213-11/dimms.html

इसके अलावा,

यदि एक से अधिक DIMM ने कई CE का अनुभव किया है, तो किसी भी DIMM की जगह लेने से पहले CE के अन्य संभावित कारणों को एक योग्य सन सपोर्ट विशेषज्ञ द्वारा खारिज किया जाना चाहिए।

आखिरी बिंदु पर, एचपी कुछ ऐसा ही कहता है कि यह केवल सर्वर फर्मवेयर हो सकता है जो मेमोरी त्रुटियों को गलत करता है। वे कहते हैं कि कई मामलों में फर्मवेयर अपग्रेड झूठे सकारात्मक अलर्ट को ठीक करता है। यह विशेष रूप से सच हो सकता है यदि आपने विभिन्न DIMM से MCE प्राप्त करना शुरू कर दिया।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.