मुझे कैसे पता चलेगा कि किस मेमोरी में CE त्रुटि है?


12

में /var/log/kern.log:

kernel: [13291329.657499] EDAC MC0: 48 CE error on CPU#0Channel#2_DIMM#0 (channel:2 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)

यह edacलॉग है, मेमोरी में से एक में ceत्रुटि है।

मैंने edac doc पढ़ा है

Dual channels allows for 128 bit data transfers to the CPU from memory.
Some newer chipsets allow for more than 2 channels, like Fully Buffered DIMMs
(FB-DIMMs). The following example will assume 2 channels:


            Channel 0   Channel 1
    ===================================
    csrow0  | DIMM_A0   | DIMM_B0 |
    csrow1  | DIMM_A0   | DIMM_B0 |
    ===================================

    ===================================
    csrow2  | DIMM_A1   | DIMM_B1 |
    csrow3  | DIMM_A1   | DIMM_B1 |
    ===================================

और त्रुटि चैनल खोजें:

$ grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch2_ce_count:144648966
/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch2_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch1_ce_count:0

और यह होना चाहिए mc0/csrow0/ch2, जैसा कि डॉक्टर, DIMM होना चाहिए DIMM_C0, और इसके द्वारा पाया जा सकता है dmidecode:

लेकिन मुझे यह DIMM नहीं मिला, इसलिए मुझे नहीं पता कि किस मेमोरी में समस्या है:

$ dmidecode -t memory | grep 'Locator: PROC'
        Locator: PROC 1 DIMM 2A
        Locator: PROC 1 DIMM 1D
        Locator: PROC 1 DIMM 4B
        Locator: PROC 1 DIMM 3E
        Locator: PROC 1 DIMM 6C
        Locator: PROC 1 DIMM 5F
        Locator: PROC 2 DIMM 2A
        Locator: PROC 2 DIMM 1D
        Locator: PROC 2 DIMM 4B
        Locator: PROC 2 DIMM 3E
        Locator: PROC 2 DIMM 6C
        Locator: PROC 2 DIMM 5F

12 स्लॉट हैं, और 9 स्लॉट में मेमोरी है।

तो मुझे कैसे पता चलेगा कि किस मेमोरी में समस्या है?


अनुपूरक:

System Information
        Manufacturer: HP
        Product Name: ProLiant DL180 G6

यह किस प्रकार का सर्वर है? सर्वर निर्माता और मॉडल।
ewhite

@ नया, हाय, मैंने सिस्टम जानकारी के साथ प्रश्न को अद्यतन किया।
टंकी वू डे

आप कौनसा ऑपरेटिंग सिस्टम चला रहे हैं?
1

@ewwhite OS है Ubuntu 12.04, कर्नेल है3.10.20
टंकी वू

ओह, मुझे क्षमा करें ... उबंटू वास्तव में इस हार्डवेयर पर समर्थित नहीं है , इसलिए आप RHEL / CentOS / डेबियन / SuSE का उपयोग नहीं करके इसे ठीक से मॉनिटर करने की क्षमता खो रहे हैं ...
ewwhite

जवाबों:


8

आपकी समस्या DIMM की संभावना है - Locator: PROC 1 DIMM 5F

CPU # 0 चैनल # 2_DIMM # ​​0 का अर्थ है:

PROC 1, 
1D,2A = Channel 0  
3E,4B = Channel 1
5F,6C = Channel 2

5F = DIMM 0
6C = DIMM 1

संपादित करें:

प्रश्न पूछते समय, अधिक जानकारी हमेशा बेहतर होती है ... सर्वर निर्माता और मॉडल के पास इसका सरलीकरण होगा:

यहाँ HP ProLiant DL180 G6 क्विकस्पेस से मेमोरी आरेख है :

यहाँ छवि विवरण दर्ज करें

मेरा सुझाव है कि CPU स्लॉट # 1 में DIMM सही है ... लेकिन यह HP हार्डवेयर है। आपको अनुमान लगाने की आवश्यकता नहीं होनी चाहिए !!

आपको एचपी के प्रबंधन एजेंटों का उपयोग करना चाहिए, क्योंकि वे चेतावनी दे सकते हैं और हार्डवेयर स्वास्थ्य और स्थिति के बारे में मंच-विशिष्ट विवरण प्रदान कर सकते हैं ...

[root@veloce ~]# hpasmcli
HP management CLI for Linux (v2.0)
Copyright 2008 Hewlett-Packard Development Group, L.P.

--------------------------------------------------------------------------
This server ProLiant DL180 G6  , is a Proliant 100 Series Server.
NOTE: Some hpasmcli commands may not be supported on 100 series servers.
      Type 'help' to get a list of all top level commands.
--------------------------------------------------------------------------
hpasmcli> show dimm
Cartridge #:    0
Processor #:    1
Module #:       2
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       1
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       4
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       6
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

धन्यवाद, क्या कोई संबंधित दस्तावेज है?
टंकी वू डे

@TankyWoo हाँ, ऊपर देखें।
ewwhite

PROC1 DIMM 5Fकोई स्मृति नहीं है। क्या आपका मतलब है कि स्लॉट वास्तव में पुष्टि नहीं है? मुझे एक hp डिब दर्पण जोड़ना चाहिए और hpamscliसही DIMM प्राप्त करने के लिए स्थापित करना चाहिए?
टंकी वू

मैं स्थापित किया है hp-health, और Statusहै N/Aअपने चिपकाया उत्पादन के रूप में ही।
टंकी वू

hplog -vHP IML लॉग में प्रविष्टियों के लिए जाँच करने के लिए चलाएँ ।
ewwhite
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.