e1000e रीसेट एडाप्टर अनपेक्षित रूप से / पता लगाया हार्डवेयर यूनिट हैंग


36

मेरे पास Intel (R) Xeon (R) CPU L5420 @ 2.50GHz के साथ Dell 1U सर्वर है, Ubuntu सर्वर कर्नेल वर्जन पर चलने वाले 8 कोर x3_64 पर 3.13.0-32-जेनेरिक है। इसमें ड्यूल 1000baseT नेटवर्किंग कार्ड हैं। मैंने इसे eth0 से eth1 तक के पैकेट को अग्रेषित किया है।

मैंने देखा है कि मेरी kern.log फ़ाइल में यह लटका रहता है तब आराम करता है। ऐसा अक्सर हो रहा है। यह हर कुछ सेकंड में होता है और शायद कुछ मिनटों के लिए ठीक होगा और फिर हर कुछ सेकंड में वापस आ जाएगा।

यहाँ लॉग फ़ाइल डंप है:

 [118943.768245] e1000e 0000:00:19.0 eth0: Detected Hardware Unit Hang:
 [118943.768245]   TDH                  <45>
 [118943.768245]   TDT                  <50>
 [118943.768245]   next_to_use          <50>
 [118943.768245]   next_to_clean        <43>
 [118943.768245] buffer_info[next_to_clean]:
 [118943.768245]   time_stamp           <101c48d04>
 [118943.768245]   next_to_watch        <45>
 [118943.768245]   jiffies              <101c4970f>
 [118943.768245]   next_to_watch.status <0>
 [118943.768245] MAC Status             <80283>
 [118943.768245] PHY Status             <792d>
 [118943.768245] PHY 1000BASE-T Status  <7800>
 [118943.768245] PHY Extended Status    <3000>
 [118943.768245] PCI Status             <10>
 [118944.780015] e1000e 0000:00:19.0 eth0: Reset adapter unexpectedly

यहाँ जानकारी ethtool से है:

सेटिंग्स:

Settings for eth0:

Supported ports: [ TP ]
Supported link modes:   10baseT/Half 10baseT/Full 
                        100baseT/Half 100baseT/Full 
                        1000baseT/Full 
Supported pause frame use: No
Supports auto-negotiation: Yes
Advertised link modes:  10baseT/Half 10baseT/Full 
                        100baseT/Half 100baseT/Full 
                        1000baseT/Full 
Advertised pause frame use: No
Advertised auto-negotiation: Yes
Speed: 1000Mb/s
Duplex: Full
Port: Twisted Pair
PHYAD: 1
Transceiver: internal
Auto-negotiation: on
MDI-X: off (auto)
Supports Wake-on: pumbg
Wake-on: g
Current message level: 0x00000007 (7)
               drv probe link
Link detected: yes

ड्राइवर की जानकारी:

ethtool -i eth0

driver: e1000e
version: 2.3.2-k
firmware-version: 1.4-0
bus-info: 0000:00:19.0
supports-statistics: yes
supports-test: yes
supports-eeprom-access: yes
supports-register-dump: yes
supports-priv-flags: no

ऐसा किसके कारण हो सकता है? क्या यह सॉफ्टवेयर में एक बग या एक वास्तविक हार्डवेयर समस्या है? मैंने कई अन्य समान मुद्दों को देखा है, लेकिन कोई वास्तविक समाधान नहीं है और यह भी मुझे विश्वास दिलाता है कि इसका सॉफ्टवेयर मुद्दा है?

शायद कोई मेरे लिए इस पर कुछ प्रकाश डाल सकता है?


इस समस्या का पता लगता है: bugzilla.kernel.org/show_bug.cgi?id=47331
winorpablosceruelo

जवाबों:


26

ठीक है तो कल रात इस सवाल को पोस्ट करने के बाद मैंने कुछ शोध करना जारी रखा एकमात्र समाधान जो मुझे आया था वह समस्या का ध्यान रखता है।

टीएसओ, जीएसओ और ग्रॉस को एथलेटूल का उपयोग करके अक्षम करना:

ethtool -K eth0 gso off gro off tso off

यहां मिली एक पोस्ट के अनुसार: http://ehc.ac/p/e1000/bugs/378/

मैं इस इच्छा को समझता हूं या प्रदर्शन में कमी का कारण बन सकता हूं।

मैंने यह भी देखा कि एक और समाधान एक्टिव-स्टेट पावर मैनेजमेंट को निष्क्रिय करना था

pcie_aspm=off

सर्वरफॉल्ट पर इस पोस्ट के अनुसार: लिनक्स e1000e (इंटेल नेटवर्किंग ड्राइवर) समस्याएँ

मैंने अभी तक इस समाधान की कोशिश नहीं की है। मैं इसे आजमाऊंगा और देखूंगा कि क्या फर्क पड़ता है और अपने निष्कर्षों को वापस लाऊं।

संपादित करें:

ठीक है, इसलिए मैंने सक्रिय-राज्य पावर प्रबंधन, pcie_aspm = बंद करने की कोशिश की है और इसका कोई प्रभाव नहीं पड़ा। मैंने अपनी लॉग फ़ाइल में त्रुटियों को नोटिस करना जारी रखा।

यह अभी भी कुछ के लिए काम कर सकता है क्योंकि कुछ इंटेल एनआईसी के पास बिजली की आपूर्ति सक्षम होने पर सोते हुए गिरने की विभिन्न गुठली के साथ मुद्दे हैं।


2
धन्यवाद! मैंने एथलेट को ठीक करने की कोशिश की, और इसने मेरी समस्या हल कर दी। (यह भी एक init स्क्रिप्ट में अटक)
पीटर

नमस्ते, क्या आप जानते हैं कि दौड़ने ethtool -K eth0 gso off gro off tso offसे कनेक्शन गिर जाएगा, भले ही थोड़े समय के लिए?
Godzillante

वास्तव में,
एथलेट के

2
'यहां मिली एक पोस्ट के अनुसार: ehc.ac/p/e1000/bugs/378 ' ऊपर अब एक डोमेनक्वेटर में जाता है, मूल सामग्री यहां पाई जा सकती है: web.archive.org/web/20160205153351/ttp://ehc। ac: 80 / p / e1000 /…
माइक मैककेबे

6

BIOS में एन्हांस्ड C1 (C1E) को अक्षम करना मेरे लिए इसे निर्धारित करता है।

सुनिश्चित नहीं है कि C1E की लोअर पावर स्थिति ड्राइवर के साथ खिलवाड़ कर रही है, या जब ड्राइवर इस अवस्था में है तो ड्राइवर में उफ है।

वैसे भी, समस्या हल हो गई।


यह ठीक वही था जो मेरे लिए काम करता था। एक ASRock H170M-ITX / DL मदरबोर्ड पर Ubuntu 16.04 LTS चल रहा है। धन्यवाद स्टीवजी। =)
पूंछ

मन है कि यह सर्वर बिजली की खपत को बहुत बढ़ा सकता है!
फ्लैट्रॉन

0

मेरे पास समस्या थी (आप और यूजरस्पेस SSH त्रुटियों जैसे " Corrupted MAC on input") के समान कर्नेल त्रुटि को ट्रिगर करना ।

समाधान

टीसीपी चेकसम अपलोडिंग को अक्षम करने के लिए मेरे लिए क्या काम किया गया था:

# ethtool -K eth0 tx off rx off

डेबियन-ईश / आदि / नेटवर्क / इंटरफेस के साथ स्वच्छ और दीर्घकालिक एकीकरण :

#!/bin/bash
#
# Disables TCP offloading on all ifaces
#
# Inspired by: @Michelunik https://serverfault.com/a/422554/62953

RUN=true
case "${IF_NO_TOE,,}" in
    no|off|false|disable|disabled)
        RUN=false
    ;;
esac


# Other offloading options that could be disabled (not TCP related):
#  sg tso ufo gso gro lro rxvlan txvlan rxhash
# see man ethtool

if [ "$MODE" = start -a "$RUN" = true ]; then
  TOE_OPTIONS="rx tx"
  for TOE_OPTION in $TOE_OPTIONS; do
    /sbin/ethtool --offload "$IFACE" "$TOE_OPTION" off &>/dev/null || true
  done
fi

स्रोत , प्रेरणा

प्रसंग

  • डेबियन जेसी
  • कर्नेल 4.7.0-0.bpo.1-amd64
  • lspci 00:19.0 Ethernet controller: Intel Corporation Ethernet Connection I218-V (rev 04)

-1

अपने ड्राइवर को अपडेट करने का प्रयास करें। पता नहीं कि यह उबंटू के लिए कहां है या संस्करण की सिफारिश की गई है लेकिन CentOS या EL 6 के लिए यह है:

http://mirror.symnds.com/distributions/elrepo/elrepo/el6/x86_64/RPMS/kmod-e1000e-3.1.0.2-1.el6.elrepo.x86_64.rpm

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.