इसका क्या कारण है? pcieport 0000: 00: 03.0: PCIe बस त्रुटि: AER / Bad TLP


20

मैं नीचे इन जैसे त्रुटि संदेश देख रहा हूं:

Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: AER: Multiple 
Corrected error received: id=0018 Nov 15 15:49:52 x99 kernel: pcieport
0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, 
id=0018(Receiver ID) Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: 
device [8086:6f08] error status/mask=00000040/00002000 Nov 15 15:49:52 
x99 kernel: pcieport 0000:00:03.0: [ 6] Bad TLP

ये (अब तक) सही होने के बावजूद अपमानित प्रदर्शन का कारण बनेंगे। जाहिर है, इस मुद्दे को हल करने की जरूरत है। हालाँकि, मैं इसके बारे में इंटरनेट पर बहुत कुछ नहीं पा सकता। (शायद मैं गलत जगहों पर देख रहा हूँ।) मुझे केवल कुछ लिंक मिले जो मैं नीचे पोस्ट करूँगा।

क्या किसी को इन त्रुटियों के बारे में अधिक पता है?

क्या यह मदरबोर्ड, सैमसंग 950 प्रो या जीपीयू (या इनमें से कुछ संयोजन) है?

हार्डवेयर है: M2 में Asus X99 डिलक्स II सैमसंग 950 प्रो NVMe। mb पर स्लॉट (जो PCIe पोर्ट 3 को साझा करता है)। PCIe पोर्ट में और कुछ नहीं डाला गया है। PCIe स्लॉट में एक GeForce GTX 1070 1 कोर i7 6850K CPU

मुझे जो लिंक मिले उनमें से एक ही हार्डवेयर का उल्लेख है (X99 डीलक्स II mb & Samsung950 Pro)। मैं आर्क लिनक्स चला रहा हूं।

मैं स्ट्रिंग को "8086: 6f08" जर्नल में नहीं ढूंढता हूं या कहीं और मैंने अब तक खोज करने के लिए सोचा है।

nvme ssd (Bad TLP) के साथ विषम त्रुटि संदेश: linuxquestions https://www.reddit.com/r/linuxquestions/comments/4walnu/odd_error_message_with_nithme_ssd_bad_tlp/

PCIe: क्या आपका कार्ड चुपचाप टीएलपी रेट्रांसमीट्स से जूझ रहा है? http://billauer.co.il/blog/2011/07/pcie-tlp-dllp-retransmit-data-link-layer-error/

GTX 1080 बुरा टीएलपी PCIe बस त्रुटियाँ फेंक - GeForce फ़ोरम https://forums.geforce.com/default/topic/957456/gtx-1080-throwing-bad-tlp-pcie-bus-errors/

ड्राइवर - dmesg लॉग में PCIe त्रुटि - उबंटू /ubuntu/643952/pcie-error-in-dmesg-log से पूछें

780Ti X99 हार्ड लॉक - PCIE त्रुटियां - NVIDIA डेवलपर फ़ोरम https://devtalk.nvidia.com/default/topic/779994/linux/780ti-x99-hard-lock-pcie-errors/


मैंने अपने gtx 710 को वें pcie x16 स्लॉट से X1 स्लॉट (asus prime b450-plus, ryzen 5 3600, samsung nvme 970) में
स्थानांतरित कर दिया

जवाबों:


23

मैं कम से कम कुछ विवरण दे सकता हूं, भले ही मैं पूरी तरह से समझा नहीं सकता कि क्या होता है।

जैसा कि यहाँ उदाहरण के लिए वर्णित है , सीपीयू PCIe बस नियंत्रक के साथ लेन-देन परत पैकेट (TLPs) द्वारा संचार करता है । हार्डवेयर दोषपूर्ण होने पर पता लगाता है, और लिनक्स कर्नेल रिपोर्ट करता है कि संदेशों के रूप में।

कर्नेल विकल्प pci=nommconfमेमोरी-मैप्ड पीसीआई कॉन्फ़िगरेशन स्पेस को निष्क्रिय कर देता है, जो कि कर्नेल 2.6 के बाद से लिनक्स में उपलब्ध है। बहुत ही मोटे तौर पर, सभी पीसीआई उपकरणों में एक ऐसा क्षेत्र होता है जो इस उपकरण का वर्णन करता है (जिसे आप देखते हैं lspci -vv), और मूल रूप से इस क्षेत्र तक पहुंचने की विधि में I / O पोर्ट से गुजरना शामिल है, जबकि PCIe इस स्थान को सरल उपयोग के लिए मेमोरी में मैप करने की अनुमति देता है।

इसका मतलब है कि इस विशेष मामले में, कुछ गलत हो जाता है जब PCIe नियंत्रक इस पद्धति का उपयोग किसी विशेष डिवाइस के कॉन्फ़िगरेशनटोन स्थान तक पहुंचने के लिए करता है। यह डिवाइस में एक हार्डवेयर बग हो सकता है, मदरबोर्ड पर PCIe रूट कंट्रोलर में, उन दोनों के विशिष्ट इंटरैक्शन में, या कुछ और।

उपयोग करके pci=nommconf, सभी उपकरणों के कॉन्फ़िगरेशन स्थान को मूल तरीके से एक्सेस किया जाएगा, और इस समस्या के आसपास पहुंच के तरीकों को बदलना काम करता है। इसलिए यदि आप चाहते हैं, तो यह दोनों इसे हल कर रहा है और इसे दबा रहा है।


क्या मुझे पता चल सकता है कि यह मेरी मदरबोर्ड की समस्या है? या मेरे CPU समस्या। क्या मुझे उन्हें बदलना चाहिए?
user10024395

@ user2675516: यह सीपीयू से संबंधित नहीं है। यह PCIe रूट कंट्रोलर (जो अक्सर साउथब्रिज में होता है) और / या डिवाइस के PCIe कंट्रोलर, या उनके इंटरैक्शन की समस्या है। हां, अलग-अलग हार्डवेयर वाले मदरबोर्ड को बदलने से आमतौर पर छुटकारा मिल जाता है।
dirkt

मैं asus e-ws से asus डीलक्स में बदल गया, लेकिन समस्या अभी भी बनी हुई है। इसलिए मुझे संदेह है कि यह सीपीयू है। या ऐसा इसलिए है क्योंकि दोनों ही X99 चिपसेट हैं?
user10024395

1
@ user2675516: अगर चिपसेट समान है, तो esp। PCIe नियंत्रक, तो निश्चित रूप से मदरबोर्ड को बदलने से मदद नहीं मिलेगी। इसलिए मैंने "मदरबोर्ड विद डिफरेंट हार्डवेयर " लिखा ।
दिनांक

मेरे लिए कॉमन फैक्टर X99 चिपसेट के साथ एक मदरबोर्ड लगता है
मोनिका

3

कर्नेल कमांड लाइन विकल्प को जोड़ने से pci=nommconfमेरे लिए समस्या हल हो गई। इसलिए, मुझे लगता है कि मुद्दा मदरबोर्ड से संबंधित है। यह मेरे सभी X99 मदरबोर्ड से लैस कंप्यूटरों पर होता है। यह Z170 सिस्टम या किसी अन्य हार्डवेयर पर नहीं होता है जो मेरे पास है।


1
नमस्ते मैं भी इस समस्या का सामना कर रहा हूँ। क्या मैं जान सकता हूं कि pci-nommconf क्या करता है? क्या यह सिर्फ समस्या को दबा रहा है या समस्या का समाधान कर रहा है?
user10024395

पुष्टि नहीं कर सकते - z170i पर त्रुटि हो रही है, आर्क 4.13.12 चल रहा है
21

@ संचित - आपकी टिप्पणी के लिए धन्यवाद। कौन सा ब्रांड / मॉडल z170i? मेरे मदरबोर्ड एसस हैं। एक X99 डिलक्स II है
मोनिका

यह asus z170i प्रो गेमिंग है।
सिटजेज

3

इस चरण को आज़माएं:

  1. cp /etc/default/grub ~/Desktop
  2. ग्रब संपादित करें। pci=noaerके अंत में जोड़ें GRUB_CMDLINE_LINUX_DEFAULT। लाइन इस तरह होगी:

    GRUB_CMDLINE_LINUX_DEFAULT="quiet splash pci=noaer"
    
  3. sudo cp ~/Desktop/grub /etc/default/

  4. sudo update-grub
  5. अब रिबूट करें

मैंने आपका समाधान लागू किया लेकिन इसके बजाय जैसा कि pci=noaerमैंने pci=nommconf@dirkt द्वारा सुझाया था
user3405291

धन्यवाद, pci = noaer ने मेरे स्लैकवेयर 14.2x64 समस्या को hp लैपटॉप पर स्थापित किया (डेस्कटॉप इंस्टाल ने इस समस्या को बिल्कुल भी प्रदर्शित नहीं किया)
John Forkosh

7
क्या आप थोड़ा विस्तार करने का मन करेंगे? यह विकल्प क्या करता है और आप इस समस्या को हल करने की अपेक्षा कैसे करते हैं?
कैलिमो नोव

आप सिर्फ sudoeditसुरक्षित संपादन के लिए उपयोग क्यों नहीं करेंगे ? -1 इन कॉपी के लिए यहां और वहां कदम पूरी बकवास हैं
LinuxSecurityFreak

4
pci=noaerबस उन्नत त्रुटि रिपोर्टिंग अक्षम करता है। तो आप अभी भी उन त्रुटियों को, आप बस उन्हें नहीं देखते हैं ...
dirkt

2

मुझे एक ही त्रुटि मिलती है (डिवाइस से खराब टीएलपी 8086: 6f08)। मेरे पास X99 डिलक्स II, सैमसंग 960 प्रो, एनवीडिया 1080 टी है। ये समस्याएं सैमसंग प्रो की तरह X99 चिपसेट और M.2 डिवाइस से जुड़ी हुई लगती हैं।

X99 डिलक्स II मदरबोर्ड PCIE16_3 स्लॉट और M.2 / U.2 के बीच बैंडविड्थ साझा करता है। @Nic की टिप्पणी के बाद, BIOS में मैंने ऑनबोर्ड डिवाइसेस कॉन्फ़िगरेशन को बदल दिया | U.2_2 ऑटो से U.2_2 तक बैंडविड्थ। इससे मेरे लिए समस्या ठीक हो गई।


आपने यह कैसे निर्धारित किया कि यह केवल चिपसेट है? हर दूसरे चिपसेट की कोशिश की? यह हार्डवेयर की एक विस्तृत विविधता पर होता है।
doug65536

2

मैंने PC216_3 स्लॉट को बायोस में बदल दिया, मेरे x99-E पर ऑटो के बजाय स्थिर सेट करने के लिए x8 मोड पर सेट किया गया जो M.2 डिवाइस समर्थन के लिए डिफ़ॉल्ट है। PCIe 1x से 16x एक्सटेंशन बोर्डों के माध्यम से जुड़े मेरे 1070GTX कार्डों पर TLP त्रुटियों के बिना अब ठीक काम करता है।

मैंने पहले पोर्ट 16_3 का उपयोग नहीं किया था, परीक्षण करने के लिए उस स्लॉट में चला गया लेकिन बायोस में परिवर्तन से पहले अभी भी समस्या थी। माइनर कॉन्फिगरेशन में सभी कार्ड्स के लिए bsleep सेटिंग को 30 तक बदल दिया।

परिवर्तन से पहले मुझे कर्नेल लॉग दोष के साथ स्पैम किया गया था। बदलाव से पहले और बाद में भी पॉवर साइकिल सिस्टम की कोशिश की। बहुत ज्यादा लग रहा है।


2

"AER" के लिए अपना मदरबोर्ड मैनुअल खोजें। आप विशिष्ट असंगति को ठीक करके या एईआर को पूरी तरह से अक्षम करके समस्या के स्रोत को मार सकते हैं। केवल इसका उपयोग करें यदि सभी त्रुटि स्पैम चिंताओं ने त्रुटियों को ठीक किया , अन्यथा आप एक वास्तविक मुद्दे को कवर कर सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.