ईएसएक्सआई एनएफएस डेटस्टोर्स पर लेटेंसी की समस्या का निवारण


44

मैं ESXi में NFS डेटास्टोर्स पर लगभग पाँच सेकंड के fsync विलंबता का अनुभव कर रहा हूँ , कुछ VMs द्वारा ट्रिगर किया गया। मुझे संदेह है कि यह VMQ NCQ / TCQ का उपयोग करके हो सकता है, क्योंकि वर्चुअल IDE ड्राइव के साथ ऐसा नहीं होता है।

इसे fsync- टेस्टर (टेड Ts'o द्वारा) और आयोपिंग का उपयोग करके पुन: पेश किया जा सकता है । उदाहरण के लिए 8GB डिस्क के साथ Grml लाइव सिस्टम का उपयोग कर:

Linux 2.6.33-grml64:
root@dynip211 /mnt/sda # ./fsync-tester
fsync time: 5.0391
fsync time: 5.0438
fsync time: 5.0300
fsync time: 0.0231
fsync time: 0.0243
fsync time: 5.0382
fsync time: 5.0400
[... goes on like this ...]

यह 5 सेकंड है, मिलीसेकंड नहीं। यह भी एक ही मेजबान और डेटास्टोर पर चल रहे एक अलग VM पर IO- विलंबता पैदा कर रहा है :

root@grml /mnt/sda/ioping-0.5 # ./ioping -i 0.3 -p 20 .
4096 bytes from . (reiserfs /dev/sda): request=1 time=7.2 ms
4096 bytes from . (reiserfs /dev/sda): request=2 time=0.9 ms
4096 bytes from . (reiserfs /dev/sda): request=3 time=0.9 ms
4096 bytes from . (reiserfs /dev/sda): request=4 time=0.9 ms
4096 bytes from . (reiserfs /dev/sda): request=5 time=4809.0 ms
4096 bytes from . (reiserfs /dev/sda): request=6 time=1.0 ms
4096 bytes from . (reiserfs /dev/sda): request=7 time=1.2 ms
4096 bytes from . (reiserfs /dev/sda): request=8 time=1.1 ms
4096 bytes from . (reiserfs /dev/sda): request=9 time=1.3 ms
4096 bytes from . (reiserfs /dev/sda): request=10 time=1.2 ms
4096 bytes from . (reiserfs /dev/sda): request=11 time=1.0 ms
4096 bytes from . (reiserfs /dev/sda): request=12 time=4950.0 ms

जब मैं पहले VM को स्थानीय भंडारण में ले जाता हूं तो यह पूरी तरह से सामान्य लगता है:

root@dynip211 /mnt/sda # ./fsync-tester
fsync time: 0.0191
fsync time: 0.0201
fsync time: 0.0203
fsync time: 0.0206
fsync time: 0.0192
fsync time: 0.0231
fsync time: 0.0201
[... tried that for one hour: no spike ...]

मैंने कोशिश की है कि कोई फर्क नहीं पड़ता:

  • कई ESXi बिल्ड का परीक्षण किया गया: 381591, 348481, 260247
  • विभिन्न हार्डवेयर, विभिन्न इंटेल और एएमडी बक्से पर परीक्षण किया गया
  • विभिन्न एनएफएस सर्वरों के साथ परीक्षण किया गया, सभी समान व्यवहार दिखाते हैं:
    • OpenIndiana b147 (हमेशा या अक्षम ZFS सिंक: कोई अंतर नहीं)
    • OpenIndiana b148 (हमेशा या अक्षम ZFS सिंक: कोई अंतर नहीं)
    • लिनक्स 2.6.32 (सिंक या एसिक्स: कोई अंतर नहीं)
    • इससे कोई फर्क नहीं पड़ता कि NFS सर्वर एक ही मशीन पर (वर्चुअल स्टोरेज उपकरण के रूप में) या अलग होस्ट पर है

अतिथि OS का परीक्षण, समस्याएँ दिखा रहा है:

  • विंडोज 7 64 बिट (क्रिस्टलडिस्कमार का उपयोग करके, लेटेंसी स्पाइक्स ज्यादातर चरण तैयार करने के दौरान होता है)
  • लिनक्स 2.6.32 (fsync- परीक्षक + आयोपिंग)
  • लिनक्स 2.6.38 (fsync- परीक्षक + आयोपिंग)

मैं लिनक्स 2.6.18 वीएम पर इस समस्या को पुन: पेश नहीं कर सका।

वर्चुअल IDE डिस्क (बनाम SCSI / SAS) का उपयोग करने के लिए एक और समाधान है, लेकिन वह प्रदर्शन और प्रति वीएम ड्राइव की संख्या को सीमित कर रहा है।

2011-06-30 अपडेट करें:

यदि एप्लिकेशन fsync से पहले कई छोटे ब्लॉकों में लिखता है तो विलंबता स्पाइक्स अधिक बार होता है। उदाहरण के लिए fsync- परीक्षक ऐसा करता है (स्ट्रेस आउटपुट):

pwrite(3, "aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa"..., 1048576, 0) = 1048576
fsync(3)                                = 0

फाइल तैयार करते समय आईपिंग ऐसा करता है:

[lots of pwrites]
pwrite(3, "********************************"..., 4096, 1036288) = 4096
pwrite(3, "********************************"..., 4096, 1040384) = 4096
pwrite(3, "********************************"..., 4096, 1044480) = 4096
fsync(3)                                = 0

आयोपिंग का सेटअप चरण लगभग हमेशा लटका रहता है, जबकि fsync- परीक्षक कभी-कभी ठीक काम करता है। क्या कोई व्यक्ति कई छोटे ब्लॉक लिखने के लिए fsync- परीक्षक को अपडेट करने में सक्षम है? मेरी सी कौशल चूसना;)

अद्यतन 2011-07-02:

यह समस्या iSCSI के साथ नहीं होती है। मैंने OpenIndiana COMSTAR iSCSI सर्वर के साथ यह कोशिश की। लेकिन iSCSI आपको VMDK फ़ाइलों तक आसान पहुँच नहीं देता है, ताकि आप उन्हें स्नैपशॉट और rsync के साथ मेजबानों के बीच स्थानांतरित कर सकें।

अपडेट 2011-07-06:

यह एक वायरशार्क कैप्चर का हिस्सा है, जिसे उसी वीस्विच पर तीसरे वीएम द्वारा कब्जा कर लिया गया है। यह सब एक ही मेजबान पर होता है, इसमें कोई भौतिक नेटवर्क शामिल नहीं है।

मैंने समय 20 के आसपास आयोडिंग शुरू कर दी है। पांच सेकंड की देरी खत्म होने तक कोई पैकेट नहीं भेजा गया था:

No.  Time        Source                Destination           Protocol Info
1082 16.164096   192.168.250.10        192.168.250.20        NFS      V3 WRITE Call (Reply In 1085), FH:0x3eb56466 Offset:0 Len:84 FILE_SYNC
1083 16.164112   192.168.250.10        192.168.250.20        NFS      V3 WRITE Call (Reply In 1086), FH:0x3eb56f66 Offset:0 Len:84 FILE_SYNC
1084 16.166060   192.168.250.20        192.168.250.10        TCP      nfs > iclcnet-locate [ACK] Seq=445 Ack=1057 Win=32806 Len=0 TSV=432016 TSER=769110
1085 16.167678   192.168.250.20        192.168.250.10        NFS      V3 WRITE Reply (Call In 1082) Len:84 FILE_SYNC
1086 16.168280   192.168.250.20        192.168.250.10        NFS      V3 WRITE Reply (Call In 1083) Len:84 FILE_SYNC
1087 16.168417   192.168.250.10        192.168.250.20        TCP      iclcnet-locate > nfs [ACK] Seq=1057 Ack=773 Win=4163 Len=0 TSV=769110 TSER=432016
1088 23.163028   192.168.250.10        192.168.250.20        NFS      V3 GETATTR Call (Reply In 1089), FH:0x0bb04963
1089 23.164541   192.168.250.20        192.168.250.10        NFS      V3 GETATTR Reply (Call In 1088)  Directory mode:0777 uid:0 gid:0
1090 23.274252   192.168.250.10        192.168.250.20        TCP      iclcnet-locate > nfs [ACK] Seq=1185 Ack=889 Win=4163 Len=0 TSV=769821 TSER=432716
1091 24.924188   192.168.250.10        192.168.250.20        RPC      Continuation
1092 24.924210   192.168.250.10        192.168.250.20        RPC      Continuation
1093 24.924216   192.168.250.10        192.168.250.20        RPC      Continuation
1094 24.924225   192.168.250.10        192.168.250.20        RPC      Continuation
1095 24.924555   192.168.250.20        192.168.250.10        TCP      nfs > iclcnet_svinfo [ACK] Seq=6893 Ack=1118613 Win=32625 Len=0 TSV=432892 TSER=769986
1096 24.924626   192.168.250.10        192.168.250.20        RPC      Continuation
1097 24.924635   192.168.250.10        192.168.250.20        RPC      Continuation
1098 24.924643   192.168.250.10        192.168.250.20        RPC      Continuation
1099 24.924649   192.168.250.10        192.168.250.20        RPC      Continuation
1100 24.924653   192.168.250.10        192.168.250.20        RPC      Continuation

दूसरा अपडेट 2011-07-06:

टीसीपी खिड़की के आकार से कुछ प्रभाव प्रतीत होता है। मैं NFS सर्वर के रूप में FreeNAS (FreeBSD पर आधारित) का उपयोग करके इस समस्या को पुन: उत्पन्न करने में सक्षम नहीं था। वायरशार्क कैप्चर ने नियमित अंतराल में 29127 बाइट्स के लिए टीसीपी विंडो अपडेट दिखाए। मैंने उन्हें ओपनइंडियाना के साथ नहीं देखा, जो डिफ़ॉल्ट रूप से बड़े विंडो आकारों का उपयोग करता है।

यदि मैं OpenIndiana में निम्न विकल्प सेट करता हूं और NFS सर्वर को पुनरारंभ करता हूं, तो मैं इस समस्या को पुन: उत्पन्न नहीं कर सकता:

ndd -set /dev/tcp tcp_recv_hiwat 8192 # default is 128000
ndd -set /dev/tcp tcp_max_buf 1048575 # default is 1048576

लेकिन यह प्रदर्शन को मारता है: dd_rescue के साथ फ़ाइल के लिए / dev / शून्य से लेखन 170MB / s से 80MB / s तक जाता है।

अपडेट 2011-07-07:

मैंने इस tcpdump कैप्चर को अपलोड किया है (वायरशार्क के साथ इसका विश्लेषण किया जा सकता है)। इस स्थिति में 192.168.250.2 NFS सर्वर (OpenIndiana b148) और 192.168.250.10 ESXi होस्ट है।

इस कैप्चर के दौरान मैंने जिन चीजों का परीक्षण किया है:

शुरू किया "इपिंग -w 5 -i 0.2।" समय पर 30, 5 सेकंड हैंग इन सेटअप, समय पर पूरा 40।

शुरू किया "इपिंग -w 5 -i 0.2।" समय पर 60, सेटअप में 5 सेकंड लटका, समय 70 पर पूरा हुआ।

90 के समय में "fsync-tester" शुरू किया, निम्नलिखित आउटपुट के साथ, समय 120 पर रोक दिया गया:

fsync time: 0.0248
fsync time: 5.0197
fsync time: 5.0287
fsync time: 5.0242
fsync time: 5.0225
fsync time: 0.0209

दूसरा अपडेट 2011-07-07:

एक और NFS सर्वर VM का परीक्षण किया, इस बार NexentaStor 3.0.5 सामुदायिक संस्करण: समान समस्याएं दिखाता है।

अद्यतन 2011-07-31:

मैं इस समस्या को नए ESXi बिल्ड 4.1.0.433742 पर भी पुन: पेश कर सकता हूं।


12
मुझे यह कहना है कि जब से एक नया उपयोगकर्ता बोर्ड पर आया है, तब तक इस तरह के एक अच्छी तरह से प्रलेखित और सोचे-समझे प्रश्न के साथ - गंभीरता से, आपसे नफरत करता है। यह वास्तव में भी दिलचस्प है, मैं fsync-टेस्टर के पार नहीं आया हूँ इससे पहले कि आप को धन्यवाद दें। उन्होंने कहा कि मुझे यकीन नहीं है कि मुझे कुछ भी जोड़ना है, आपने बहुत सारी चीजों की कोशिश की है जो मैं पहले से ही करूंगा - मैं खुद को ईमानदार बनाने के लिए VMWare से बात करूंगा, वे इस तरह का काम करने में बहुत अच्छे हैं 'लॉन्ग-टेल' / 'नहीं एक वास्तविक सेवा आउटेज' सामान गंभीरता से। वैसे भी आप अभी तक जो कुछ भी किया है उस पर अच्छा काम करना चाहते हैं :)
चॉपर 3

दुर्भाग्य से VMware वेबसाइट मुझे उनसे संपर्क नहीं करने देगी: "आपके पास वर्तमान में कोई सक्रिय समर्थन एंटाइटेलमेंट नहीं है"
exo_cw

आह, हाँ, यह एक समस्या हो सकती है ...
चॉपर 3

3
एनएफएस के साथ 5 सेकंड का समय परिचित लग रहा था। लिनक्स एनएफएस में आरपीसी के लिए .7 दूसरा टाइमआउट है जो प्रत्येक विफलता के बाद दोगुना हो जाता है और 3 विफल (डिफ़ॉल्ट सेटिंग्स) के बाद एक प्रमुख खींचता है। .7 + 1.4 + 2.8 = 4.9 सेकंड। RPC प्रमाणीकरण समस्याओं की एक विस्तृत विविधता है जो इसका कारण बन सकती है।
मार्क

2
@Ryan: मैंने कैप्चर फ़ाइल अपलोड कर दी है। मैंने nfsstat आउटपुट भी अपलोड किया है ।
जूल

जवाबों:


5

यह मुद्दा ESXi 5 में तय किया गया है। मैंने सफलता के साथ 469512 बिल्ड का परीक्षण किया है।


3

धन्यवाद, nfsstat अच्छा लग रहा है। मैंने कैप्चर की समीक्षा की है। कुछ भी निर्णायक नहीं मिला, लेकिन कुछ दिलचस्प मिला। मैंने tcp.time_delta> पर फ़िल्टर किया। 5. मैंने हर विलंब उदाहरण में जो पाया वह एक आरपीसी कॉल की सटीक शुरुआत थी। सभी नई RPC कॉल धीमी नहीं थीं, लेकिन सभी मंदी एक RPC कॉल की सटीक शुरुआत में हुईं। साथ ही, कैप्चर से यह प्रतीत होता है कि 192.168.250.10 में सभी देरी है। 192.168.250.2 सभी अनुरोधों का तुरंत जवाब देता है।

जाँच - परिणाम:

  • देरी हमेशा एक आरपीसी कॉल के पहले पैकेट में होती है
  • NFS कमांड प्रकारों को देरी के उदाहरणों से संबंधित नहीं किया गया था
  • विखंडन = केवल पहले पैकेट में देरी

एक बड़ी लिखी कॉल 300 अलग-अलग टीसीपी पैकेट में टूट सकती है, और केवल पहले देरी हो रही है, लेकिन बाकी सभी के माध्यम से उड़ते हैं। बीच में कभी देरी नहीं होती। मुझे यकीन नहीं है कि खिड़की का आकार कनेक्शन की शुरुआत को इतनी तेजी से कैसे प्रभावित कर सकता है।

अगले चरण: मैं एनएफएससी विकल्प जैसे NFSSVC_MAXBLKSIZE को TCP विंडो के बजाय नीचे की ओर ट्विक करना शुरू करूँगा। इसके अलावा, मैंने देखा कि 2.6.18 काम करता है जबकि 2.6.38 नहीं करता है। मुझे पता है कि उस समय सीमा के दौरान VMXnet3 ड्राइवर के लिए समर्थन जोड़ा गया था। आप एनआईसी ड्राइवरों को मेजबानों पर क्या उपयोग कर रहे हैं? टीसीपी ऑफलोडिंग हाँ / नहीं? 95 सेकंड के निशान के आसपास एक सिंगल एनएफएस राइट कॉल के लिए 500 से अधिक टीसीपी पैकेट हैं। जो भी टीसीपी का प्रभारी है और बड़े पीडीयू को तोड़ रहा है वह अवरुद्ध हो सकता है।


मैंने nfs: nfs3_max_transfer_size, nfs: nfs3_max_transfer_size_cots और nfs: nfs3_bsize सभी को 8192 पर सेट करने का प्रयास किया: कोई अंतर नहीं, एक ही समस्या। लिनक्स मेहमान सिर्फ अपने SCSI / SAS-disks का उपयोग करते हैं, कोई NFS का नहीं - ESXi NFS- क्लाइंट है, इसलिए लिनक्स अतिथि पर कोई नेटवर्क ड्राइवर समस्या नहीं है। NFS सर्वर की ओर से मैंने वर्चुअल e1000 और vmxnet3 दोनों की कोशिश की है: कोई फर्क नहीं पड़ा। जहाँ तक मुझे पता है कि ESXi केवल iSCSI के लिए TCP ऑफ़लोडिंग का उपयोग करता है।
exo_cw

सबसे बड़ा ? मेरे पास यही कारण है कि टीसीपी विंडो को समायोजित करने से फर्क पड़ेगा ... मेरी आंत मुझे बताती है कि यह उन बड़े पीडीयू को टीसीपी पर खंडित करने के साथ कुछ करना है। नेटवर्किंग स्टैक में कुछ है जो उस पर घुट रहा है। हम जो भी व्यवहार देख रहे हैं उसे ठीक नहीं समझ सकते। यदि विंडो का आकार एक मुद्दा था, तो हमें एक बड़े हस्तांतरण के बीच में विलंबता विवश बैंडविड्थ देखना चाहिए, शुरुआत नहीं, लेकिन यह हमेशा आरपीसी कॉल का पहला पैकेट है ... कठिन।
रयान

2

मुझे लगता है कि ESXi4.1U1 और CentOS VM का उपयोग करके एक ही समस्या कैसी दिखती है। मेजबान डेल R610s हैं, भंडारण एक EMC2 Isilon क्लस्टर है।

क्या आप वीएलएएनएस का उपयोग करके किसी भी मौके पर थे? मैंने पाया कि स्टोरेज के लिए वीएमकेन पोर्ट पर एक वीएलएएन का उपयोग करके स्टोरेज ट्रैफिक के लिए 4000-5000ms 'हैंग' हो गया। हालाँकि, अगर मैं वीएमएन से वीएम कर्नेल पोर्ट को स्थानांतरित करता हूं, तो यह असंबद्ध पैकेट प्राप्त करता है मुझे समस्या नहीं दिखाई देती है।

नीचे दिया गया सरल सेटअप मेरे नेटवर्क पर समस्या का कारण बनेगा:

1) सर्वर या वर्कस्टेशन पर ESXi 4.1U1 स्थापित करें (जब मैंने कोशिश की तो दोनों ने समस्या प्रदर्शित की)

2) एक वीएलएएन पर एक वीकेमर्नल पोर्ट जोड़ें।

3) एक एनएफएस डेटास्टोर (मेरा एक ही वीएलएएन पर है, यानी इसिलोन टैग किए गए पैकेट प्राप्त करता है) जोड़ें

4) 2 सेंटोस 5.5 वीएम की स्थापना करें, एक आईपोड के साथ।

5) बूट वीएम में एकल उपयोगकर्ता मोड (यानी कोई नेटवर्क नहीं, न्यूनतम सेवाएं)

6) एक मशीन पर आयोपिंग चलाएं ताकि यह वर्चुअल डिस्क पर लिख रहा हो

7) 100 एमबी डेटा / tmp या समान लिखने के लिए दूसरी मशीन पर dd या somesuch चलाएं

अधिक बार नहीं, मुझे 4-5 सेकंड के लिए वीएम की ठंड दोनों दिखाई देती है।

यह देखने के लिए वास्तव में दिलचस्पी रखें कि क्या किसी और ने भी ऐसा ही देखा है।


सर्वर दोष में आपका स्वागत है! यह एक पुराना सवाल है। यदि यह उत्तर आपको सीधे मदद नहीं करता है, तो आपको प्रश्न पूछें बटन पर क्लिक करके एक नया नया प्रश्न पूछना चाहिए ।
user9517

हां, निश्चित रूप से मैं टैग किए गए वीएलएएन का उपयोग कर रहा हूं। जैसा कि मैं हर जगह उनका उपयोग कर रहा हूं मैंने इस समस्या के संभावित स्रोत के रूप में भी नहीं सोचा था। मैं एक असंबद्ध बंदरगाह पर इसे पुन: पेश करने की कोशिश करने जा रहा हूं।
exo_cw

मैं एक असंबद्ध बंदरगाह पर भी इस समस्या को पुन: पेश कर सकता हूं, कोई भी वीएलएएन उस मेजबान पर बिल्कुल भी शामिल नहीं है।
exo_cw

मैं बस फिर से कोशिश कर रहा था और असंबद्ध बंदरगाह पर भी समस्या देख रहा था, यह थोड़ा कम अक्सर है, शायद इसीलिए मैंने इसे याद किया। चूतड़-स्टीयर के लिए क्षमा करें। मैं i7 का उपयोग करके Win7 64 बिट पर समस्या नहीं देख सकता, साथ ही ऐसा लगता है कि मैं c: ड्राइव को ब्राउज़ कर सकता हूं जबकि अन्य लिनक्स vms लटका हुआ है। मैं क्रिस्टलडिस्कमार्क के साथ कोशिश करने जा रहा हूं
निक

वास्तव में मुझे win7 x64 पर किलोमीटर के साथ आपके परिणाम देखने में दिलचस्पी होगी। यह विलंबता को मापता है लेकिन मुझे जो उच्चतम समग्र आंकड़ा मिला है वह 4k रीड टेस्ट का उपयोग करके 300ms था, न कि 4000 + एमएस
निक

2

हमें दो हफ्ते पहले भी यही समस्या थी। ESX41 U1 और Netapp FAS3170 + NFS डाटासोर्स। RHEL5 VMs 2 या 4 सेकंड के लिए लटका हुआ है और हमने वर्चुअल सेंटर परफॉर्मेंस कंसोल से बहुत अधिक स्पाइक्स देखे हैं।

मैं नेटवर्क आदमी से कॉन्फ़िगरेशन की जांच करने के लिए कहता हूं और समस्या सिस्को स्विच पर थी। हमारे पास दो ईथरनेट लिंक हैं जो कि नेटएप साइड पर एथरचैनल पर कॉन्फ़िगर किए गए थे और सिस्को की तरफ नहीं। वह सिस्को पर एक स्थिर एथेचनलाइन बनाता है और अब यह ठीक काम करता है। इस तरह की समस्या की पहचान करने के लिए, फाइलर और स्विच के बीच एक को छोड़कर सभी पोर्ट को बंद कर दें। सिर्फ एक बंदरगाह को जीवित छोड़ दें और देखें कि कैसे चीजें चल रही हैं।

दूसरी चीज जो हम करते हैं वह स्विटज और फाइलर पर फ्लो कंट्रोल को हटाने के लिए थी क्योंकि हम इसे पॉज फ्रेम भेजने के लिए संदेह करते हैं।


1

आपका DNS कैसा दिखता है? क्या आप /etc/resolv.confसही है? डिफ़ॉल्ट टाइमआउट 5 सेकंड है।

से man resolv.conf

timeout:n
                 sets the amount of time the  resolver  will  wait  for  a
                 response  from  a  remote name server before retrying the
                 query via a different name server.  Measured in  seconds,
                 the default is RES_TIMEOUT (currently 5, see <resolv.h>).

अपने को जोड़ने की कोशिश timeout:3करें /etc/resolv.confऔर फिर अपने fsync परीक्षण फिर से चलाएं।


मैंने इसे एनएफएस सर्वर (इस मामले में ओपनइंडियाना) और ईएसएक्सआई होस्ट पर जोड़ने की कोशिश की। दुर्भाग्य से इससे कोई फर्क नहीं पड़ता। मैं सर्वर और अतिथि आईपी ठीक हल कर सकते हैं।
एक्सो_cw

ऐसा लगता है कि आपने nfs स्ट्रीम से संबंधित सभी ट्रैफ़िक फ़िल्टर नहीं किए हैं, हमें और अधिक देखने की आवश्यकता हो सकती है!
टोनी रोथ

@ टट्टू रोटी: असल में उस समय पूरा ट्रैफिक होता है। मैंने परीक्षण किया कि एक अलग vSwitch पर केवल होस्ट और उस पर NFS- सर्वर के साथ।
एक्सो_cw

क्या आप DNS को वायरशार्क से डंप कर सकते हैं?
जोसेफ केर्न

@ जोसेफ केर्न: मैंने अभी-अभी कैप्चर फ़ाइलों का विश्लेषण किया है: मेरी कैप्चर के दौरान कोई DNS ट्रैफ़िक नहीं था। ईएफएक्सआई होस्ट पर एनएफएस डेटास्टोर आईपी द्वारा मैप किया जाता है। DNS ESXi और NFS सर्वर पर ठीक काम करता है, मैंने सभी शामिल आईपी के आगे और रिवर्स लुकअप का परीक्षण किया। अभी मेरे पास यह मानने का कोई कारण नहीं है कि DNS इसका कारण है।
एक्सो

1

यहाँ तिनके पर लोभी, लेकिन क्या आप इन सर्वरों में एनआईसी का उपयोग कर रहे हैं? स्टैक ओवरफ़्लो sysadmins में ब्रॉडकॉम एनआईसी के साथ अजीब नेटवर्किंग समस्याएं थीं जो इंटेल एनआईसी में स्विच होने पर चली गईं: http://blog.serverfault.com/post/broadcom-die-mutha/


अंतिम परीक्षण केवल vSwitch पर किए गए थे, इसमें कोई भौतिक नेटवर्क शामिल नहीं था (e1000 और vmxnet3: इससे कोई फर्क नहीं पड़ता)। लेकिन मैंने इस पर Intel 82574L, Intel 82576 और Intel 82567LF-3 का परीक्षण किया है, जो सभी को समस्या दिखा रहे हैं। मुझे अभी तक कोई हार्डवेयर नहीं मिला जहां मैं इसे पुन: पेश नहीं कर सकता।
9_11' एक्सो

1

यहाँ एक और अनुमान है ... क्या आपका IPv6 EXS होस्ट पर सक्षम है? यदि हाँ, तो इसे बंद करने का प्रयास करें? मेरे अनुभव से अगर आपका पूरा नेटवर्क IPv6 (यानी RADV, DHCP6, DNS, रिवर्स DNS) के लिए ठीक से कॉन्फ़िगर नहीं है, तो यह कुछ सेवाओं के लिए समस्या हो सकती है। यह भी सुनिश्चित करें कि यह NFS सर्वर पर बंद है।


IPX6 ESXi होस्ट पर पहले से ही अक्षम था। मैंने NFS सर्वर पर IPv6 को अक्षम कर दिया है (ifconfig -a6 अभी खाली है), लेकिन इससे कोई फर्क नहीं पड़ता: यह समान समस्याओं को दर्शाता है।
एक्सो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.