लिनक्स उबंटू पर एवीग अजीबता लोड करें


9

पिछले कुछ दिनों में मैं उस विचित्रता को समझने की कोशिश कर रहा हूं जो हमारे बुनियादी ढांचे में हो रही है, लेकिन मैं इसे समझ नहीं पाया हूं, इसलिए मैं आप लोगों को कुछ संकेत दे रहा हूं।

मैं ग्रेफाइट में देख रहा हूँ, load_av में spikes जो लगभग हर 2 घंटे में घातक नियमितता के साथ हो रहा है - यह बिल्कुल 2 घंटे नहीं है, लेकिन यह बहुत नियमित है। मैं इसका एक स्क्रीनशॉट संलग्न कर रहा हूं जिसे मैंने ग्रेफाइट से लिया है

लोड Averag - विस्तार करने के लिए क्लिक करें

मैं इसकी जांच करने में अटक गया हूं - इस की नियमितता मुझे यह सोचने के लिए प्रेरित कर रही थी कि यह किसी तरह का क्रॉन जॉब है या ऐसा कुछ है, लेकिन इन सर्वरों पर कोई क्रोनॉजर नहीं चल रहा है - वास्तव में ये आरएसीस्पेस क्लाउड में चल रहे वीएम हैं। मैं जिस चीज की तलाश कर रहा हूं, वह इन मुद्दों के कारण हो सकता है और इस बारे में आगे कैसे जांच की जाए।

सर्वर काफी निष्क्रिय हैं - यह एक मंचन का वातावरण है इसलिए वहाँ लगभग यातायात नहीं आ रहा है / उन पर कोई भार नहीं होना चाहिए। ये सभी 4 वर्चुअल कोर VMs हैं। मुझे क्या पता है कि हम हर 10 सेकंड के बारे में ग्रेफाइट के नमूनों का एक गुच्छा ले रहे हैं, लेकिन अगर यह लोड का कारण है, तो मैं इसे अलग-अलग सर्वरों में तरंगों में हर 2 घंटे होने के बजाय लगातार उच्च होने की उम्मीद करूंगा।

किसी भी मदद कैसे यह जांच करने के लिए बहुत सराहना की जाएगी!


App01 के लिए सर से कुछ डेटा यहां दिए गए हैं - जो ऊपर दिए गए चित्र पर पहला ब्लू स्पाइक है - मैं डेटा से कोई निष्कर्ष निकालने में सक्षम नहीं था। यह भी नहीं है कि बाइट्स स्पाइक लिखते हैं जिसे आप हर आधे घंटे में देख रहे हैं (हर 2 घंटे में नहीं) हर 30 मिनट में शेफ-क्लाइंट के चलने के कारण होता है। मैं पहले से ही किया है, लेकिन अधिक डेटा इकट्ठा करने की कोशिश करेंगे, लेकिन वास्तव में उन लोगों से कोई निष्कर्ष नहीं निकाल सकता है।

भार

09:55:01 PM   runq-sz  plist-sz   ldavg-1   ldavg-5  ldavg-15   blocked
10:05:01 PM         0       125      1.28      1.26      0.86         0
10:15:01 PM         0       125      0.71      1.08      0.98         0
10:25:01 PM         0       125      4.10      3.59      2.23         0
10:35:01 PM         0       125      0.43      0.94      1.46         3
10:45:01 PM         0       125      0.25      0.45      0.96         0
10:55:01 PM         0       125      0.15      0.27      0.63         0
11:05:01 PM         0       125      0.48      0.33      0.47         0
11:15:01 PM         0       125      0.07      0.28      0.40         0
11:25:01 PM         0       125      0.46      0.32      0.34         0
11:35:01 PM         2       130      0.38      0.47      0.42         0
11:45:01 PM         2       131      0.29      0.40      0.38         0
11:55:01 PM         2       131      0.47      0.53      0.46         0
11:59:01 PM         2       131      0.66      0.70      0.55         0
12:00:01 AM         2       131      0.81      0.74      0.57         0

सी पी यू

09:55:01 PM     CPU     %user     %nice   %system   %iowait    %steal     %idle
10:05:01 PM     all      5.68      0.00      3.07      0.04      0.11     91.10
10:15:01 PM     all      5.01      0.00      1.70      0.01      0.07     93.21
10:25:01 PM     all      5.06      0.00      1.74      0.02      0.08     93.11
10:35:01 PM     all      5.74      0.00      2.95      0.06      0.13     91.12
10:45:01 PM     all      5.05      0.00      1.76      0.02      0.06     93.10
10:55:01 PM     all      5.02      0.00      1.73      0.02      0.09     93.13
11:05:01 PM     all      5.52      0.00      2.74      0.05      0.08     91.61
11:15:01 PM     all      4.98      0.00      1.76      0.01      0.08     93.17
11:25:01 PM     all      4.99      0.00      1.75      0.01      0.06     93.19
11:35:01 PM     all      5.45      0.00      2.70      0.04      0.05     91.76
11:45:01 PM     all      5.00      0.00      1.71      0.01      0.05     93.23
11:55:01 PM     all      5.02      0.00      1.72      0.01      0.06     93.19
11:59:01 PM     all      5.03      0.00      1.74      0.01      0.06     93.16
12:00:01 AM     all      4.91      0.00      1.68      0.01      0.08     93.33

आईओ

09:55:01 PM       tps      rtps      wtps   bread/s   bwrtn/s
10:05:01 PM      8.88      0.15      8.72      1.21    422.38
10:15:01 PM      1.49      0.00      1.49      0.00     28.48
10:25:01 PM      1.54      0.00      1.54      0.03     29.61
10:35:01 PM      8.35      0.04      8.31      0.32    411.71
10:45:01 PM      1.58      0.00      1.58      0.00     30.04
10:55:01 PM      1.52      0.00      1.52      0.00     28.36
11:05:01 PM      8.32      0.01      8.31      0.08    410.30
11:15:01 PM      1.54      0.01      1.52      0.43     29.07
11:25:01 PM      1.47      0.00      1.47      0.00     28.39
11:35:01 PM      8.28      0.00      8.28      0.00    410.97
11:45:01 PM      1.49      0.00      1.49      0.00     28.35
11:55:01 PM      1.46      0.00      1.46      0.00     27.93
11:59:01 PM      1.35      0.00      1.35      0.00     26.83
12:00:01 AM      1.60      0.00      1.60      0.00     29.87

नेटवर्क:

10:25:01 PM     IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s
10:35:01 PM        lo      8.36      8.36      2.18      2.18      0.00      0.00      0.00
10:35:01 PM      eth1      7.07      4.77      5.24      2.42      0.00      0.00      0.00
10:35:01 PM      eth0      2.30      1.99      0.24      0.51      0.00      0.00      0.00
10:45:01 PM        lo      8.35      8.35      2.18      2.18      0.00      0.00      0.00
10:45:01 PM      eth1      3.69      3.45      0.65      2.22      0.00      0.00      0.00
10:45:01 PM      eth0      1.50      1.33      0.15      0.36      0.00      0.00      0.00
10:55:01 PM        lo      8.36      8.36      2.18      2.18      0.00      0.00      0.00
10:55:01 PM      eth1      3.66      3.40      0.64      2.19      0.00      0.00      0.00
10:55:01 PM      eth0      0.79      0.87      0.08      0.29      0.00      0.00      0.00
11:05:01 PM        lo      8.36      8.36      2.18      2.18      0.00      0.00      0.00
11:05:01 PM      eth1      7.29      4.73      5.25      2.41      0.00      0.00      0.00
11:05:01 PM      eth0      0.82      0.89      0.09      0.29      0.00      0.00      0.00
11:15:01 PM        lo      8.34      8.34      2.18      2.18      0.00      0.00      0.00
11:15:01 PM      eth1      3.67      3.30      0.64      2.19      0.00      0.00      0.00
11:15:01 PM      eth0      1.27      1.21      0.11      0.34      0.00      0.00      0.00
11:25:01 PM        lo      8.32      8.32      2.18      2.18      0.00      0.00      0.00
11:25:01 PM      eth1      3.43      3.35      0.63      2.20      0.00      0.00      0.00
11:25:01 PM      eth0      1.13      1.09      0.10      0.32      0.00      0.00      0.00
11:35:01 PM        lo      8.36      8.36      2.18      2.18      0.00      0.00      0.00
11:35:01 PM      eth1      7.16      4.68      5.25      2.40      0.00      0.00      0.00
11:35:01 PM      eth0      1.15      1.12      0.11      0.32      0.00      0.00      0.00
11:45:01 PM        lo      8.37      8.37      2.18      2.18      0.00      0.00      0.00
11:45:01 PM      eth1      3.71      3.51      0.65      2.20      0.00      0.00      0.00
11:45:01 PM      eth0      0.75      0.86      0.08      0.29      0.00      0.00      0.00
11:55:01 PM        lo      8.30      8.30      2.18      2.18      0.00      0.00      0.00
11:55:01 PM      eth1      3.65      3.37      0.64      2.20      0.00      0.00      0.00
11:55:01 PM      eth0      0.74      0.84      0.08      0.28      0.00      0.00      0.00

लोगों के लिए cronjobs के बारे में उत्सुक। यहां सर्वर पर स्थापित सभी क्रोनॉजरों का सारांश है (मैंने app01 उठाया है लेकिन यह कुछ अन्य सर्वरों पर भी हो रहा है जो एक ही क्रोनोजर सेट अप के साथ हैं)

$ ls -ltr /etc/cron*
-rw-r--r-- 1 root root  722 Apr  2  2012 /etc/crontab

/etc/cron.monthly:
total 0

/etc/cron.hourly:
total 0

/etc/cron.weekly:
total 8
-rwxr-xr-x 1 root root 730 Dec 31  2011 apt-xapian-index
-rwxr-xr-x 1 root root 907 Mar 31  2012 man-db

/etc/cron.daily:
total 68
-rwxr-xr-x 1 root root  2417 Jul  1  2011 popularity-contest
-rwxr-xr-x 1 root root   606 Aug 17  2011 mlocate
-rwxr-xr-x 1 root root   372 Oct  4  2011 logrotate
-rwxr-xr-x 1 root root   469 Dec 16  2011 sysstat
-rwxr-xr-x 1 root root   314 Mar 30  2012 aptitude
-rwxr-xr-x 1 root root   502 Mar 31  2012 bsdmainutils
-rwxr-xr-x 1 root root  1365 Mar 31  2012 man-db
-rwxr-xr-x 1 root root  2947 Apr  2  2012 standard
-rwxr-xr-x 1 root root   249 Apr  9  2012 passwd
-rwxr-xr-x 1 root root   219 Apr 10  2012 apport
-rwxr-xr-x 1 root root   256 Apr 12  2012 dpkg
-rwxr-xr-x 1 root root   214 Apr 20  2012 update-notifier-common
-rwxr-xr-x 1 root root 15399 Apr 20  2012 apt
-rwxr-xr-x 1 root root  1154 Jun  5  2012 ntp

/etc/cron.d:
total 4
-rw-r--r-- 1 root root 395 Jan  6 18:27 sysstat
$ sudo ls -ltr /var/spool/cron/crontabs 
total 0
$

जैसा कि आप देख सकते हैं कि कोई भी क्रोनॉजिस्ट नहीं हैं। केवल दैनिक / साप्ताहिक आदि।

मैंने आँकड़ों का गुच्छा इकट्ठा कर लिया है (vmstat, mpstat, iostat) - हालाँकि, मैं बहुत कोशिश कर रहा हूँ कि मैं किसी भी लीड को नहीं देख पा रहा हूँ, जो किसी भी VM घटक के दुर्व्यवहार का सुझाव देगा ... मैं hypervisor पर संभावित समस्याओं की ओर झुकाव शुरू कर रहा हूँ। आंकड़ों पर एक नज़र रखने के लिए स्वतंत्र महसूस करें । जीआईएस सर -q आउटपुट के साथ "अपमानजनक" समय के आसपास शुरू होता है और फिर आप vm, mp और iostats देख सकते हैं ...।

मूल रूप से यह अभी भी मेरे लिए कुल रहस्य है ...


क्या आपके पास कोई और इंटरेक्टिव डेटा है जिसे आप आगे की जांच करने के लिए साझा कर सकते हैं (यानी, आवर्ती लोड स्पाइक्स के दौरान 'टॉप', 'htop' और 'iotop' डिस्प्ले) क्या होगा? यह देखने के लिए कि क्या वे किसी भी अजीब व्यवहार का प्रदर्शन कर रहे हैं, यह देखने के लिए कि क्या समय में आपके आवेदन के लॉग की जाँच की गई है? इसके अतिरिक्त, क्या आपके पास सार्वजनिक क्लाउड बुनियादी ढांचे पर होस्ट किए गए समान कॉन्फ़िगरेशन वाले कोई होस्ट नहीं हैं, और यदि हां, तो क्या वे समान व्यवहार प्रदर्शित कर रहे हैं?
एस्क्वायरोफ़ोज़

एप्लिकेशन लॉग के संदर्भ में - कुछ भी नहीं हो रहा है। इसमें शामिल केवल लॉग एंट्रीज़ हैं जो मॉनिटरिंग से चेक हैं जो हर मिनट हो रहे हैं - मूल रूप से मॉनिटरिंग सिस्टम मुख्य साइट को हिट करता है और परिणाम कोड की रिपोर्ट करता है - इसके अलावा लॉग पूरी तरह से खाली हैं। जैसा कि आप देख सकते हैं कि ऊपर कई प्रकार के मेजबान हैं - यह उन सभी (रेडिस, ऐप सर्वर, शेफ सर्वर आदि) पर हो रहा है
मिलोसगजोस

क्या आपने इसे संकीर्ण करने के लिए psacct का उपयोग करने की कोशिश की है ?
HTTP500

आप नियमितता ग्रहण करते हैं, लेकिन जो डेटा आप दिखाते हैं, वह नियमित रूप से होने वाले स्पाइक्स नहीं दिखाता है। कृपया अधिक विशिष्ट हो, क्योंकि यह नियमितता दिखा रहा है (शायद कई दिनों में) चित्र पर, कोई नियमितता नहीं है।) प्रत्येक 1mn या तो एक "टॉप-एन 1" चलाएं और उन्हें एक फ़ाइल में रखें, और यह देखने में मदद कर सकता है कि एक ही समय में स्पाइक होने पर सीपीयू के लिए कौन सी अन्य प्रक्रियाएं प्रतिस्पर्धा कर रही हैं। यदि App1 एक इंटरनेट का सामना करने वाला ऐप है, तो हो सकता है कि यह किसी के पास पहुंच रहा हो और उस व्यवहार को मजबूर कर रहा हो? एक नियमित "netstat -an" लॉगिंग भी जोड़ें (हर मिनट?)
ओलिवियर दुलाक

क्या आपने संलग्न स्क्रीनशॉट देखा? अगर वह नियमितता नहीं दिखाता है तो मुझे नहीं पता कि क्या होता है। मैंने अब सर के लिए नमूना अवधि बढ़ा दी है इसलिए मैं हर 5 मिनट में नमूना ले रहा हूं। तस्वीर पर नियमितता स्पष्ट से अधिक है - यह हर दो घंटे में हो रहा है। यह सब पर कोई यातायात के साथ एक मंचन वातावरण है - जैसा कि आप निश्चित रूप से नेटवर्क आँकड़ों के लिए उपरोक्त सर आउटपुट से देख सकते हैं।
मिलोसगजदोस

जवाबों:


3

दिलचस्प।

सबसे पहले, आप सर लॉगिंग की आवृत्ति बढ़ा सकते हैं। 10 मिनट के बजाय, हर मिनट को लॉग इन करने का प्रयास करें। Sysstat क्रोनजॉब विन्यास योग्य है।

इसके बाद, निम्नलिखित कमांड को स्क्रिप्ट करने का प्रयास करें।

ps auxf > /tmp/ps.out
vmstat 1 50 > /tmp/vm.out
mpstat -P ALL 1 50 > /tmp/mp.out
iostat -xdk 1 50 > /tmp/io.out
cat /proc/meminfo > /tmp/meminfo.out

लोड औसत बढ़ने पर या क्रोन के माध्यम से डेटा के इस सेट को या तो हर पुनरावृत्ति पर इकट्ठा करें। कम से कम एक पूर्ण कार्य दिवस का डेटा होना अच्छा होगा।

अब, मैं समझता हूं कि सर्वर निष्क्रिय हैं लेकिन फिर भी कुछ एप्लिकेशन चल रहे होंगे। वे क्या हैं?

क्या यह संभव है कि आप कुछ प्रोफाइलिंग टूल चला सकते हैं, जैसे कि perf या oprofile।

क्या किसी सर्वर हार्डवेयर घटक को बदला जा रहा है? यहां तक ​​कि एक फर्मवेयर अपग्रेड या सॉफ्टवेयर अपग्रेड के रूप में सहज रूप में कुछ।

अरे, एक सवाल। शेड्यूलर क्या आप चला रहे हैं। मेरा मानना ​​है कि यह cfq है, कोई भी मौका जिसे आप इसे नोप् में बदल सकते हैं। elevator=noopकर्नेल कमांड लाइन पैरामीटर में डालें और सिस्टम को रिबूट करें और देखें कि क्या यह इसमें सुधार करता है।


मैंने अनुसूचक के बारे में एक छोटा सा संपादन जोड़ा। कृपया परिणाम देखें।
सोहम चक्रवर्ती

1

शीर्ष प्रक्रियाओं को लॉग करें

चूंकि घटना बहुत नियमित है, इसलिए उस अवधि के दौरान शीर्ष प्रक्रियाओं पर नजर रखने के लिए सेटअप क्रोन का काम

#app01
20-59 0/2 * * * root /usr/bin/top -b -n 1 | /usr/bin/head -n 15 >> /var/log/top.log

हर घंटे नंबर के लिए पूरे घंटे में लॉग इन 20-59करने के लिए बदलें *। क्रोन जॉब या तो मामले में प्रति मिनट एक बार चलेगी।

आप रोटेशन को लॉग करने के लिए top.log फ़ाइल जोड़ना चाहते हैं, तो इसे निष्क्रिय करने की स्थिति में यह सभी स्थान नहीं लेगा।

लॉग फ़ाइल की जाँच करें

उच्च लोड अवधि में लॉग फ़ाइल प्रविष्टियों को खोजें

उदाहरण के रूप में निम्नलिखित लोड प्रविष्टि लें

10:25:01 PM         0       125      4.10      3.59      2.23         0

करना

grep ' 22:2' /var/log/*
grep ' 22:2' /var/log/apache2/*

वह सभी लॉग प्रविष्टियों को दिखाएगा 22:2x:xx। अन्य लॉग निर्देशिकाओं को शामिल करना पड़ सकता है।

Sun Jan 6 21:00:07 2013: xvda w_await स्पाइक

xvda चार्ट - w_await स्पाइक Sun Jan 6 21:00:07 2013 पर है यहां छवि विवरण दर्ज करें


0

एक बात मैं निश्चित रूप से जाँच करेगा:

  • उसी पैटर्न के लिए vSphere रेखांकन, हो सकता है कि एक ही होस्ट पर दूसरा VM CPU खा रहा हो (इस प्रकार आपके VM पर लोड बढ़ता है क्योंकि CPU के कम समय के लिए उपलब्ध होने के कारण निरंतर प्रवाह के साथ डेटा की समान मात्रा को संसाधित करने में अधिक समय लगता है। आपका VM)।

संपादित करें: यह पहली बार नहीं मिला :) आप रैकस्पेस पर चल रहे हैं, इसलिए हाइपरविजर पर कोई नियंत्रण नहीं है, फिर भी रैकस्पेस से पूछने के लिए लायक हो सकता है यदि वे जांच कर सकें कि क्या यह पैटर्न समान होस्ट पर अन्य वीएम पर सामान्य है ।


1
मुझे उस पर भी संदेह है - यह पहली बार नहीं होगा जब रैकस्पेस क्लाउड किसी तरह का पागलपन पैदा करेगा। मुझे संदेह है कि वे अपने किसी भी हाइपरवाइज़र सर्वर की निगरानी करते हैं - मेरा मतलब वीएम को दुर्व्यवहार करने के मामले में है, हालांकि मैं अंतिम उपाय - रैकस्पेस समर्थन पर जाने से पहले किसी भी "आंतरिक" संभावनाओं को नियंत्रित करना चाहता हूं।
मिलोसगजदोस

क्या हाइपरवाइज़र का प्रदर्शन VM के स्व-स्पष्ट लोड-औसत को प्रभावित करेगा? इससे मुझे लगता है कि लोड औसत की गणना कैसे की जाती है। यह संभवतः हरे / बिजली-बचत की सुविधा का कुछ प्रभाव हो सकता है जो समय-समय पर काम को कम करने के लिए ओएस के बिना कम कोर के आसपास स्थानांतरित कर सकता है? या उदाहरण के लिए पर्यावरणीय आदानों के आधार पर गतिशील रूप से बदलती घड़ी दर के बारे में कैसे?
trp

लोड औसत की गणना शेड्यूलिंग एल्गोरिदम द्वारा की जाती है, सरल शब्दों में, यदि आपके प्रोसेसिंग कतार में 100 कार्य हैं और हाइपरवाइजर 100 कार्य प्रति 1 सेकंड में निष्पादित करने में 100% कुशल है, तो आपको 100 कार्य निष्पादित करने के लिए 10 सेकंड की आवश्यकता होती है, यदि आपका हाइपरविजर केवल 50% कुशल है (शायद सीपीयू ओवरप्रोविजनिंग), कार्यों की समान मात्रा को निष्पादित करने में 20 सेकंड लगेंगे, इस प्रकार लोड में वृद्धि होगी। संपूर्ण विवरण: blog.scoutapp.com/articles/2009/07/31/…
Martino Dino
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.