मेरी मूल धारणा यह है कि जब एक प्रक्रिया 'केवल सीमित कारक डिस्क और सीपीयू हैं, तो कुल सिस्टम "इओविट" + सीपीयू का उपयोग एक तार्किक सीपीयू के कम से कम 100% के बराबर होना चाहिए। (अन्य मामलों में यह होल्ड नहीं होगा। उदाहरण के लिए wget, किसी फ़ाइल का उपयोग करते समय , नेटवर्क अक्सर सीमित कारक होता है)।

इस धारणा का उल्लंघन एक साधारण परीक्षण द्वारा किया जाता है। क्या यह अपेक्षित है? यदि यह अपेक्षित है, तो क्या ऐसी परिस्थितियों का एक सेट है जहां मुझे अपनी धारणा को सच रखने की उम्मीद करनी चाहिए ?

यहाँ "iowait" के बारे में कुछ पृष्ठभूमि है: सीपीयू कैसे जानता है कि आईओ लंबित है? यहां जवाब काउंटर-सहज ज्ञान युक्त विचार को उद्धृत करता है, कि संचयी आयोवाइट "कुछ स्थितियों में घट सकता है"। मुझे आश्चर्य है कि क्या मेरा सरल परीक्षण ऐसी अनिर्धारित स्थिति को ट्रिगर कर सकता है?

अद्यतन : कृपया उत्तर पर जाएं ।

उत्तर में मूल रूप से मेरे द्वारा उपयोग किए जाने की तुलना में एक सरल परीक्षण है। मैंने नीचे मूल प्रश्न को संरक्षित किया है। मूल प्रश्न कुछ अतिरिक्त विवरण दिखा सकता है।

मूल प्रश्न

एक छोटे परीक्षण में, मैं ddकर्नेल को यादृच्छिक बाइट्स बनाने के लिए अनुरोध करता हूं , और उन्हें एक फाइल पर लिखता हूं। मैं ddकमांड को अंदर चलाता हूं perf stat, बस कर्नेल के अंदर बिताए गए सीपीयू समय की एक गिनती प्राप्त करने के लिए। मैं इसे अंदर भी चलाता हूं perf trace -s, ताकि अंदर बिताए गए समय की रिपोर्ट कर सकूं write()। उसी समय, मैं vmstat 5एक और टर्मिनल में चलाता हूं , सिस्टम "इओविट" को देखने के लिए।

मुझे उम्मीद थी कि मैं कम से कम एक पूरे सीपीयू को "नॉन-आइडल" के रूप में देखूंगा, यानी 100% यह या तो चल रहा है, या रुका हुआ है लेकिन IO ("iowait") की प्रतीक्षा कर रहा है। यह नहीं था।
(इसके अलावा, मैं "आयोवाइट" समय को लिखने में बिताए समय से मिलान करने की उम्मीद कर रहा था ()। लेकिन ऐसा करने के लिए प्रकट नहीं हुआ।)

विस्तृत परिणाम और परीक्षण वातावरण नीचे दिखाया गया है। यह भी दिखाया गया कि एक वैकल्पिक परीक्षा है, जहां मेरी धारणा ने पकड़ बनाई। नोट: यह perf statअंदर चलाने के लिए आवश्यक था perf trace, अन्य तरीके से नहीं। यह यहां विस्तृत है: क्या "परफेक्ट ट्रेस" (और "समय"!) "पूर्ण ट्रेस - एस" चलाते समय गलत परिणाम दिखाता है?

"Iowait" पर पृष्ठभूमि की जानकारी

निम्नलिखित sarमैनपेज से ली गई परिभाषा है :

% Iowait:

उस समय का प्रतिशत जो सीपीयू या सीपीयू निष्क्रिय थे जिसके दौरान सिस्टम में एक बकाया डिस्क I / O अनुरोध था।

इसलिए,% iowait का अर्थ है कि सीपीयू के दृष्टिकोण से, कोई भी कार्य चलाने योग्य नहीं थे, लेकिन कम से कम एक I / O प्रगति पर था। आयोवाइट केवल निष्क्रिय समय का एक रूप है जब कुछ भी निर्धारित नहीं किया जा सकता है। मान प्रदर्शन समस्या को इंगित करने में उपयोगी हो सकता है या नहीं भी हो सकता है, लेकिन यह उपयोगकर्ता को बताता है कि सिस्टम निष्क्रिय है और अधिक काम कर सकता है।

https://support.hpe.com/hpsc/doc/public/display?docId=c02783994

एक लंबा लेख भी है: I / O प्रतीक्षा को समझना (या 0% Idle ठीक क्यों हो सकता है) । यह बताता है कि आप कर्नेल कोड से परिभाषा को कैसे स्पष्ट रूप से देख सकते हैं। कोड कुछ हद तक बदल गया है, लेकिन विचार अभी भी स्पष्ट है:

/*
 * Account for idle time.
 * @cputime: the CPU time spent in idle wait
 */
void account_idle_time(u64 cputime)
{
    u64 *cpustat = kcpustat_this_cpu->cpustat;
    struct rq *rq = this_rq();

    if (atomic_read(&rq->nr_iowait) > 0)
        cpustat[CPUTIME_IOWAIT] += cputime;
    else
        cpustat[CPUTIME_IDLE] += cputime;
}

लेख एकल-सीपीयू प्रणाली पर कई संबंधित प्रयोगों को भी दिखाता है। कुछ प्रयोगों के ddसाथ भी उपयोग करें if=/dev/urandom ! हालाँकि प्रयोगों में मेरा परीक्षण शामिल नहीं है dd if=/dev/urandom of=test.out । यह केवल उपयोग करता है dd if=/dev/urandom of=/dev/null ।

"आईओ वेट" अब सोचने के लिए थोड़ा और मुश्किल है क्योंकि हम मल्टी-सीपीयू सिस्टम का उपयोग करते हैं, लेकिन मुझे लगता है कि मैं अभी भी इसे समझा हूं, उद्धृत कोड के आधार पर।

वातावरण

मेरे पास चार तार्किक सीपीयू हैं।

मैं LVM और ext4 फाइल सिस्टम का उपयोग करता हूं। मैं अपनी डिस्क या फ़ाइल सिस्टम पर किसी भी एन्क्रिप्शन का उपयोग नहीं कर रहा हूं। मेरे पास कोई नेटवर्क फाइल सिस्टम नहीं है, इसलिए मैं नेटवर्क फाइल सिस्टम पढ़ या लिख नहीं रहा हूं।

नीचे दिए गए परिणाम कर्नेल से हैं 4.20.15-200.fc29.x86_64, noopIO अनुसूचक का उपयोग करते हुए । cfqआईओ शेड्यूलर भी इसी तरह के परिणाम देता है।

(मैंने कर्नेल बिल्ड पर समान परिणाम भी देखे हैं जो एक समान कॉन्फ़िगरेशन पर आधारित था, लेकिन कर्नेल संस्करण के करीब था, और उपयोग कर रहा था mq-deadline। इसलिए वह नए blk-mqकोड का उपयोग कर रहा था )।

परीक्षण और परिणाम

$ sudo perf trace -s \
       perf stat \
       dd if=/dev/urandom of=test.out bs=1M oflag=direct count=3000

3000+0 records in
3000+0 records out
3145728000 bytes (3.1 GB, 2.9 GiB) copied, 31.397 s, 100 MB/s

 Performance counter stats for 'dd if=/dev/urandom of=test.out bs=1M oflag=direct count=3000':

         18,014.26 msec task-clock                #    0.574 CPUs utilized          
             3,199      context-switches          #    0.178 K/sec                  
                 4      cpu-migrations            #    0.000 K/sec                  
               328      page-faults               #    0.018 K/sec                  
    45,232,163,658      cycles                    #    2.511 GHz                    
    74,538,278,379      instructions              #    1.65  insn per cycle         
     4,372,725,344      branches                  #  242.737 M/sec                  
         4,650,429      branch-misses             #    0.11% of all branches        

      31.398466725 seconds time elapsed

       0.006966000 seconds user
      17.910332000 seconds sys

 Summary of events:
...
 dd (4620), 12156 events, 12.0%

   syscall            calls    total       min       avg       max      stddev
                               (msec)    (msec)    (msec)    (msec)        (%)
   --------------- -------- --------- --------- --------- ---------     ------
   read                3007 17624.985     0.002     5.861    12.345      0.21%
   write               3003 13722.837     0.004     4.570   179.928      2.63%
   openat                12     0.371     0.002     0.031     0.267     70.36%
...

iowaitके waकॉलम से मैंने आंकड़ा पढ़ा vmstat। आप यह बता सकते हैं कि परीक्षण कब ioकॉलम ( bo= 1K ब्लॉक आउटपुट) को देखकर चल रहा है ।

$ vmstat 5
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 0  0      0 5126892 176512 1486060   0   0  1788  4072  321  414  4  4 83  9  0
 1  0      0 5126632 176520 1485988   0   0     0     7  212  405  0  1 99  0  0
 0  0      0 5126884 176520 1485988   0   0     0     0  130  283  0  0 99  0  0
 0  0      0 5126948 176520 1485908   0   0     0     1  157  325  0  0 99  0  0
 0  0      0 5126412 176520 1486412   0   0   115     0  141  284  0  0 99  0  0
 0  2      0 5115724 176548 1487056   0   0     0  6019 18737 10733  3  6 89  2  0
 1  0      0 5115708 176580 1487104   0   0     3 91840 1276  990  0 13 77  9  0
 1  0      0 5115204 176600 1487128   0   0     2 91382 1382 1014  0 14 81  4  0
 1  0      0 5115268 176636 1487084   0   0     4 88281 1257  901  0 14 83  3  0
 0  1      0 5113504 177028 1487764   0   0    77 92596 1374 1111  0 15 83  2  0
 1  0      0 5114008 177036 1487768   0   0     0 113282 1460 1060  0 16 81  2  0
 1  0      0 5113472 177044 1487792   0   0     0 110821 1489 1118  0 16 74 10  0
 0  0      0 5123852 177068 1487896   0   0     0 20537  631  714  1  3 94  2  0
 0  0      0 5123852 177076 1487856   0   0     0    10  324  529  2  1 98  0  0
 2  0      0 5123852 177084 1487872   0   0     0    70  150  299  0  0 99  0  0

परीक्षा परिणाम जहां यह पकड़ (एक वीएम के अंदर)

मैंने 1 सीपीयू के साथ एक वीएम के अंदर एक ही परीक्षण की कोशिश की, जो कर्नेल चला रहा था 5.0.9-301.fc30.x86_64और mq-deadline(और इसलिए ब्लेक-एमके)। इस परीक्षण में, यह काम करता है कि मैंने उससे कैसे उम्मीद की।

$ sudo perf trace -s \
       perf stat \
       dd if=/dev/urandom of=test.out bs=1M oflag=direct count=3000
[sudo] password for alan-sysop:
3000+0 records in
3000+0 records out
3145728000 bytes (3.1 GB, 2.9 GiB) copied, 46.8071 s, 67.2 MB/s

 Performance counter stats for 'dd if=/dev/urandom of=test.out bs=1M oflag=direct count=3000':

         18,734.89 msec task-clock                #    0.400 CPUs utilized
            16,690      context-switches          #    0.891 K/sec
                 0      cpu-migrations            #    0.000 K/sec
               328      page-faults               #    0.018 K/sec
   <not supported>      cycles
   <not supported>      instructions
   <not supported>      branches
   <not supported>      branch-misses

      46.820355993 seconds time elapsed

       0.011840000 seconds user
      18.531449000 seconds sys


 Summary of events:
...
 dd (1492), 12156 events, 38.4%

   syscall            calls    total       min       avg       max      stddev
                               (msec)    (msec)    (msec)    (msec)        (%)
   --------------- -------- --------- --------- --------- ---------     ------
   write               3003 28269.070     0.019     9.414  5764.657     22.39%
   read                3007 18371.469     0.013     6.110    14.848      0.53%
   execve                 6    10.399     0.012     1.733    10.328     99.18%
...

का आउटपुट vmstat 5:

$ vmstat 5
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----                                                                     
 r  b  swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st                                                                     
 0  0     0 726176  52128 498508    0    0  2040   231  236  731  7  5 77 11  0                                                                     
 0  0     0 726176  52136 498508    0    0     0    10   25   46  0  0 99  1  0                                                                     
 0  0     0 726208  52136 498508    0    0     0     0   29   56  0  0 100  0  0                                                                    
 0  1     0 702280  55944 511780    0    0  2260 13109 4399 9049  3 17 55 25  0                                                                     
 0  1     0 701776  56040 511960    0    0    18 129582 1406 1458 0 73  0 27  0                                                                    
 0  2     0 701524  56156 512168    0    0    22 87060  960  991  0 50  0 50  0                                                                     
 3  1     0 701524  56228 512328    0    0    14 118170 1301 1322 0 68  0 32  0                                                                    
 1  1     0 701272  56260 512392    0    0     6 86426  994  982  0 53  0 46  0                                                                     
 0  2     0 701020  56292 512456    0    0     6 56115  683  660  0 37  0 63  0                                                                     
 3  2     0 700540  56316 512504    0    0     5 33450  446  457  0 26  0 74  0                                                                     
 0  2     0 700860  56332 512536    0    0     3 16998  311  240  0 19  0 81  0                                                                     
 1  2     0 700668  56368 512616    0    0     7 32563  443  428  0 24  0 76  0                                                                     
 1  0     0 700668  56392 512648    0    0     3 20338  245  272  0 12  0 88  0                                                                   
 0  1     0 707096  56408 512920    0    0    54 20913  312  530  0 12 79  8  0                                                                     
 0  0     0 707064  56432 512920    0    0     0    49   39   64  0  0 45 55  0                                                                     
 0  0     0 707064  56432 512920    0    0     0     0   24   46  0  0 100  0  0                                                                    
 0  0     0 707064  56432 512920    0    0     0    80   28   47  0  0 100  0  0

मैंने वीएम को सीपीयू को फिर से जोड़ने और फिर से परीक्षण करने की कोशिश की। परिणाम परिवर्तनशील थे: कभी-कभी यह निष्क्रिय कॉलम में लगभग 0% दिखाता था, और कभी-कभी यह लगभग 50% निष्क्रिय (यानी दो सीपीयू में से एक) दिखाता था। 0% "निष्क्रिय" के मामले में, "आयोवाइट" बहुत अधिक था अर्थात एक से अधिक सीपीयू। यानी मेरी उम्मीद बिंदु 2 सही नहीं थी। मैं बहु-सीपीयू सिस्टम पर "इवोहित" के इस स्पष्ट सीमा को स्वीकार कर सकता हूं । (हालांकि मैं इसे काफी नहीं समझता हूं। अगर कोई इसे वास्तव में समझाना चाहता है, तो यह बहुत अच्छा होगा)। हालांकि, "निष्क्रिय" या तो मामले में 50% से ऊपर नहीं था, इसलिए ये परीक्षण अभी भी "इवाइट" के बारे में मेरी पहली धारणा के अनुरूप थे।

मैंने VM को बंद करने की कोशिश की और इसे 4 सीपीयू के साथ शुरू किया। इसी तरह, अक्सर मेरे पास 75% बेकार था, और कभी-कभी मेरे पास 50% बेकार था, लेकिन मैंने 75% से अधिक निष्क्रिय नहीं देखा (यानी चार सीपीयू में से तीन से अधिक)।

जबकि 4 सीपीयू के साथ शारीरिक प्रणाली पर, मैं अभी भी ऊपर दिखाए गए अनुसार 80% से अधिक निष्क्रिय के परिणाम को पुन: उत्पन्न कर सकता हूं।

linux

— sourcejedi
स्रोत

क्या आप अपनी दोनों उम्मीदों को थोड़ा कम करने का मन बना लेंगे। क्या आप यह जोड़ सकते हैं कि वास्तविक मूल्य आपकी अपेक्षा से अधिक या कम था। मैं समझता हूं कि यह कच्चे आंकड़ों में है, यह थोड़ा अधिक पठनीय होगा। मैं थोड़ा स्पष्ट नहीं हूं कि आप 1 सीपीयू (100%) की उम्मीद क्यों करते हैं। आपके एक लिंक और आपके द्वारा उद्धृत कर्नेल कोड के आधार पर , एक एकल IO ऑपरेशन सभी IDLE समय को IOWAIT समय (सभी 4 कोर - 400%) पर स्विच करेगा।

— फिलिप कपलिंग

@PhilipCouling "मुझे उम्मीद है कि मैं कम से कम एक पूरे सीपीयू को" नॉन-आइडल "के रूप में देखूंगा ... यह नहीं था"। आइडल समय अपेक्षा से अधिक था, जो मुझे लगता है कि मैं उम्मीद से कम होने के लिए iowait समय पर दोष लगाता हूं। कर्नेल कोड में, मुझे लगता this_rq()->nr_iowaitहै कि उन कार्यों की संख्या है जो io_schedule() केवल वर्तमान सीपीयू पर उपयोग करने की प्रतीक्षा कर रहे हैं । क्या मै गलत हु?

— sourcejedi

मैं बिल्कुल भी निश्चित नहीं हूं, लेकिन अगर यह है तो मुझे आश्चर्य होता है। यह आश्चर्य स्टीफन किट के जवाब से मेल खाता है जहां वह कहते हैं, " iowaitसामान्य रूप से I / O के इंतजार में बिताए समय को मापने की कोशिश करता है। यह एक विशिष्ट सीपीयू द्वारा ट्रैक नहीं किया जाता है, और न ही यह हो सकता है" । मुझे तनाव होने दो, मुझे इस पर कुछ भी आश्चर्य नहीं है, बस आश्चर्य व्यक्त करना है।

— फिलिप कपलिंग

@PhilipCouling अगर आप चलाते हैं atop, या atopsar -c 5, आप प्रति-सीपीयू उपयोग के आंकड़े देखेंगे। उनमें आयोवाइट शामिल है, और प्रति-सीपीयू आयविट आंकड़े अलग, गैर-शून्य मान दिखा सकते हैं :-)। या sar -P ALL 1, यदि आप उपयोग नहीं करते हैं atop। यह वह तरीका है जो iowaitमल्टी-सीपीयू सिस्टम के लिए मॉडल को बढ़ाया गया है ... मैं इस पर अस्पष्ट हूं कि क्या यह मॉडल वास्तव में प्रयोग करने योग्य है, या क्या यह एक ऐसा तरीका है, जो केवल एक सीपीयू होने पर आयोवाट कोड काम करना जारी रखता है ऑनलाइन, लेकिन यह अन्यथा भरोसेमंद नहीं है।

— sourcejedi

सामग्री नोटिस : इस पोस्ट में विभिन्न लिनक्स चर्चा और कोड के लिंक शामिल हैं। कुछ लिंक की गई सामग्री StackExchange या Linux के लिए वर्तमान आचार संहिता को पूरा नहीं करती है । अधिकतर वे "कोड का अपमान करते हैं [लेकिन व्यक्ति का नहीं]"। हालांकि कुछ भाषा का उपयोग किया जाता है, जिसे बस दोहराया नहीं जाना चाहिए। मैं आपसे इस तरह की भाषा की नकल, तोता, या बहस से बचने के लिए कहता हूं।

पुन: आयोवाइट बनाम निष्क्रिय लेखांकन "असंगत" है - आयोवाइट बहुत कम है

05/07/2019 12:38 को, पीटर ज़िजलस्ट्रा ने लिखा:

शुक्र पर, जुलाई 05, 2019 को 12:25:46 बजे +0100, एलन जेनकिंस ने लिखा:

मेरा cpu "iowait" समय गलत रिपोर्ट किया गया प्रतीत होता है। क्या आप जानते हैं कि ऐसा क्यों हो सकता है?

क्योंकि iowait एक जादुई यादृच्छिक संख्या है जिसका कोई अर्थ नहीं है। निजी तौर पर मैं पूरी चीज़ को हटाना पसंद करूंगा, केवल ABI को छोड़कर : /

Nr_iowait () के पास की टिप्पणी भी देखें

धन्यवाद। मैं विभिन्न समस्याओं के रूप में [वर्तमान प्रलेखन में उल्लिखित समस्याएं] लेता हूं, लेकिन आपका मतलब है कि इस मुद्दे को "ठीक" करने के लिए बहुत अधिक मांग (या बिंदु) नहीं है।

मुझे मेरी समस्या का पता चला। यह पांच साल पहले ही देखा गया था, और इसे ठीक करने के लिए तुच्छ नहीं होगा।

"इवित" समय फ़ंक्शन द्वारा अद्यतन किया जाता है account_idle_time():

/*
 * Account for idle time.
 * @cputime: the CPU time spent in idle wait
 */
void account_idle_time(u64 cputime)
{
    u64 *cpustat = kcpustat_this_cpu->cpustat;
    struct rq *rq = this_rq();

    if (atomic_read(&rq->nr_iowait) > 0)
        cpustat[CPUTIME_IOWAIT] += cputime;
    else
        cpustat[CPUTIME_IDLE] += cputime;
}

जैसा कि मैंने उम्मीद की थी, यह काम करता है, यदि आप पारंपरिक टाइमर बाधा ("टिक") के साथ "नमूने" द्वारा सीपीयू समय का अनुमान लगा रहे हैं । हालाँकि, यह काम नहीं कर सकता है अगर बिजली बचाने के लिए निष्क्रिय समय के दौरान टिक बंद हो जाए - NO_HZ_IDLE। यदि आप प्रदर्शन कारणों से टिक को बंद करने की अनुमति देते हैं तो भी यह विफल हो सकता है - NO_HZ_FULL- क्योंकि इसके लिए शुरुआत की आवश्यकता होती है VIRT_CPU_ACCOUNTING। अधिकांश लिनक्स कर्नेल बिजली-बचत सुविधा का उपयोग करते हैं। कुछ एम्बेडेड सिस्टम या तो सुविधा का उपयोग नहीं करते हैं। यहाँ मेरी व्याख्या है:

जब IO पूरा हो जाता है, तो डिवाइस एक बाधा भेजता है । कर्नेल इंटरप्ट हैंडलर प्रक्रिया का उपयोग करके उठता है try_to_wake_up()। यह nr_iowaitकाउंटर से एक घटाता है :

if (p->in_iowait) {
    delayacct_blkio_end(p);
    atomic_dec(&task_rq(p)->nr_iowait);
}

यदि प्रक्रिया एक निष्क्रिय सीपीयू पर जाग जाती है, तो वह सीपीयू कॉल करता है account_idle_time()। पर जो विन्यास लागू होता है निर्भर करता है, यह कहा जाता है या तो से tick_nohz_account_idle_ticks()से __tick_nohz_idle_restart_tick(), या से vtime_task_switch()से finish_task_switch()।

इस समय तक, ->nr_iowaitपहले से ही कम हो गया है। यदि इसे शून्य तक घटा दिया जाता है, तो कोई भी iowait समय दर्ज नहीं किया जाएगा।

यह प्रभाव अलग-अलग हो सकता है: यह निर्भर करता है कि कौन सी सीपीयू प्रक्रिया पर काम किया गया है। यदि प्रक्रिया को उसी CPU पर जगाया जाता है जो IO पूरा होने में रुकावट प्राप्त करता है, तो निष्क्रिय होने से पहले निष्क्रिय समय का लेखा-जोखा किया जा सकता है ->nr_iowait। मेरे मामले में, मैंने पाया कि सीपीयू 0 अहिशी रुकावट को देखता हैwatch cat /proc/interrupts ।

मैंने एक साधारण अनुक्रमिक रीड के साथ इसका परीक्षण किया:

dd if=largefile iflag=direct bs=1M of=/dev/null

अगर मैं CPU 0 का उपयोग करते हुए कमांड को पिन करता taskset -c 0 ...हूं, तो मुझे iowait के लिए "सही" मान दिखाई देते हैं। अगर मैं इसे अलग सीपीयू में पिन करता हूं, तो मुझे बहुत कम मान दिखाई देते हैं। यदि मैं कमांड को सामान्य रूप से चलाता हूं, तो यह शेड्यूलर व्यवहार पर निर्भर करता है, जो कर्नेल संस्करणों के बीच बदल गया है। हाल की गुठली (४.१,, ५.१, ५.२-आरसी ५-ईश) में, कमांड सीपीयू ० पर समय का लगभग १/४ खर्च करने लगता है, क्योंकि "आयोवाइट" का समय उस अंश तक कम हो जाता है।

(समझाया नहीं: क्यों मेरी आभासी मशीन पर यह परीक्षण चल रहा है अब प्रत्येक (या किसी भी) सीपीयू के लिए "सही" आयोवाइट को पुन: पेश करने लगता है। मुझे संदेह है कि इसमें शामिल हो सकता है IRQ_TIME_ACCOUNTING, हालांकि इस सुविधा का उपयोग वीएम के बाहर मेरे परीक्षणों में भी किया जा रहा है।

मैंने यह भी निश्चित रूप से पुष्टि नहीं की है कि क्यों दबाने NO_HZ_IDLEपर प्रत्येक सीपीयू के लिए 4.17+ पर "सही" आयोवाइट दिया जाता है, लेकिन 4.16 या 4.15 पर नहीं।

मेरी आभासी मशीन पर इस परीक्षण को चलाने से प्रत्येक (या किसी भी) सीपीयू के लिए "सही" आयोवाइट पुन: पेश करने लगता है। इसके कारण है IRQ_TIME_ACCOUNTING। यह वीएम के बाहर परीक्षणों में भी उपयोग किया जाता है, लेकिन वीएम के अंदर परीक्षण करते समय मुझे अधिक व्यवधान होता है। विशेष रूप से, वर्चुअल CPU पर प्रति सेकंड 1000 से अधिक "फंक्शन कॉल इंटरप्ट" होते हैं जो "dd" पर चलता है।

तो आपको मेरे स्पष्टीकरण के विवरण पर बहुत अधिक भरोसा नहीं करना चाहिए :-)

यहाँ "iowait" के बारे में कुछ पृष्ठभूमि है: सीपीयू कैसे जानता है कि आईओ लंबित है? यहां जवाब काउंटर-सहज ज्ञान युक्त विचार को उद्धृत करता है, कि संचयी आयोवाइट "कुछ स्थितियों में घट सकता है"। मुझे आश्चर्य है कि क्या मेरा सरल परीक्षण ऐसी अनिर्धारित स्थिति को ट्रिगर कर सकता है?

हाँ।

जब मैंने पहली बार इसे देखा, तो मुझे "हिचकी" की बात मिली। इसके अलावा, इस समस्या को सचित्र "आयोवाइट" समय दिखा कर गैर-मोनोटोनिक दिखाया गया था। यह है कि कभी-कभी पीछे की ओर कूद गया (घटा)। यह ऊपर के टेस्ट जितना सीधा नहीं था।

हालांकि, जब उन्होंने जांच की तो उन्हें वही मौलिक समस्या मिली। क्रमशः पीटर ज़िजलस्ट्रा और हिदेतोशी सेटो द्वारा एक समाधान प्रस्तावित और प्रोटोटाइप किया गया था। समस्या को कवर संदेश में समझाया गया है:

[RFC PATCH 0/8] आयोवाइट अकाउंटिंग (2014-07-07)

मुझे इससे आगे बढ़ने का कोई सबूत नहीं मिला। एक विवरण पर एक खुला प्रश्न था। इसके अलावा, पूरी श्रृंखला ने PowerPC, S390 और IA64 CPU आर्किटेक्चर के लिए विशिष्ट कोड को छुआ। तो मैं कहता हूं कि यह ठीक करने के लिए तुच्छ नहीं है।

— sourcejedi
स्रोत

क्या आप पुष्टि कर सकते हैं या इनकार कर सकते हैं (vmstat का उपयोग करके): कर्नेल 4.15 वह करता है जो आप सक्षम या अक्षम निष्क्रिय अवस्थाओं की परवाह किए बिना करते हैं; कर्नेल 4.16 वह नहीं करता है, जिसकी आप अपेक्षा करते हैं। vmstat का उपयोग करने के लिए लगता है /proc/stat, लेकिन मैं उपयोग करता हूं /sys/devices/system/cpu/cpu*/cpuidle/state*/usage, और मेरे ज्ञान का सबसे अच्छा हमेशा सटीक रहा है (+ - कुछ%)। मैं पुराने साधनों पर अपने टूल का उपयोग नहीं कर सकता क्योंकि कुछ नई जानकारी नहीं है। नोट मैं test1 और test3 ही परिणाम देने के लिए उम्मीद करते हैं कि, क्योंकि टिक कभी नहीं निष्क्रिय राज्य 0. में बंद हो जाता है

— डौग Smythies

मेरा मतलब /sys/devices/system/cpu/cpu*/cpuidle/state*/timeऊपर लिखना था । मैं केवल कर्नेल को द्विभाजित करने के लिए सोच सकता हूं, एक बार कर्नेल 4.15 और 4.16 के बीच, फिर 4.16 और 4.17 के बीच। दूसरा द्विज पहले से प्राप्त ज्ञान के साथ तेजी से आगे बढ़ सकता है। मेरे पास अभी इसे करने का समय नहीं है, शायद कुछ दिनों में।

— डग स्माइथिज

@DougSmythies शुक्रिया! आपके परीक्षण मेरे मूल लोगों की तरह ही काम करते हैं। मेरे परिणाम 4.15.0-1.fc28और 4.16.0-300.fc28आपके साथ सहमत हैं।

— sourcejedi

ठीक है, मुझे लगता है कि मैं एक linux-pm सूची उत्तर के लिए तैयार हूं। उम्मीद है कि किसी के पास कुछ अंतर्दृष्टि होगी और हम एक कर्नेल बिसनेस से बच सकते हैं।

— डग स्माइथिज

@DougSmythies wtf पहला द्विभाजन (4.15-4.16) github.com/torvalds/linux/commit/806486c377e3 " शेड्यूल / फेयर देता है: यदि प्रचलित_कुप बेकार है तो माइग्रेट न करें"। इसलिए मैंने taskset -c 0v4.15 पर परीक्षण किया ... ddकमांड taskset -c 2को "राइट" iowait देता है। किसी अन्य सीपीयू को पिन करने से "गलत" आयोवाइट मिलता है। और cpu2 वह जगह है जहां ddमैं उपयोग नहीं करता तो समाप्त हो जाती है taskset। (मैं atopप्रति-सीपीयू इवाइट समय देखता था)। मैं वर्तमान व्यवहार की व्याख्या करने के लिए हालांकि दूसरे द्वंद्व को देख रहा हूं। मौका पर दूसरे बदलाव में इस बारे में कुछ टिप्पणी हो सकती है।

— sourcejedi

सिस्टम के बारे में मेरी बुनियादी धारणा "इवोहित" नहीं है

मूल प्रश्न

"Iowait" पर पृष्ठभूमि की जानकारी

वातावरण

परीक्षण और परिणाम

परीक्षा परिणाम जहां यह पकड़ (एक वीएम के अंदर)