हीप्स बनाम क्लस्टर्ड इंडेक्स पर नॉन क्लस्टर्ड इंडेक्स का प्रदर्शन


39

यह 2007 श्वेत पत्र व्यक्तिगत चयन / डालने / हटाने / अपडेट के लिए प्रदर्शन की तुलना करता है और एक क्लस्टर इंडेक्स बनाम के रूप में आयोजित तालिका पर चयनित कथनों को श्रेणीबद्ध करता है, जो कि एक ही कुंजी कॉलम पर गैर क्लस्टर्ड इंडेक्स के साथ हीप के रूप में आयोजित एक मेज पर होता है तालिका।

आम तौर पर क्लस्टर्ड इंडेक्स ऑप्शन ने परीक्षणों में बेहतर प्रदर्शन किया है क्योंकि बनाए रखने के लिए केवल एक संरचना है और क्योंकि बुकमार्क लुकअप की कोई आवश्यकता नहीं है।

एक संभावित रूप से दिलचस्प मामला जो कागज द्वारा कवर नहीं किया गया है, वह एक गैर क्लस्टर्ड इंडेक्स के बीच एक तुलना बनाम एक क्लस्टर्ड इंडेक्स पर एक गैर क्लस्टर्ड इंडेक्स के बीच तुलना होता। उस उदाहरण में, मैंने अपेक्षा की होगी कि ढेर भी बेहतर प्रदर्शन कर सकता है क्योंकि एक बार NCI लीफ लेवल SQL सर्वर में RID का उपयोग करने के बजाय सीधे अनुक्रमणिका को पार करने की आवश्यकता होती है।

क्या कोई इसी तरह के औपचारिक परीक्षण से अवगत है जो इस क्षेत्र में किया गया है और यदि ऐसा है तो परिणाम क्या थे?

जवाबों:


41

आपके अनुरोध की जांच करने के लिए मैंने इस योजना के बाद 2 तालिकाएँ बनाईं:

  • बैलेंस जानकारी का प्रतिनिधित्व करने वाले 7.9 मिलियन रिकॉर्ड।
  • 1 से 7.9 मिलियन तक एक पहचान क्षेत्र की गणना
  • लगभग 500k समूहों में संख्याओं को समूहीकृत करते हुए एक संख्या क्षेत्र।

पहली तालिका heapको क्षेत्र पर एक गैर संकुल सूचकांक मिला group। दूसरी तालिका clustको अनुक्रमिक क्षेत्र पर एक गुच्छेदार सूचकांक मिला keyऔर क्षेत्र पर एक गैर- अनुक्रमित सूचकांक मिलाgroup

परीक्षण I5 M540 प्रोसेसर पर 2 हाइपरथ्रेड कोर, 4Gb मेमोरी और 64-बिट विंडो 7 के साथ चलाए गए थे।

Microsoft SQL Server 2008 R2 (RTM) - 10.50.1600.1 (X64) 
Apr  2 2010 15:48:46 
Developer Edition (64-bit) on Windows NT 6.1 <X64> (Build 7601: Service Pack 1)  

9 मार्च 2011 को अपडेट : मैंने निम्नलिखित .net कोड चलाकर और Sql सर्वर प्रोफाइलर में CPU, रीड्स, राइट्स और RowCounts लॉग करके एक और अधिक व्यापक बेंचमार्क किया। (कमांडटैक का उपयोग परिणामों में उल्लेख किया जाएगा।)

नोट: CPU और अवधि मिलीसेकंड में व्यक्त किए गए हैं

  • 1000 प्रश्न
  • शून्य सीपीयू प्रश्नों को परिणामों से हटा दिया जाता है
  • प्रभावित पंक्तियों को परिणामों से हटा दिया जाता है
int[] idList = new int[] { 6816588, 7086702, 6498815 ... }; // 1000 values here.
using (var conn = new SqlConnection(@"Data Source=myserver;Initial Catalog=mydb;Integrated Security=SSPI;"))
            {
                conn.Open();
                using (var cmd = new SqlCommand())
                {
                    cmd.Connection = conn;
                    cmd.CommandType = CommandType.Text;
                    cmd.CommandText = "select * from heap where common_key between @id and @id+1000"; 
                    cmd.Parameters.Add("@id", SqlDbType.Int);
                    cmd.Prepare();
                    foreach (int id in idList)
                    {
                        cmd.Parameters[0].Value = id;

                        using (var reader = cmd.ExecuteReader())
                        {
                            int count = 0;
                            while (reader.Read())
                            {
                                count++;
                            }
                            Console.WriteLine(String.Format("key: {0} => {1} rows", id, count));
                        }
                    }
                }
            }

9 मार्च 2011 को अपडेट का अंत

प्रदर्शन का चयन करें

प्रदर्शन संख्या की जांच करने के लिए मैंने निम्न प्रश्नों को एक बार ढेर टेबल पर और एक बार क्लस्टर टेबल पर प्रदर्शन किया है:

select * from heap/clust where group between 5678910 and 5679410
select * from heap/clust where group between 6234567 and 6234967
select * from heap/clust where group between 6455429 and 6455729
select * from heap/clust where group between 6655429 and 6655729
select * from heap/clust where group between 6955429 and 6955729
select * from heap/clust where group between 7195542 and 7155729

इस बेंचमार्क के परिणाम heapनिम्न हैं:

rows  reads CPU   Elapsed 
----- ----- ----- --------
1503  1510  31ms  309ms
401   405   15ms  283ms
2700  2709  0ms   472ms
0     3     0ms   30ms
2953  2962  32ms  257ms
0     0     0ms   0ms

9 मार्च 2011 को अपडेट : cmd.CommandText = "select * from heap where group between @id and @id+1000";

  • 721 पंक्तियों में> 0 सीपीयू है और 0 से अधिक पंक्तियों को प्रभावित करता है
Counter   Minimum    Maximum Average  Weighted
--------- ------- ---------- ------- ---------
RowCounts    1001      69788    6368         -         
Cpu            15        374      37   0.00754
Reads        1069      91459    7682   1.20155
Writes          0          0       0   0.00000
Duration   0.3716   282.4850 10.3672   0.00180

9 मार्च 2011 को अपडेट का अंत


तालिका के clustलिए परिणाम हैं:

rows  reads CPU   Elapsed 
----- ----- ----- --------
1503  4827  31ms  327ms
401   1241  0ms   242ms
2700  8372  0ms   410ms
0     3     0ms   0ms
2953  9060  47ms  213ms
0     0     0ms   0ms

9 मार्च 2011 को अपडेट : cmd.CommandText = "select * from clust where group between @id and @id+1000";

  • 721 पंक्तियों में> 0 सीपीयू है और 0 से अधिक पंक्तियों को प्रभावित करता है
Counter   Minimum    Maximum Average  Weighted
--------- ------- ---------- ------- ---------
RowCounts    1001      69788    6056         -
Cpu            15        468      38   0.00782
Reads        3194     227018   20457   3.37618
Writes          0          0       0       0.0
Duration   0.3949   159.6223 11.5699   0.00214

9 मार्च 2011 को अपडेट का अंत


JOIN प्रदर्शन के साथ चयन करें

cmd.CommandText = "select * from heap/clust h join keys k on h.group = k.group where h.group between @id and @id+1000";


इस बेंचमार्क के परिणाम heapनिम्न हैं:

873 पंक्तियों में> 0 सीपीयू है और 0 से अधिक पंक्तियों को प्रभावित करता है

Counter   Minimum    Maximum Average  Weighted
--------- ------- ---------- ------- ---------
RowCounts    1009       4170    1683         -
Cpu            15         47      18   0.01175
Reads        2145       5518    2867   1.79246
Writes          0          0       0   0.00000
Duration   0.8215   131.9583  1.9095   0.00123

इस बेंचमार्क के परिणाम clustनिम्न हैं:

865 पंक्तियों में> 0 सीपीयू है और 0 से अधिक पंक्तियों को प्रभावित करता है

Counter   Minimum    Maximum Average  Weighted
--------- ------- ---------- ------- ---------
RowCounts    1000       4143    1685         -
Cpu            15         47      18   0.01193
Reads        5320      18690    8237   4.97813
Writes          0          0       0   0.00000
Duration   0.9699    20.3217  1.7934   0.00109

अद्यतन प्रदर्शन

प्रश्नों का दूसरा बैच अपडेट स्टेटमेंट हैं:

update heap/clust set amount = amount + 0 where group between 5678910 and 5679410
update heap/clust set amount = amount + 0 where group between 6234567 and 6234967
update heap/clust set amount = amount + 0 where group between 6455429 and 6455729
update heap/clust set amount = amount + 0 where group between 6655429 and 6655729
update heap/clust set amount = amount + 0 where group between 6955429 and 6955729
update heap/clust set amount = amount + 0 where group between 7195542 and 7155729

इस बेंचमार्क के परिणाम heap:

rows  reads CPU   Elapsed 
----- ----- ----- -------- 
1503  3013  31ms  175ms
401   806   0ms   22ms
2700  5409  47ms  100ms
0     3     0ms   0ms
2953  5915  31ms  88ms
0     0     0ms   0ms

9 मार्च 2011 को अपडेट : cmd.CommandText = "update heap set amount = amount + @id where group between @id and @id+1000";

  • 811 पंक्तियों में> 0 सीपीयू है और 0 से अधिक पंक्तियों को प्रभावित करता है
Counter   Minimum    Maximum Average  Weighted
--------- ------- ---------- ------- ---------
RowCounts    1001      69788    5598       811         
Cpu            15        873      56   0.01199
Reads        2080     167593   11809   2.11217
Writes          0       1687     121   0.02170
Duration   0.6705   514.5347 17.2041   0.00344

9 मार्च 2011 को अपडेट का अंत


इस बेंचमार्क के परिणाम clust:

rows  reads CPU   Elapsed 
----- ----- ----- -------- 
1503  9126  16ms  35ms
401   2444  0ms   4ms
2700  16385 31ms  54ms
0     3     0ms   0ms 
2953  17919 31ms  35ms
0     0     0ms   0ms

9 मार्च 2011 को अपडेट : cmd.CommandText = "update clust set amount = amount + @id where group between @id and @id+1000";

  • 853 पंक्तियों में> 0 सीपीयू है और 0 से अधिक पंक्तियों को प्रभावित करता है
Counter   Minimum    Maximum Average  Weighted
--------- ------- ---------- ------- ---------
RowCounts    1001      69788    5420         -
Cpu            15        594      50   0.01073
Reads        6226     432237   33597   6.20450
Writes          0       1730     110   0.01971
Duration   0.9134   193.7685  8.2919   0.00155

9 मार्च 2011 को अपडेट का अंत


DELETE मानदंड

मेरे द्वारा चलाए गए प्रश्नों के तीसरे बैच को हटा दिया गया है

delete heap/clust where group between 5678910 and 5679410
delete heap/clust where group between 6234567 and 6234967
delete heap/clust where group between 6455429 and 6455729
delete heap/clust where group between 6655429 and 6655729
delete heap/clust where group between 6955429 and 6955729
delete heap/clust where group between 7195542 and 7155729

इस बेंचमार्क का परिणाम heap:

rows  reads CPU   Elapsed 
----- ----- ----- -------- 
1503  10630 62ms  179ms
401   2838  0ms   26ms
2700  19077 47ms  87ms
0     4     0ms   0ms
2953  20865 62ms  196ms
0     4     0ms   9ms

9 मार्च 2011 को अपडेट : cmd.CommandText = "delete heap where group between @id and @id+1000";

  • 724 पंक्तियों में> 0 सीपीयू है और 0 से अधिक पंक्तियों को प्रभावित करता है
Counter   Minimum    Maximum Average  Weighted
--------- ------- ---------- ------- ---------
RowCounts     192      69788    4781         -
Cpu            15        499      45   0.01247
Reads         841     307958   20987   4.37880
Writes          2       1819     127   0.02648
Duration   0.3775  1534.3383 17.2412   0.00349

9 मार्च 2011 को अपडेट का अंत


इस बेंचमार्क का परिणाम clust:

rows  reads CPU   Elapsed 
----- ----- ----- -------- 
1503  9228  16ms  55ms
401   3681  0ms   50ms
2700  24644 46ms  79ms
0     3     0ms   0ms
2953  26955 47ms  92ms
0     3     0ms   0ms

9 मार्च 2011 को अपडेट :

cmd.CommandText = "delete clust where group between @id and @id+1000";

  • 751 पंक्तियों में> 0 सीपीयू है और 0 से अधिक पंक्तियों को प्रभावित करता है
Counter   Minimum    Maximum Average  Weighted
--------- ------- ---------- ------- ---------
RowCounts     144      69788    4648         -
Cpu            15        764      56   0.01538
Reads         989     458467   30207   6.48490
Writes          2       1830     127   0.02694
Duration   0.2938  2512.1968 24.3714   0.00555

9 मार्च 2011 को अपडेट का अंत


INSERT बेंचमार्क

बेंचमार्क का आखिरी हिस्सा इन्सर्ट स्टेटमेंट्स का निष्पादन है।

ढेर / क्लस्टर (...) मान (...), (...), (...), (...), (...) में डालें


इस बेंचमार्क का परिणाम heap:

rows  reads CPU   Elapsed 
----- ----- ----- -------- 
6     38    0ms   31ms

9 मार्च 2011 को अपडेट :

string str = @"insert into heap (group, currency, year, period, domain_id, mtdAmount, mtdAmount, ytdAmount, amount, ytd_restated, restated, auditDate, auditUser)
                    values";

                    for (int x = 0; x < 999; x++)
                    {
                        str += string.Format(@"(@id + {0}, 'EUR', 2012, 2, 0, 100, 100, 1000 + @id,1000, 1000,1000, current_timestamp, 'test'),  ", x);
                    }
                    str += string.Format(@"(@id, 'CAD', 2012, 2, 0, 100, 100, 1000 + @id,1000, 1000,1000, current_timestamp, 'test') ", 1000);

                    cmd.CommandText = str;
  • 912 स्टेटमेंट में> 0 सीपीयू है
Counter   Minimum    Maximum Average  Weighted
--------- ------- ---------- ------- ---------
RowCounts    1000       1000    1000         -
Cpu            15       2138      25   0.02500
Reads        5212       7069    6328   6.32837
Writes         16         34      22   0.02222
Duration   1.6336   293.2132  4.4009   0.00440

9 मार्च 2011 को अपडेट का अंत


इस बेंचमार्क का परिणाम clust:

rows  reads CPU   Elapsed 
----- ----- ----- -------- 
6     50    0ms   18ms

9 मार्च 2011 को अपडेट :

string str = @"insert into clust (group, currency, year, period, domain_id, mtdAmount, mtdAmount, ytdAmount, amount, ytd_restated, restated, auditDate, auditUser)
                    values";

                    for (int x = 0; x < 999; x++)
                    {
                        str += string.Format(@"(@id + {0}, 'EUR', 2012, 2, 0, 100, 100, 1000 + @id,1000, 1000,1000, current_timestamp, 'test'),  ", x);
                    }
                    str += string.Format(@"(@id, 'CAD', 2012, 2, 0, 100, 100, 1000 + @id,1000, 1000,1000, current_timestamp, 'test') ", 1000);

                    cmd.CommandText = str;
  • 946 स्टेटमेंट में> 0 सीपीयू है
Counter   Minimum    Maximum Average  Weighted
--------- ------- ---------- ------- ---------
RowCounts    1000       1000    1000         -      
Cpu            15       2403      21   0.02157
Reads        6810       8997    8412   8.41223
Writes         16         25      19   0.01942
Duration   1.5375   268.2571  6.1463   0.00614

9 मार्च 2011 को अपडेट का अंत


निष्कर्ष

हालाँकि क्लस्टर और नॉनक्लेस्टेड इंडेक्स (नॉनक्लेस्टेड इंडेक्स का उपयोग करते समय) के साथ टेबल एक्सेस करते समय अधिक तार्किक रीडिंग चल रही हैं, प्रदर्शन परिणाम हैं:

  • चयनित कथन तुलनीय हैं
  • अद्यतन विवरण जगह में संकुल सूचकांक के साथ तेज़ होते हैं
  • DELETE कथनों को जगह में क्लस्टर किए गए सूचकांक के साथ तेज किया जाता है
  • INSERT स्टेटमेंट जगह में क्लस्टर इंडेक्स के साथ तेज होते हैं

बेशक मेरा बेंचमार्क एक विशेष प्रकार की मेज पर और प्रश्नों के बहुत सीमित सेट के साथ बहुत सीमित था, लेकिन मुझे लगता है कि इस जानकारी के आधार पर हम पहले ही यह कहना शुरू कर सकते हैं कि आपके टेबल पर क्लस्टर इंडेक्स बनाना वास्तव में हमेशा बेहतर होता है।

9 मार्च 2011 को अपडेट :

जैसा कि हम जोड़ा परिणामों से देख सकते हैं, सीमित परीक्षणों पर निष्कर्ष हर मामले में सही नहीं थे।

भारित अवधि

परिणाम अब संकेत करते हैं कि केवल वही कथन जो क्लस्टर इंडेक्स से लाभान्वित होते हैं, अपडेट स्टेटमेंट हैं। अन्य स्टेटमेंट क्लस्टर इंडेक्स वाली टेबल पर लगभग 30% धीमे हैं।

कुछ अतिरिक्त चार्ट जहां मैंने ढेर बनाम क्लस्टर के लिए प्रति प्रश्न भारित अवधि की साजिश रची। भारित अवधि हीप बनाम चयन के लिए संकुल

शामिल होने के लिए वेटेड अवधि बनाम ढेर

अद्यतन के लिए वेटेड अवधि बनाम ढेर

हटाए जाने के लिए वेटेड अवधि अवधि ढेर बनाम

जैसा कि आप देख सकते हैं कि इंसर्ट स्टेटमेंट्स के लिए परफॉर्मेंस प्रोफाइल काफी दिलचस्प है। स्पाइक्स कुछ डेटा बिंदुओं के कारण होते हैं जो पूरा होने में बहुत अधिक समय लेते हैं। सम्मिलित करने के लिए वेटेड अवधि बनाम ढेर

9 मार्च 2011 को अपडेट का अंत


@ मर्टिन मैं इसे सर्वर पर चलाने की कोशिश करूंगा जिसमें 500 मिलियन रिकॉर्ड के साथ कुछ टेबल होंगे जब मुझे अगले सप्ताह कुछ समय मिलेगा।
फिलिप डी वोस

मुझे इस परीक्षण की सत्यता पर संदेह है। कुछ हिस्सों पर गंभीर ध्यान देने की आवश्यकता है, जैसे कि INSERT प्रदर्शन यह दावा करता है कि क्लस्टर इंडेक्स तेज़ है - CLUST संस्करण में अधिक रीड थे, लेकिन बीता हुआ समय कम है। मैंने व्यक्तिगत रूप से बीते हुए समय को मिलीसेकंड के 10s (समय परिवर्तनशीलता) के भीतर अनदेखा कर दिया होगा - इसका मतलब यह है कि पढ़ने की संख्या से कम है।

किम्बर्ली ट्रिप के द क्लस्टर्ड इंडेक्स डिबेट कंटीन्यूज़ की जाँच करें जहाँ वह बताती है कि क्यों (क्लस्टर्ड टेबल के साथ सबसे अधिक (यदि सभी नहीं) ऑपरेशंस ढेर के साथ तेज़ हैं - आपके परिणामों के विपरीत ...
marc_s

1
@ मर्टिन, @ रिचर्ड, @marc_s। मैं अभी और गंभीर बेंचमार्क पर काम कर रहा हूं। मुझे उम्मीद है कि आज बाद में परिणाम जोड़ पाएंगे।
फिलिप डी वोस

1
@ फिलिप - वाह! आप निश्चित रूप से इस जवाब में लगाए गए सभी कड़ी मेहनत के लिए इनाम के पात्र हैं। यद्यपि आप काफी हद तक इंगित करते हैं कि यह एक विशिष्ट प्रकार की मेज पर एक बेंचमार्क था जिसमें प्रश्नों का बहुत सीमित सेट और माइलेज अलग-अलग होगा।
मार्टिन स्मिथ

12

जैसा कि किम्बर्ली ट्रिप - इंडेक्सिंग की रानी - अपने ब्लॉग पोस्ट में काफी बारीकी से बताती है कि क्लस्टर इंडेक्स डिबेट जारी है ... , डेटाबेस टेबल पर एक क्लस्टरिंग कुंजी होने से सभी कार्यों में बहुत तेजी आती है - न केवल SELECT

जब तक आप एक अच्छी क्लस्टरिंग कुंजी चुनते हैं, तब तक चयन आम तौर पर एक ढेर पर धीमी होती है, जब तक आप एक अच्छी क्लस्टरिंग कुंजी लेते हैं INT IDENTITY। यदि आप वास्तव में खराब क्लस्टरिंग कुंजी का उपयोग करते हैं, जैसे कि GUID या बहुत से चर लंबाई के घटकों के साथ एक कंपाउंड कुंजी, तो, लेकिन केवल तभी, एक ढेर तेज़ हो सकता है। लेकिन उस मामले में, आपको वास्तव में पहली जगह में अपने डेटाबेस डिजाइन को साफ करने की आवश्यकता है ...

इसलिए सामान्य तौर पर, मुझे नहीं लगता कि ढेर में कोई बिंदु है - एक अच्छा, उपयोगी क्लस्टरिंग कुंजी चुनें और आपको सभी प्रकार से लाभ उठाना चाहिए।


3
यह एक गैर जवाब है। मार्टिन SQL सर्वर पर बहुत ठोस है; इस सवाल का उद्देश्य प्रदर्शन परीक्षण से वास्तविक दुनिया के सत्यापित परिणाम प्राप्त करना था, न कि अधिक सिद्धांत।

किम्बर्ली ट्रिप के लेख से जुड़े सभी गैर-अनुक्रमित सूचकांक प्रभावी रूप से मानते हैं। यदि ऐसा है, तो कोई लुकअप नहीं होगा, और लुकअप में हीप का लाभ नकारात्मक होगा। हालांकि, यह दुनिया हम में से अधिकांश में नहीं रहती है। हमारे मामलों में, कवर करने के लिए हमारे या गैर-अनुक्रमित सभी अनुक्रमणिका को डिजाइन करने की कोशिश करने से खुद की समस्याएं पैदा होती हैं।

@ dbaguy52: आपको क्यों लगता है कि किम ट्रिप सभी एनसी इंडेक्स को कवर कर रहे हैं? मुझे उसके ब्लॉग पोस्ट में कोई भी धारणा दिखाई नहीं दे रही है ..... कृपया अधिक विस्तार से बताएं कि आपको क्या लगता है कि ऐसा है (या उसकी धारणा)
marc_s

7

बस जो चांग के इस लेख से आया था , जो इस सवाल का जवाब देता है। नीचे दिए गए उनके निष्कर्षों को देखा।

एक तालिका पर विचार करें जिसके लिए अनुक्रमित की गहराई 4 है, ताकि एक जड़ स्तर, 2 मध्यवर्ती स्तर और पत्ती का स्तर हो। इंडेक्स एकल इंडेक्स कुंजी (जो कि कोई महत्वपूर्ण खोज नहीं है) के लिए 4 तार्किक आईओ (LIO) उत्पन्न करेगा। अब विचार करें कि क्या मुख्य खोज आवश्यक है। यदि तालिका में गहराई 4 का क्लस्टर इंडेक्स भी है, तो प्रत्येक कुंजी लुकअप 4 LIO उत्पन्न करता है। यदि तालिका एक हीप थी, तो प्रत्येक कुंजी लुकअप 1 LIO उत्पन्न करता है। वास्तविकता में, एक ढेर को देखने की कुंजी एक गुच्छेदार सूचकांक की कुंजी देखने की तुलना में लगभग 20-30% कम महंगा है, कहीं भी 4: 1 एलआईओ अनुपात के करीब नहीं है।


1
ध्यान देने वाली बात यह है कि जो चांग के उद्धरण ने उनकी धारणाओं के आधार पर 20-30% की दक्षता लाभ की पहचान की, जो लेख में 9 मार्च के अपडेट में पहचाने गए लाभ के समान है।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.