इनलाइन सबकुछ की तुलना में CTE बहुत खराब क्यों है


11

Im बेहतर तरीके से समझने की कोशिश कर रहा है कि कैसे postgresql में क्वेरी प्लानर काम करता है।

मेरे पास यह प्रश्न है:

select id from users 
    where id <> 2
    and gender = (select gender from users where id = 2)
    order by latest_location::geometry <-> (select latest_location from users where id = 2) ASC
    limit 50

यह उपयोगकर्ता तालिका में लगभग 500k प्रविष्टियों के साथ मेरे डेटाबेस पर 10ms से कम में चलता है।

फिर मैंने सोचा कि डुप्लिकेट सबसेलेक्ट्स से बचने के लिए मैं क्वेरी को CTE के रूप में फिर से लिख सकता हूं, जैसे:

with me as (
    select * from users where id = 2
)
select u.id, u.popularity from users u, me 
    where u.gender = me.gender
    order by  u.latest_location::geometry <-> me.latest_location::geometry ASC
    limit 50;

हालाँकि, यह पुनर्लेखन क्वेरी लगभग 1 सेकंड में चलती है! ऐसा क्यों होता है? मैं बताता हूं कि यह ज्यामिति सूचकांक का उपयोग नहीं करता है, लेकिन क्या इसके लिए कुछ किया जा सकता है? धन्यवाद!

क्वेरी लिखने का दूसरा तरीका है:

select u.id, u.popularity from users u, (select gender, latest_location from users where id = 2) as me 
    where u.gender = me.gender
    order by  u.latest_location::geometry <-> me.latest_location::geometry ASC
    limit 50;

हालांकि, यह भी सीटीई जितना ही धीमा होगा।

यदि दूसरी ओर मैं अपने मापदंडों को निकालता हूं और सांख्यिकीय रूप से उन्हें सम्मिलित करता हूं तो क्वेरी फिर से त्वरित होती है:

select u.id, u.popularity from users u
    where u.gender = 'male'
    order by  u.latest_location::geometry <-> '0101000000A49DE61DA71C5A403D0AD7A370F54340'::geometry ASC
    limit 50;

पहली (तेज़) क्वेरी की व्याख्या करें

 Limit  (cost=5.69..20.11 rows=50 width=36) (actual time=0.512..8.114 rows=50 loops=1)
   InitPlan 1 (returns $0)
     ->  Index Scan using users_pkey on users users_1  (cost=0.42..2.64 rows=1 width=32) (actual time=0.032..0.033 rows=1 loops=1)
           Index Cond: (id = 2)
   InitPlan 2 (returns $1)
     ->  Index Scan using users_pkey on users users_2  (cost=0.42..2.64 rows=1 width=4) (actual time=0.009..0.010 rows=1 loops=1)
           Index Cond: (id = 2)
   ->  Index Scan using users_latest_location_gix on users  (cost=0.41..70796.51 rows=245470 width=36) (actual time=0.509..8.100 rows=50 loops=1)
         Order By: (latest_location <-> $0)
         Filter: (gender = $1)
         Rows Removed by Filter: 20
 Total runtime: 8.211 ms
(12 rows)

दूसरी (धीमी) क्वेरी की व्याख्या करें

Limit  (cost=62419.82..62419.95 rows=50 width=76) (actual time=1024.963..1024.970 rows=50 loops=1)
   CTE me
     ->  Index Scan using users_pkey on users  (cost=0.42..2.64 rows=1 width=221) (actual time=0.037..0.038 rows=1 loops=1)
           Index Cond: (id = 2)
   ->  Sort  (cost=62417.18..63030.86 rows=245470 width=76) (actual time=1024.959..1024.963 rows=50 loops=1)
         Sort Key: ((u.latest_location <-> me.latest_location))
         Sort Method: top-N heapsort  Memory: 28kB
         ->  Hash Join  (cost=0.03..54262.85 rows=245470 width=76) (actual time=0.122..938.131 rows=288646 loops=1)
               Hash Cond: (u.gender = me.gender)
               ->  Seq Scan on users u  (cost=0.00..49353.41 rows=490941 width=48) (actual time=0.021..465.025 rows=490994 loops=1)
               ->  Hash  (cost=0.02..0.02 rows=1 width=36) (actual time=0.054..0.054 rows=1 loops=1)
                     Buckets: 1024  Batches: 1  Memory Usage: 1kB
                     ->  CTE Scan on me  (cost=0.00..0.02 rows=1 width=36) (actual time=0.047..0.049 rows=1 loops=1)
 Total runtime: 1025.096 ms

3
मैंने इस बारे में हाल ही में लिखा था; blog.2ndquadrant.com/postgresql-ctes-are-optimization-fences देखें । हालाँकि वर्तमान में कुछ DNS समस्याएँ हैं जो उस साइट की पुनरावृत्ति को सीमित कर सकती हैं। FROMसर्वोत्तम परिणामों के लिए CTE शब्द के बजाय एक उपश्रेणी आज़माएँ ।
क्रेग रिंगर

क्या होगा यदि आप (select id, latest_location from users where id = 2)cte के रूप में उपयोग करते हैं? हो सकता है कि यह * इस मुद्दे का कारण बन रहा हो
cha

मैंने सोचा होगा कि आप विपरीत लिंग के निकटतम उपयोगकर्ताओं की तलाश करेंगे :)
cha

@ सीएचई में लिंग और स्थान का चयन करने के लिए स्पीड में कोई अंतर नहीं है। (मेरे मामले में मैं इसी तरह के उपयोगकर्ताओं का औसत लेना चाहता हूं, बस मैंने सवाल के लिए प्रश्न को सरल बना दिया है)
viblo

@ क्रैगरिंगर मुझे लगता है कि यह अनुकूलन बाड़ नहीं है। मैंने आपके सुझाव को भी आजमाया और यह भी धीमा था। दूसरी ओर, यदि मैं मैन्युअल रूप से पैरामीटर निकालता हूं तो यह त्वरित है (और मेरे मामले में इसका वास्तविक विकल्प है, अंतिम परिणाम वैसे भी एक फ़ंक्शन है)।
viblo

जवाबों:


11

इसे इस्तेमाल करे:

with me as (
    select * from users where id = 2
)
select u.id, u.popularity from users u, me 
    where u.gender = (select gender from me)
    order by  u.latest_location::geometry <-> (select latest_location from me)::geometry ASC
    limit 50;

जब मैं यहां तेज योजना देखता हूं तो मुझ पर क्या असर होता है (बोल्ड):

 सीमा (लागत = 5.69..20.11 पंक्तियाँ = 50 चौड़ाई = 36) (वास्तविक समय = 0.512..8.114 पंक्तियाँ = 50 छोर = 1)
   InitPlan 1 ( $ 0 रिटर्न )
     -> इंडेक्स स्कैन यूजर्स_pkey को यूजर्स पर प्रयोग करके_1 (लागत = 0.42..2.64 पंक्तियां = 1 चौड़ाई = 32) (वास्तविक समय = 0.032..0.033 पंक्तियां = 1 लूप = 1)
           सूचकांक कंडोम: (आईडी = 2)
   InitPlan 2 ( $ 1 रिटर्न )
     -> इंडेक्स स्कैन का उपयोग करके users_pkey को यूजर्स पर इस्तेमाल करते हैं_2 (लागत = 0.42..2.64 पंक्तियां = 1 चौड़ाई = 4) (वास्तविक समय = 0.009..0.010 पंक्तियां = 1 छोर = 1)
           सूचकांक कंडोम: (आईडी = 2)
   -> उपयोगकर्ताओं पर सूचकांक_ user_latest_location_gix का उपयोग करके स्कैन करें (लागत = 0.41..70796.51 पंक्तियाँ = 245470 चौड़ाई = 36) (वास्तविक समय = 0.509..8.100 पंक्तियाँ = 50 लूप = 1)
         आदेश द्वारा: (latest_location   $ 0 )
         फ़िल्टर: (लिंग = $ 1 )
         फ़िल्टर द्वारा निकाली गई पंक्तियाँ: 20
 कुल रनटाइम: 8.211 एमएस
(12 पंक्तियाँ)

धीमी संस्करण में, क्वेरी योजनाकार पर समानता ऑपरेटर मूल्यांकन कर रही है genderपर और ज्यामिति ऑपरेटर latest_locationएक के संदर्भ में शामिल होने , जहां से मूल्य meप्रत्येक पंक्ति (भले ही इसे सही ढंग से केवल 1 पंक्ति का अनुमान है) के साथ भिन्न हो सकता है। तेज संस्करण में के मूल्यों genderऔर latest_locationके रूप में इलाज कर रहे हैं scalars क्योंकि वे इनलाइन सबक्वेरी है, जो क्वेरी योजनाकार यह केवल से निपटने के लिए प्रत्येक में से एक मान होता है बताता द्वारा उत्सर्जित कर रहे हैं। यही कारण है कि जब आप शाब्दिक मूल्यों को चिपकाते हैं तो आपको तेज योजना मिलती है।


मुझे लगता है कि आप अब खंड meसे निकाल सकते fromहैं।
जेरियस हेब्जो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.