बड़े IN के साथ एक पोस्टग्रैड क्वेरी को ऑप्टिमाइज़ करना

30

इस क्वेरी को आपके द्वारा अनुसरण किए गए लोगों द्वारा बनाई गई पोस्ट की सूची मिलती है। आप असीमित संख्या में लोगों का अनुसरण कर सकते हैं, लेकिन अधिकांश लोग <1000 अन्य का अनुसरण करते हैं।

क्वेरी की इस शैली के साथ, स्पष्ट अनुकूलन "Post"आईडी को कैश करना होगा , लेकिन दुर्भाग्य से मेरे पास अभी उस समय के लिए समय नहीं है।

EXPLAIN ANALYZE SELECT
    "Post"."id",
    "Post"."actionId",
    "Post"."commentCount",
    ...
FROM
    "Posts" AS "Post"
INNER JOIN "Users" AS "user" ON "Post"."userId" = "user"."id"
LEFT OUTER JOIN "ActivityLogs" AS "activityLog" ON "Post"."activityLogId" = "activityLog"."id"
LEFT OUTER JOIN "WeightLogs" AS "weightLog" ON "Post"."weightLogId" = "weightLog"."id"
LEFT OUTER JOIN "Workouts" AS "workout" ON "Post"."workoutId" = "workout"."id"
LEFT OUTER JOIN "WorkoutLogs" AS "workoutLog" ON "Post"."workoutLogId" = "workoutLog"."id"
LEFT OUTER JOIN "Workouts" AS "workoutLog.workout" ON "workoutLog"."workoutId" = "workoutLog.workout"."id"
WHERE
"Post"."userId" IN (
    201486,
    1825186,
    998608,
    340844,
    271909,
    308218,
    341986,
    216893,
    1917226,
    ...  -- many more
)
AND "Post"."private" IS NULL
ORDER BY
    "Post"."createdAt" DESC
LIMIT 10;

पैदावार:

Limit  (cost=3.01..4555.20 rows=10 width=2601) (actual time=7923.011..7973.138 rows=10 loops=1)
  ->  Nested Loop Left Join  (cost=3.01..9019264.02 rows=19813 width=2601) (actual time=7923.010..7973.133 rows=10 loops=1)
        ->  Nested Loop Left Join  (cost=2.58..8935617.96 rows=19813 width=2376) (actual time=7922.995..7973.063 rows=10 loops=1)
              ->  Nested Loop Left Join  (cost=2.15..8821537.89 rows=19813 width=2315) (actual time=7922.984..7961.868 rows=10 loops=1)
                    ->  Nested Loop Left Join  (cost=1.71..8700662.11 rows=19813 width=2090) (actual time=7922.981..7961.846 rows=10 loops=1)
                          ->  Nested Loop Left Join  (cost=1.29..8610743.68 rows=19813 width=2021) (actual time=7922.977..7961.816 rows=10 loops=1)
                                ->  Nested Loop  (cost=0.86..8498351.81 rows=19813 width=1964) (actual time=7922.972..7960.723 rows=10 loops=1)
                                      ->  Index Scan using posts_createdat_public_index on "Posts" "Post"  (cost=0.43..8366309.39 rows=20327 width=261) (actual time=7922.869..7960.509 rows=10 loops=1)
                                            Filter: ("userId" = ANY ('{201486,1825186,998608,340844,271909,308218,341986,216893,1917226, ... many more ...}'::integer[]))
                                            Rows Removed by Filter: 218360
                                      ->  Index Scan using "Users_pkey" on "Users" "user"  (cost=0.43..6.49 rows=1 width=1703) (actual time=0.005..0.006 rows=1 loops=10)
                                            Index Cond: (id = "Post"."userId")
                                ->  Index Scan using "ActivityLogs_pkey" on "ActivityLogs" "activityLog"  (cost=0.43..5.66 rows=1 width=57) (actual time=0.107..0.107 rows=0 loops=10)
                                      Index Cond: ("Post"."activityLogId" = id)
                          ->  Index Scan using "WeightLogs_pkey" on "WeightLogs" "weightLog"  (cost=0.42..4.53 rows=1 width=69) (actual time=0.001..0.001 rows=0 loops=10)
                                Index Cond: ("Post"."weightLogId" = id)
                    ->  Index Scan using "Workouts_pkey" on "Workouts" workout  (cost=0.43..6.09 rows=1 width=225) (actual time=0.001..0.001 rows=0 loops=10)
                          Index Cond: ("Post"."workoutId" = id)
              ->  Index Scan using "WorkoutLogs_pkey" on "WorkoutLogs" "workoutLog"  (cost=0.43..5.75 rows=1 width=61) (actual time=1.118..1.118 rows=0 loops=10)
                    Index Cond: ("Post"."workoutLogId" = id)
        ->  Index Scan using "Workouts_pkey" on "Workouts" "workoutLog.workout"  (cost=0.43..4.21 rows=1 width=225) (actual time=0.004..0.004 rows=0 loops=10)
              Index Cond: ("workoutLog"."workoutId" = id)
Total runtime: 7974.524 ms

यह समय के लिए कैसे अनुकूलित किया जा सकता है?

मेरे पास निम्नलिखित प्रासंगिक सूचकांक हैं:

-- Gets used
CREATE INDEX  "posts_createdat_public_index" ON "public"."Posts" USING btree("createdAt" DESC) WHERE "private" IS null;
-- Don't get used
CREATE INDEX  "posts_userid_fk_index" ON "public"."Posts" USING btree("userId");
CREATE INDEX  "posts_following_index" ON "public"."Posts" USING btree("userId", "createdAt" DESC) WHERE "private" IS null;

शायद इसके लिए एक बड़े आंशिक समग्र सूचकांक की आवश्यकता होती है createdAtऔर userIdकहाँ private IS NULL?

— गैरेट
स्रोत

29

एक विशाल- INसूची का उपयोग करने के बजाय , एक VALUESअभिव्यक्ति पर शामिल हों , या यदि सूची काफी बड़ी है, तो एक अस्थायी तालिका का उपयोग करें, इसे अनुक्रमित करें, फिर उस पर शामिल हों।

यह अच्छा होगा अगर PostgreSQL यह आंतरिक और स्वचालित रूप से कर सकता है लेकिन इस बिंदु पर योजनाकार को यह नहीं पता है कि कैसे।

इसी तरह के विषय:

— क्रेग रिंगर
स्रोत

28

वास्तव INमें पोस्टग्रेज में निर्माण के दो भिन्न रूप हैं । एक उप-अभिव्यक्ति के साथ काम करता है (एक सेट लौटाता है ), दूसरा वह जो मानों की सूची के साथ है , जो इसके लिए सिर्फ शॉर्टहैंड है

expression = value1
OR
expression = value2
OR
...

आप दूसरे फ़ॉर्म का उपयोग कर रहे हैं, जो छोटी सूची के लिए ठीक है, लेकिन लंबी सूचियों के लिए बहुत धीमा है। इसके बजाय मूल्य अभिव्यक्ति के रूप में अपनी सूची प्रदान करें। मुझे हाल ही में इस प्रकार के बारे में अवगत कराया गया था :

WHERE "Post"."userId" IN (VALUES (201486), (1825186), (998608), ... )

मुझे एक ऐरे को पास करना, अनावश्यक करना और उसमें शामिल होना पसंद है। इसी तरह के प्रदर्शन, लेकिन वाक्यविन्यास कम है:

...
FROM   unnest('{201486,1825186,998608, ...}'::int[]) "userId"
JOIN   "Posts" "Post" USING ("userId")

जब तक प्रदान किए गए सेट / सरणी में कोई डुप्लिकेट न हो, तब तक समतुल्य । JOINरिटर्न डुप्लिकेट पंक्तियों के साथ दूसरे रूप को छोड़ दें , जबकि पहला INकेवल एक ही उदाहरण देता है। यह सूक्ष्म अंतर अलग- अलग क्वेरी योजनाओं का भी कारण बनता है।

जाहिर है, आपको एक सूचकांक की आवश्यकता है "Posts"."userId"।
के लिए बहुत लंबी सूची (हजारों), एक अनुक्रमित अस्थायी तालिका के साथ जाने के @Craig तरह का सुझाव दिया। यह दोनों बिट्स पर संयुक्त बिटमैप इंडेक्स स्कैन करने की अनुमति देता है, जो आमतौर पर तेजी से होता है जैसे ही डिस्क से लाने के लिए प्रति डेटा पेज पर कई ट्यूपल होते हैं।

सम्बंधित:

पटरियों के साथ WHERE क्लॉज में IN के बजाय किसी का उपयोग कैसे करें?

एक तरफ: आपका नामकरण सम्मेलन बहुत उपयोगी नहीं है, आपके कोड को क्रियात्मक और पढ़ने में कठिन बनाता है। बल्कि कानूनी, लोअर-केस, अयोग्य पहचानकर्ताओं का उपयोग करें।

— इरविन ब्रांडीसेट्टर
स्रोत