मेरे पास एक विभाजन तालिका संरचना है जैसे:
CREATE TABLE measurements (
sensor_id bigint,
tx timestamp,
measurement int
);
CREATE TABLE measurements_201201(
CHECK (tx >= '2012-01-01 00:00:00'::timestamp without time zone
AND tx < ('2012-01-01 00:00:00'::timestamp without time zone + '1 mon'::interval))
)INHERITS (measurements);
CREATE INDEX ON measurements_201201(sensor_id);
CREATE INDEX ON measurements_201201(tx);
CREATE INDEX ON measurements_201201(sensor_id, tx);
....
और इसी तरह। प्रत्येक तालिका में लगभग 20M पंक्तियाँ हैं।
यदि मैं सेंसर के नमूने के लिए क्वेरी करता हूं और WHERE
क्लॉज में टाइमस्टैम्प का एक नमूना होता है , तो क्वेरी प्लान सही तालिकाओं का चयन करता है और अनुक्रमित किया जा रहा है जैसे:
SELECT *
FROM measurements
INNER JOIN sensors TABLESAMPLE BERNOULLI (0.01) USING (sensor_id)
WHERE tx BETWEEN '2015-01-04 05:00' AND '2015-01-04 06:00'
OR tx BETWEEN '2015-02-04 05:00' AND '2015-02-04 06:00'
OR tx BETWEEN '2014-03-05 05:00' AND '2014-04-07 06:00' ;
हालाँकि, अगर मैं एक सीटीई का उपयोग करता हूं, या टाइमस्टैम्प मूल्यों को एक तालिका में डाल देता हूं (अस्थायी तालिका पर अनुक्रमित के साथ भी नहीं दिखाया गया है)।
WITH sensor_sample AS(
SELECT sensor_id, start_ts, end_ts
FROM sensors TABLESAMPLE BERNOULLI (0.01)
CROSS JOIN (VALUES (TIMESTAMP '2015-01-04 05:00', TIMESTAMP '2015-01-04 06:00'),
(TIMESTAMP '2015-02-04 05:00', TIMESTAMP '2015-02-04 06:00'),
(TIMESTAMP '2014-03-05 05:00', '2014-04-07 06:00') ) tstamps(start_ts, end_ts)
)
नीचे जैसा कुछ
SET constraint_exclusion = on;
SELECT * FROM measurements
INNER JOIN sensor_sample USING (sensor_id)
WHERE tx BETWEEN start_ts AND end_ts
हर टेबल पर एक इंडेक्स स्कैन करता है। जो अभी भी अपेक्षाकृत तेज है, लेकिन प्रश्नों की बढ़ती जटिलता के साथ, यह seq स्कैन में बदल सकता है जो कि विभाजन तालिकाओं के सीमित उपसमुच्चय (50 के 4-5) से ~ 40K पंक्तियों को पुनः प्राप्त करने के लिए बहुत धीमा होगा।
मुझे चिंता है कि कुछ इस तरह की समस्या है।
गैर-तुच्छ अभिव्यक्तियों के लिए आपको पोस्टग्रेज क्वेरी प्लानर को समझने के लिए प्रश्नों में अधिक या कम शब्दशः स्थिति को दोहराना होगा, यह समझें कि वह CHECK बाधा पर भरोसा कर सकता है। भले ही यह बेमानी लगे!
मैं अपने सभी डेटा पर seq स्कैन चलाने की संभावना को कम करने के लिए विभाजन और क्वेरी संरचना को कैसे सुधार सकता हूं?