पोस्टग्रेज: सीएचईसी बाधा की तुलना में SULL नॉट "अधिक कुशल" कैसे है


17

में प्रतिबन्ध के लिए PostgreSQL डॉक्स , यह कहता है

एक नहीं-नल बाधा कार्यात्मक रूप से एक चेक बाधा बनाने के बराबर है CHECK (column_name IS NOT NULL), लेकिन PostgreSQL में एक स्पष्ट नहीं-शून्य बाधा बनाना अधिक कुशल है।

मैं भटक रहा हूँ

  • वास्तव में "अधिक कुशल" से इसका क्या अर्थ है?
  • के CHECK (column_name IS NOT NULL)बजाय उपयोग करने के हानिकारक क्या हैं SET NOT NULL?

मैं एक NOT VALID CHECKबाधा जोड़ना चाहता हूं और इसे अलग से सत्यापित करना चाहता हूं (इसलिए AccessExclusiveLockयह केवल बाधा को जोड़ने के लिए थोड़े समय के लिए ShareUpdateExclusiveLockआयोजित किया जाता है और फिर लंबे सत्यापन चरण के लिए आयोजित किया जाता है):

ALTER TABLE table_name
  ADD CONSTRAINT column_constraint
  CHECK (column_name IS NOT NULL)
  NOT VALID;
ALTER TABLE table_name
  VALIDATE CONSTRAINT column_constraint;

के बजाय:

ALTER TABLE table_name
  ALTER COLUMN column_name
  SET NOT NULL;


यदि आप not inदोनों वैरिएंट्स के साथ निष्पादन योजनाएँ देखते हैं, तो क्या होगा ? क्या वे समान हैं या क्या वे भिन्न हैं?
मार्टिन स्मिथ

जवाबों:


12

मेरा जंगली अनुमान: "अधिक कुशल" का अर्थ है "चेक करने के लिए कम समय की आवश्यकता है" (समय लाभ)। इसका मतलब यह भी हो सकता है "चेक करने के लिए कम मेमोरी की आवश्यकता होती है" (अंतरिक्ष लाभ)। इसका मतलब यह भी हो सकता है कि "कम दुष्प्रभाव होते हैं" (जैसे कि कुछ को लॉक नहीं करना या इसे कम समय के लिए लॉक करना) ... लेकिन मेरे पास उस "अतिरिक्त लाभ" को जानने या जांचने का कोई तरीका नहीं है।

मैं एक संभावित स्थान लाभ के लिए जांचने का एक आसान तरीका नहीं सोच सकता (जो, मुझे लगता है, यह महत्वपूर्ण नहीं है कि स्मृति आजकल सस्ती है)। दूसरी ओर, यह संभव समय लाभ के लिए जांचना उतना मुश्किल नहीं है: बस दो तालिकाओं का निर्माण करें जो समान हैं, बाधा के एकमात्र अपवाद के साथ। पर्याप्त संख्या में पंक्तियों को सम्मिलित करें, कुछ बार दोहराएं, और समय की जांच करें।

यह तालिका सेटअप है:

CREATE TABLE t1
(
   id serial PRIMARY KEY, 
   value integer NOT NULL
) ;

CREATE TABLE t2
(
  id serial PRIMARY KEY,
  value integer
) ;

ALTER TABLE t2
  ADD CONSTRAINT explicit_check_not_null
  CHECK (value IS NOT NULL);

यह एक अतिरिक्त तालिका है, जिसका उपयोग समय संग्रह के लिए किया जाता है:

CREATE TABLE timings
(
   test_number integer, 
   table_tested integer /* 1 or 2 */, 
   start_time timestamp without time zone,
   end_time timestamp without time zone,
   PRIMARY KEY(test_number, table_tested)
) ;

और यह pgAdmin III और pgScript फीचर का उपयोग करके किया गया परीक्षण है ।

declare @trial_number;
set @trial_number = 0;

BEGIN TRANSACTION;
while @trial_number <= 100
begin
    -- TEST FOR TABLE t1
    -- Insert start time
    INSERT INTO timings(test_number, table_tested, start_time) 
    VALUES (@trial_number, 1, clock_timestamp());

    -- Do the trial
    INSERT INTO t1(value) 
    SELECT 1.0
      FROM generate_series(1, 200000) ;

    -- Insert end time
    UPDATE timings 
       SET end_time=clock_timestamp() 
     WHERE test_number=@trial_number and table_tested = 1;

    -- TEST FOR TABLE t2
    -- Insert start time
    INSERT INTO timings(test_number, table_tested, start_time) 
    VALUES (@trial_number, 2, clock_timestamp());

        -- Do the trial
    INSERT INTO t2(value) 
    SELECT 1.0
    FROM generate_series(1, 200000) ;

    -- Insert end time
    UPDATE timings 
       SET end_time=clock_timestamp() 
     WHERE test_number=@trial_number and table_tested = 2;

    -- Increase loop counter
    set @trial_number = @trial_number + 1;
end 
COMMIT TRANSACTION;

परिणाम निम्नलिखित क्वेरी में संक्षेपित है:

SELECT
    table_tested, 
    sum(delta_time), 
    avg(delta_time), 
    min(delta_time), 
    max(delta_time), 
    stddev_pop(delta_time) 
FROM
    (
    SELECT
        table_tested, extract(epoch from (end_time - start_time)) AS delta_time
    FROM
        timings
    ) AS delta_times
GROUP BY
    table_tested 
ORDER BY
    table_tested ;

निम्नलिखित परिणामों के साथ:

table_tested | sum     | min   | max   | avg   | stddev_pop
-------------+---------+-------+-------+-------+-----------
           1 | 176.740 | 1.592 | 2.280 | 1.767 | 0.08913
           2 | 177.548 | 1.593 | 2.289 | 1.775 | 0.09159

मूल्यों का एक ग्राफ एक महत्वपूर्ण परिवर्तनशीलता दिखाता है:

प्रत्येक 200000 पंक्तियों को सम्मिलित करने के लिए समय बिताया गया (सेकंड में)

इसलिए, व्यवहार में, CHECK (कॉलम IS NOT NULL) बहुत थोड़ा धीमा (0.5% से) है। हालांकि, यह छोटा अंतर किसी भी यादृच्छिक कारण के कारण हो सकता है, बशर्ते कि समय की परिवर्तनशीलता इससे कहीं अधिक बड़ी हो। इसलिए, यह सांख्यिकीय रूप से महत्वपूर्ण नहीं है।

व्यावहारिक दृष्टिकोण से, मैं बहुत अधिक "अधिक कुशल" की उपेक्षा करूंगा NOT NULL, क्योंकि मैं वास्तव में महत्वपूर्ण नहीं देखता हूं; जबकि मुझे लगता है कि अनुपस्थिति AccessExclusiveLockएक फायदा है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.