पोस्टग्रेज में मौजूदा टेबल का विभाजन कैसे करें?


19

मैं तारीख सीमा तक 1M + पंक्तियों के साथ एक तालिका का विभाजन करना चाहूंगा। यह आमतौर पर बहुत डाउनटाइम की आवश्यकता के बिना या डेटा खोने के जोखिम के बिना कैसे किया जाता है? यहां मैं जिन रणनीतियों पर विचार कर रहा हूं, वे सुझाव के लिए खुले हैं:

  1. मौजूदा तालिका मास्टर और बच्चों से विरासत में मिली है। समय के साथ डेटा को मास्टर से बच्चे तक ले जाएं, लेकिन एक ऐसी अवधि होगी जहां कुछ डेटा मास्टर टेबल में और कुछ बच्चों में होता है।

  2. एक नया मास्टर और बच्चों के टेबल बनाएं। बच्चे की तालिकाओं में मौजूदा तालिका में डेटा की प्रतिलिपि बनाएँ (इसलिए डेटा दो स्थानों पर निवास करेगा)। एक बार चाइल्ड टेबल के पास सबसे हाल का डेटा होता है, नए मास्टर टेबल को इंगित करने और मौजूदा टेबल को हटाने के लिए सभी आवेषण को बदल दें।


1
यहाँ मेरे विचार: यदि टेबल में डेटाइम कॉलम है -> नया मास्टर + नया बच्चा बनाएँ -> नए डेटा को नए + ओएलडी में डालें (उदा: डेटाटाइम = 2015-07-06 00:00:00) -> ओएलडी से नए आधार पर कॉपी करें समय स्तंभ पर (जहाँ: डेटाटाइम <2015-07-06 00:00:00) -> नाम बदलें तालिका -> प्रविष्टि को नए में बदलें -> मास्टर पर डालने / अद्यतन के लिए "विभाजन ट्रिगर" बनाएं (नया डेटा डालें / अपडेट करें -) > चिल्ड्स पर जाएं, इसलिए नए डेटा को चिल्ड में डाला जाएगा) -> अपडेट मास्टर, ट्रिगर डेटा को चिल्ड्स में ले जाएगा।
लुआन हुआन

@ फिर भी, आप दूसरे विकल्प का सुझाव दे रहे हैं, लेकिन फिर एक बार डेटा कॉपी हो जाने पर, पुरानी तालिका को हटा दें और पुरानी तालिका के समान नाम रखने के लिए नई तालिका का नाम बदलें। क्या वह सही है?
इवान Appleby

नई तालिका को पुरानी तालिका में नाम बदलें, लेकिन आपको पुरानी तालिका तब तक रखनी चाहिए जब तक कि नई प्रवाह विभाजन तालिका पूरी तरह से ठीक न हो जाए।
लुआन हुआन

2
केवल कुछ मिलियन पंक्तियों के लिए मुझे नहीं लगता कि विभाजन वास्तव में आवश्यक है। आपको क्यों लगता है कि आपको इसकी आवश्यकता है? आप कौनसी समस्याएं हल करने की कोशिश कर रहे हैं?
a_horse_with_no_name

1
@ इवानऐपब्लिक DELETE FROM ONLY master_tableइसका समाधान है।
dezso

जवाबों:


21

चूंकि # 1 को मास्टर से बच्चे तक डेटा की प्रतिलिपि बनाने की आवश्यकता है, जबकि यह एक सक्रिय उत्पादन वातावरण में है, मैं व्यक्तिगत रूप से # 2 (एक नया मास्टर बनाने) के साथ गया था। यह मूल तालिका में व्यवधान को रोकता है जबकि यह सक्रिय रूप से उपयोग में है और यदि कोई समस्या है, तो मैं नए मास्टर को बिना समस्या के आसानी से हटा सकता हूं और मूल तालिका का उपयोग जारी रख सकता हूं। यहाँ यह करने के लिए कदम हैं:

  1. नया मास्टर टेबल बनाएं।

    CREATE TABLE new_master (
        id          serial,
        counter     integer,
        dt_created  DATE DEFAULT CURRENT_DATE NOT NULL
    );
  2. ऐसे बच्चे बनाएँ जो मास्टर से विरासत में मिले।

    CREATE TABLE child_2014 (
        CONSTRAINT pk_2014 PRIMARY KEY (id),
        CONSTRAINT ck_2014 CHECK ( dt_created < DATE '2015-01-01' )
    ) INHERITS (new_master);
    CREATE INDEX idx_2014 ON child_2014 (dt_created);
    
    CREATE TABLE child_2015 (
        CONSTRAINT pk_2015 PRIMARY KEY (id),
        CONSTRAINT ck_2015 CHECK ( dt_created >= DATE '2015-01-01' AND dt_created < DATE '2016-01-01' )
    ) INHERITS (new_master);
    CREATE INDEX idx_2015 ON child_2015 (dt_created);
    
    ...
  3. सभी ऐतिहासिक डेटा को नए मास्टर टेबल पर कॉपी करें

    INSERT INTO child_2014 (id,counter,dt_created)
    SELECT id,counter,dt_created
    from old_master
    where dt_created < '01/01/2015'::date;
  4. अस्थायी रूप से उत्पादन डेटाबेस में नए आवेषण / अपडेट को रोकें

  5. नए मास्टर टेबल के लिए हाल के डेटा की प्रतिलिपि बनाएँ

    INSERT INTO child_2015 (id,counter,dt_created)
    SELECT id,counter,dt_created
    from old_master
    where dt_created >= '01/01/2015'::date AND dt_created < '01/01/2016'::date;
  6. तालिकाओं का नाम बदलें ताकि नया_मास्टर उत्पादन डेटाबेस बन जाए।

    ALTER TABLE old_master RENAME TO old_master_backup;
    ALTER TABLE new_master RENAME TO old_master;
  7. INSERT कथनों के लिए फ़ंक्शन को पुराने_मास्टर में जोड़ें ताकि विभाजन को सही करने के लिए डेटा पास हो जाए।

    CREATE OR REPLACE FUNCTION fn_insert() RETURNS TRIGGER AS $$
    BEGIN
        IF ( NEW.dt_created >= DATE '2015-01-01' AND
             NEW.dt_created < DATE '2016-01-01' ) THEN
            INSERT INTO child_2015 VALUES (NEW.*);
        ELSIF ( NEW.dt_created < DATE '2015-01-01' ) THEN
            INSERT INTO child_2014 VALUES (NEW.*);
        ELSE
            RAISE EXCEPTION 'Date out of range';
        END IF;
        RETURN NULL;
    END;
    $$
    LANGUAGE plpgsql;
  8. ट्रिगर जोड़ें ताकि फ़ंक्शन को INSERTS पर बुलाया जाए

    CREATE TRIGGER tr_insert BEFORE INSERT ON old_master
    FOR EACH ROW EXECUTE PROCEDURE fn_insert();
  9. पर बाधा को निर्धारित करें

    SET constraint_exclusion = on;
  10. उत्पादन डेटाबेस पर अद्यतन और जानकारी को फिर से सक्षम करें

  11. ट्रिगर या क्रोन सेट करें ताकि नए विभाजन बन जाएं और विभाजन को सही करने के लिए नए डेटा को असाइन करने के लिए फ़ंक्शन अपडेट हो जाए। कोड उदाहरणों के लिए इस लेख को देखें

  12. पुराने_मास्टर_बैकअप हटाएं


1
अच्छा लिख ​​दिया। यह दिलचस्प होगा अगर यह वास्तव में आपके प्रश्नों को तेज करता है। 10 मिलियन अभी भी नहीं है कि कई पंक्तियाँ जो मैं विभाजन के बारे में सोचूंगा। मुझे आश्चर्य है कि यदि आपका अपमानजनक प्रदर्शन संभवतः vacuum"लेनदेन में निष्क्रिय" सत्रों को पकड़ने या रोकने के कारण नहीं था।
a_horse_with_no_name

@a_horse_with_no_name, अब तक इसने प्रश्नों को बहुत बेहतर नहीं बनाया है :( मैं हरोकू का उपयोग करता हूं जिसमें ऑटो-वैक्यूम सेटिंग्स हैं और यह इस बड़ी तालिका के लिए दैनिक रूप से प्रतीत होता है। यह उस थियो में अधिक दिखेगा।
ईवो Appleby

चरण 3 और 5 में आवेषण नए_मास्टर के लिए नहीं होने चाहिए और पोस्टग्रैक्स्ल को सही चाइल्ड टेबल / पार्टीशन चुनने दें?
पाक

@pakman सही बच्चे को सौंपने का कार्य चरण 7 तक नहीं मिला है
इवान Appleby

4

Pg_pathman ( https://github.com/postgrespro/pg_pathman ) नामक एक नया टूल है जो आपके लिए यह स्वचालित रूप से करेगा।

तो ऐसा कुछ निम्नलिखित होगा।

SELECT create_range_partitions('master', 'dt_created', 
   '2015-01-01'::date, '1 day'::interval);
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.