एक देव स्नैपशॉट के लिए तालिकाओं के केवल हिस्सों के डंप को पोस्ट करता है

Question 1

उत्पादन पर हमारा डेटाबेस आकार में कुछ सौ गीगाबाइट है। विकास और परीक्षण के लिए, हमें इस डेटाबेस के स्नैपशॉट बनाने की आवश्यकता है जो कार्यात्मक रूप से समतुल्य हैं, लेकिन जो आकार में केवल 10 या 20 गिग्स हैं।

चुनौती यह है कि हमारी व्यावसायिक संस्थाओं का डेटा कई तालिकाओं में बिखरा हुआ है। हम कुछ प्रकार के फ़िल्टर्ड स्नैपशॉट बनाना चाहते हैं ताकि डंप में केवल कुछ निकाय शामिल हों। इस तरह हम हर महीने देव और परीक्षण के लिए ताजा स्नैपशॉट प्राप्त कर सकते हैं।

उदाहरण के लिए, मान लें कि हमारे पास ऐसी संस्थाएँ हैं जिनके कई-कई रिश्ते हैं:

कंपनी के पास एन डिवीजन हैं
डिवीजन में एन कर्मचारी हैं
कर्मचारी के पास एन अटेंडेंस रिकॉर्ड है

वहाँ शायद 1000 कंपनियों, 2500 डिवीजनों, 175000 कर्मचारियों, और लाखों की उपस्थिति रिकॉर्ड है। हम कहते हैं, पहले 100 कंपनियों और उसके सभी घटक डिवीजनों, कर्मचारियों और उपस्थिति रिकॉर्ड को खींचने के लिए एक प्रतिकृति तरीका है ।

हम वर्तमान में स्कीमा के लिए pg_dump का उपयोग करते हैं, और फिर pg_dump को --disable-triggers और --data के साथ चलाते हैं ताकि सभी डेटा को छोटी तालिकाओं से बाहर निकाला जा सके। हम डेटा के हिस्से को बाहर निकालने के लिए कस्टम स्क्रिप्ट लिखना नहीं चाहते हैं क्योंकि हमारे पास तेजी से विकास चक्र है और चिंतित हैं कि कस्टम स्क्रिप्ट नाजुक और तारीख से बाहर होने की संभावना है।

हम ऐसा कैसे कर सकते हैं? क्या तृतीय-पक्ष उपकरण हैं जो डेटाबेस से तार्किक विभाजन को बाहर निकालने में मदद कर सकते हैं? इन उपकरणों को क्या कहा जाता है?

किसी भी सामान्य सलाह की भी सराहना की!

Question 2

अपने बड़े तालिकाओं पर आप सबसेट को बाहर निकालने के लिए COPY कमांड का उपयोग कर सकते हैं ...

COPY (SELECT * FROM mytable WHERE ...) TO '/tmp/myfile.tsv'

COPY mytable FROM 'myfile.tsv'

https://www.postgresql.org/docs/current/static/sql-copy.html

आपको अपने उत्पादन का सबसेट खींचने के बजाय विकास डेटा का एक सेट बनाए रखने पर विचार करना चाहिए। उस स्थिति में जब आप इकाई परीक्षण लिख रहे हैं, आप उसी डेटा का उपयोग कर सकते हैं जो परीक्षणों के लिए आवश्यक है, सभी संभावित उपयोग के मामलों को हिट करने की कोशिश कर रहा है।

Question 3

मैं किसी भी सॉफ्टवेयर के बारे में नहीं जानता जो पहले से ही ऐसा करता है, लेकिन मैं 3 वैकल्पिक समाधानों के बारे में सोच सकता हूं। दुर्भाग्य से, उन सभी को कुछ कस्टम कोडिंग की आवश्यकता होती है।

एक अलग स्कीमा में सभी तालिकाओं को फिर से बनाएं, फिर उन तालिकाओं में कॉपी करें, केवल उस डेटा का सबसेट जिसे आप डंप करना चाहते हैं, का उपयोग करते हुए INSERT INTO copy.tablename SELECT * FROM tablename WHERE ...और डंप करें।
SQL स्टेटमेंट के रूप में डेटा डंप करने के लिए अपनी स्क्रिप्ट लिखें। मैंने अतीत में इस दृष्टिकोण का उपयोग किया है और इसने केवल PHP की 20-30 लाइनों की तरह कुछ लिया है।
Pg_dump को संशोधित करें ताकि यह एकल तालिका को डंप करते समय -t स्विच के साथ एक शर्त स्वीकार करे।

Question 4

http://jailer.sourceforge.net/ ऐसा करता है।