हमारे पास अपने इंट्रानेट पर एक फ़ोल्डर संरचना है जिसमें लगभग 800,000 फाइलें हैं जो लगभग 4,000 फ़ोल्डरों में विभाजित हैं। हमें अपने DMZ में मशीनों के एक छोटे समूह के लिए इसे सिंक्रनाइज़ करने की आवश्यकता है। संरचना की गहराई बहुत उथली है (यह दो स्तरों से अधिक गहरी नहीं है)।
अधिकांश फाइलें कभी नहीं बदलती हैं, प्रत्येक दिन कुछ हजार अपडेट की गई फाइलें और 1-2 हजार नई फाइलें होती हैं। डेटा ऐतिहासिक रिपोर्टिंग डेटा बनाए रखा जा रहा है जहां स्रोत डेटा को शुद्ध किया गया है (यानी ये अंतिम रिपोर्टें हैं जिनके लिए स्रोत डेटा पर्याप्त रूप से पुराना है कि हम इसे संग्रहीत करते हैं और हटाते हैं)। प्रति दिन एक बार सिंक्रोनाइज़ करना पर्याप्त है कि यह उचित समय सीमा में हो सके। रिपोर्टें रातोंरात उत्पन्न होती हैं, और हम सुबह में पहली बार एक निर्धारित कार्य के रूप में सिंक करते हैं।
जाहिर है कि चूंकि कुछ फाइलें नियमित रूप से बदलती रहती हैं, इसलिए हम वृद्धिशील प्रति से काफी लाभ उठा सकते हैं। हमने Rsync की कोशिश की है, लेकिन "बिल्डिंग फाइल लिस्ट" को पूरा करने में आठ से बारह घंटे तक का समय लग सकता है । यह स्पष्ट है कि हम तेजी से बढ़ रहे हैं कि rsync क्या सक्षम है (12 घंटे की समय सीमा बहुत लंबी है)।
हम संरचनाओं को सिंक्रोनाइज़ करने के लिए एक अन्य टूल जिसका उपयोग रिपीलेब नामक किया गया था, और यह लगभग 45 मिनट में एक वृद्धिशील स्थानांतरण कर सकता है। हालाँकि ऐसा लगता है कि हमने इसकी सीमा को पार कर लिया है, इसने फाइलों को तब डिलीट होते देखना शुरू कर दिया है जब वे नहीं हैं (शायद कुछ आंतरिक मेमोरी संरचना समाप्त हो गई है, हमें यकीन नहीं है)।
क्या किसी और ने इस तरह के बड़े पैमाने पर सिंक्रनाइज़ेशन प्रोजेक्ट में भाग लिया है? क्या सिंक्रनाइज़ेशन के लिए बड़े पैमाने पर फ़ाइल संरचनाओं को संभालने के लिए कुछ डिज़ाइन किया गया है?