मुझे तीन फाइल सिस्टम में डेटा के ~ 40TB के साथ एक रिसर्च क्लस्टर विरासत में मिला है। डेटा लगभग 15 साल पीछे खींचता है, और डुप्लिकेट की एक अच्छी मात्रा होने की संभावना है क्योंकि शोधकर्ता एक-दूसरे के डेटा को अलग-अलग कारणों से कॉपी करते हैं और फिर सिर्फ प्रतियों को लटकाते हैं।
मैं fdupes और rmlint जैसे डे-डुइंग टूल के बारे में जानता हूं। मैं एक ऐसे बड़े डेटासेट पर काम करने की कोशिश कर रहा हूं। मुझे परवाह नहीं है अगर सभी डेटा को क्रॉल करने में सप्ताह (या शायद महीनों) लगते हैं - तो मैं शायद इसे किसी भी तरह से फाइल सिस्टम पर आसानी से चला जाऊंगा। लेकिन मुझे एक ऐसा टूल खोजने की जरूरत है जो या तो रैम के साथ सुपर कुशल हो, या रैम के बजाय सभी मध्यस्थ डेटा को फाइलों में स्टोर कर सकता है। मैं मान रहा हूं कि अगर मैं एक सेट के रूप में इन सभी डेटा के माध्यम से क्रॉल करता हूं तो मेरी रैम (64 जीबी) समाप्त हो जाएगी।
मैं अब एक 900GB पेड़ पर fdupes के साथ प्रयोग कर रहा हूँ। यह 25% है जिस तरह से और रैम का उपयोग धीरे-धीरे पूरे समय तक रेंगता रहा है, अब यह 700 एमबी पर है।
या, डिस्क-मैपेड रैम का उपयोग करने के लिए एक प्रक्रिया को निर्देशित करने का एक तरीका है इसलिए बहुत अधिक उपलब्ध है और यह सिस्टम रैम का उपयोग नहीं करता है?
मैं CentOS 6 चला रहा हूं।