मेरे पास पाठ फ़ाइलों का एक बड़ा और बढ़ता हुआ सेट है, जो सभी काफी छोटे हैं (100 बाइट्स से कम)। मैं फ़ाइलों और नोटों की प्रत्येक संभावित जोड़ी को अलग करना चाहता हूं जो डुप्लिकेट हैं। मैं ऐसा करने के लिए एक पायथन स्क्रिप्ट लिख सकता था, लेकिन मैं सोच रहा था कि क्या कोई मौजूदा लिनक्स कमांड-लाइन टूल (या शायद टूल का एक सरल संयोजन) है जो ऐसा करेगा?
अद्यतन ( mfinni टिप्पणी के जवाब में ): फाइलें सभी एक ही निर्देशिका में हैं, इसलिए इन सभी में अलग-अलग फ़ाइल नाम हैं। (लेकिन इन सभी में एक फ़ाइल नाम का विस्तार समान है, जिससे उन सभी को वाइल्डकार्ड के साथ चुनना आसान हो जाता है।)