मेरे पास 10000 से अधिक छवियां हैं जो लगभग 2000 अन्य प्रारूपों (जैसे जेपीईजी, पीएनजी, जीआईएफ) में डुप्लिकेट हैं। इन दोनों की संख्या हर दिन बढ़ रही है। मुझे उन डुप्लिकेट्स को हटाने की आवश्यकता है और इसके लिए मुझे पता होना चाहिए कि उन्हें पहले कैसे खोजना है।
मेरा पहला विचार एक छवि पिक्सेल की जांच करना और अन्य चित्रों को ढूंढना है जिनके समान निर्देशांक में समान रंगीन पिक्सेल हैं। लेकिन यह विकल्प हमेशा काम नहीं करता है। मान लीजिए कि मैं एक डुप्लिकेट की खोज करता हूं। खोज योग्य वस्तु के लिए मैं एक 8 बिट पीएनजी फ़ाइल चुनता हूं। यह उस छवि के सभी डुप्लिकेट मिल जाएगा, लेकिन केवल 8 बिट PNG, कभी-कभी 8 बिट GIF और शायद ही कभी जेपीईजी (छवियों के एल्गोरिदम के कारण मुझे लगता है?)।
मेरा दूसरा विचार उन सभी छवियों को डुप्लिकेट करना था और उन्हें एक सख्त दो रंग पैलेट में पुनरावृत्ति करना (चलो काले और सफेद कहते हैं) और जैसा कि ऊपर कहा गया है, वैसा ही स्कैन करें। फिर भी जेपीईजी छवि पीएनजी या जीआईएफ प्रारूप के समान 100% नहीं है (ऊपर जैसा कारण?)।
तीसरे सोचा के लिए गया था कमी कितना छवि परिचित होना चाहिए और करने की जरूरत है है पर प्रतिशत वृद्धि कितना रंग भिन्न हो सकते हैं, अवांछित छवि निष्कासन में जिसके परिणामस्वरूप ...
कोई विचार?