मैं डेटा के एक बहुत बड़े पूल में डुप्लिकेट तस्वीरें कैसे पा सकता हूं (दसियों से सैकड़ों गिग्स)?


16

क्या कोई अच्छी फोटो डुप्लीकेशन डिटेक्शन यूटिलिटी का सुझाव दे सकता है, जब मैं 100 जीबी डेटा (वर्षों में एकत्र) के साथ काम कर रहा हूं?

मैं उबंटू पर काम करने वाली किसी चीज को पसंद करूंगा।

अग्रिम में धन्यवाद!

संपादित करें: क्या एक उपकरण है जो मेरे संग्रह को पुनर्गठित करने और डुप्लिकेट को हटाने में मदद करेगा, एक बार उनका पता चलने के बाद?

Edit2: हार्ड पार्ट यह पता लगा रहा है कि एक बार आउटपुट करने के लिए मुझे हजारों डुप्लिकेट फ़ाइलों (जैसे fdupes के आउटपुट) से मिलकर क्या करना होगा।

यह स्पष्ट नहीं है कि अगर मैं अभी भी किसी निर्देशिका को सुरक्षित रूप से हटा सकता हूं (यानी यदि निर्देशिका में अद्वितीय फ़ाइलें हो सकती हैं), जो निर्देशिका अन्य निर्देशिकाओं के सबसेट हैं और इसी तरह। इस समस्या के लिए एक आदर्श उपकरण फ़ाइल दोहराव का निर्धारण करने में सक्षम होना चाहिए और फिर अपनी फ़ाइलों और फ़ोल्डरों के पुनर्गठन का एक शक्तिशाली साधन प्रदान करना चाहिए। हार्डलिंकिंग के द्वारा मर्ज करना (जैसा कि fslint करता है) वास्तव में डिस्कनेक्ट को मुक्त करता है, लेकिन यह अंतर्निहित समस्या को हल नहीं करता है जिसने दोहराव को जन्म दिया है - यानी खराब फ़ाइल / डीआईआर संगठन।


AskUbuntu , unix.stackexchange और superuser पर इन संबंधित प्रश्नों को भी देखें ।
BioGeek

जवाबों:


7

ImageMagick बचाव के लिए। मुझे लगता है कि किसी भी समाधान के लिए पहला कदम आपके संग्रह के आकार को कम करना है। यदि आप फ़ोटो की उसकी सामग्री से तुलना करना चाहते हैं , खासकर जब कुछ एक दूसरे से थोड़ा संशोधित संस्करण हैं, तो उन्हें थंबनेल पर कम करना और फिर थंबनेल की तुलना करना बहुत अच्छी शुरुआत है। यह विशेष रूप से तब मददगार होता है जब आप लगभग समान तस्वीरें ढूंढना चाहते हैं और तुलना के दौरान महत्वहीन अंतरों को "अनदेखा" करना चाहते हैं।

मेरा सुझाव है, उच्च स्तर पर, कि आप:
1- फोटो को कम करने के लिए ImageMagick के mogrify टूल का उपयोग करें। इसमें कुछ समय लगेगा लेकिन यह वास्तविक तुलना चरणों को बहुत तेज और अधिक सटीक बना देगा।
2- ImageMagick की तुलना टूल का उपयोग करें जो आपको तुलना के लिए एक सीमा निर्धारित करने की अनुमति देता है , अर्थात यह आपको उन फ़ोटो को खोजने की अनुमति देता है जो 85% समान हैं। आप उस सीमा मूल्य का पता लगाने के लिए एक नियंत्रित प्रयोग करना चाहेंगे जो आपको सबसे अधिक पसंद हो।


मैं वास्तव में पहले थंबनेल बनाने के इस विचार को पसंद करता हूं। डुप्लिकेट मिलने के बाद यह क्या करता है? क्या यह सिर्फ एक सूची प्रदर्शित करता है? मेरे पास 10 से हजारों डुप्लिकेट हैं और इनको हल करने के लिए एक अच्छा GUI बहुत उपयोगी होगा।
फास्टरज

2
चूंकि आप उबंटू का उपयोग करते हैं, आप स्वचालित रूप से विशेष उपकरणों के एक मेजबान तक पहुंचते हैं, प्रत्येक एक बहुत ही विशिष्ट कार्य को हल करता है जैसे कि मेरे द्वारा बताए गए 2 कार्य। यह एक लेगो खेल है, आप जो चाहें कर सकते हैं, आपको बस टुकड़ों को एक साथ रखना होगा। तकनीकी रूप से, आप 'तुलना' उपकरण के लिए 2 फ़ोटो फ़ीड करते हैं और यह आपको बताएगा कि एक दूसरे से कितना मिलता जुलता है। अपनी समस्या को हल करने का एक तरीका सभी समान फ़ोटो को फ़ोल्डर्स में समूहित करना है ताकि आप झूठी सकारात्मक फ़िल्टर करने के लिए उन्हें जा सकें। फिर आप झूठी सकारात्मक पर फिर से 'तुलना' चलाते हैं और प्रक्रिया को दोहराते हैं जब तक कि सभी अपने सही स्थानों पर न हों।
कोड़ी

4

ओपन सोर्स फोटो दर्शक / आयोजक Geeqie में एक शक्तिशाली फाइंड डुप्लिकेट फ़ीचर है । यह डुप्लिकेट खोजने के लिए कई अलग-अलग रणनीतियों का उपयोग कर सकता है:

  • फ़ाइल का नाम (मामला संवेदनशील या असंवेदनशील)
  • फाइल का आकार
  • फ़ाइल की तारीख
  • छवि आयाम
  • एमडी 5 चेकसम।
  • समान छवि सामग्री (कई थ्रेसहोल्ड के लिए)

यह एक परिणाम सूची देता है जिसमें थंबनेल शामिल हो सकते हैं ताकि आप मैन्युअल रूप से पुष्टि कर सकें।

यह संभवतः हजारों फ़ाइलों के लिए धीमा होगा , लेकिन मुझे लगता है कि बस इसका उपयोग करना और इसे कुछ दिनों तक चलने देना या जो कुछ भी संभव है, वह इस मामले के लिए कुछ खोजने या बनाने की तुलना में समग्र रूप से कम प्रयास है - जब तक कि चेकसम मैच की आप सभी को आवश्यकता नहीं है।


अच्छा लगता है। डुप्लिकेट मिलने के बाद यह क्या करता है? क्या यह सिर्फ एक सूची प्रदर्शित करता है? मेरे पास 10 से हजारों डुप्लिकेट हैं और इनको हल करने के लिए एक अच्छा GUI बहुत उपयोगी होगा।
फास्टरज

यह उन्हें GUI विंडो में प्रदर्शित करता है।
कृपया

3

थोड़ी सी उपयोगिता है जिसे "fdupes" कहा जाता है जो कि आपकी इच्छा के अनुरूप हो सकता है?

एक और उपयोगिता भी है जिसे "fslint" कहा जाता है जिसे आप भी आज़माना चाह सकते हैं। (यह एक जीयूआई है)।


मैंने चित्रों के एक छोटे से सेट (कुछ गिग या तो) पर fslint की कोशिश की और इसकी निराशा यह है कि यह सिर्फ वहां बैठता है और घूमता है। कोई प्रगति संकेतक, समय का अनुमान नहीं, कुछ भी नहीं।
फास्टरज

1
ये उपकरण समान फ़ाइलों की तलाश में दिखाई देते हैं। यहां तक ​​कि एक समान (पिक्सेल के लिए पिक्सेल) छवि अलग-अलग फ़ाइल सामग्री हो सकती है। मैं अनुमान लगा रहा हूं कि आप न केवल एक जैसी दिखना चाहते हैं, बल्कि विभिन्न स्वरूपों में भी ऐसा करते हैं, और आपके द्वारा किए गए फसलों और अन्य प्रसंस्करण सहित आकार, जैसे कि एक ही तस्वीर में एक ही तस्वीर के सभी रूपों को इकट्ठा करना। निर्देशिका। यह उन चित्रों की एक नरम तुलना होगी जो एक आत्मविश्वास मैच कारक होंगे, और एक ही दृश्य के विभिन्न फ़ोटो से मेल खा सकते हैं।
स्कैपरन

@ शेपरन आप जो सुझाव देते हैं वह बहुत अच्छा है, लेकिन क्या ऐसे उपकरण उबंटू के लिए मौजूद हैं? मैंने विंडोज के लिए कहीं एक उल्लेख किया है - लेकिन ऐसा प्रतीत होता है कि एक
छिपी हुई

ImageDupeless एक विंडोज़ ऐप है जो एक जैसे दिखने वाले फ़ोटो को पकड़ लेगा, लेकिन कुछ अंतर है। यह कुछ घुमाव, फसलों, आकार, रंग टिंट परिवर्तन, वॉटरमार्क, आदि को पकड़ लेगा ... आपको अपनी लाइब्रेरी को स्कैन करना होगा और यह बताना होगा कि आप कितना अंतर स्वीकार करते हैं, और यह आपको फाइलों को आसानी से दिखाएगा। लेकिन यह सैकड़ों फाइलों के लिए असाधारण रूप से बोझिल होगा, और हजारों फाइलें भयानक होंगी। मैं भी ImageDupless के बराबर एक लिनक्स की तलाश कर रहा हूँ। एक ऐप जो छवियों के समान होने पर बताने के लिए तरंगिका या कुछ अन्य इमेजिंग जादू करता है।
Therealstubot

के लिए मैन पेज विकल्प पढ़ें fdupes- दुपट्टे को हटाने के लिए एक विकल्प है। askubuntu.com/a/476732
rrauenza

1

dupeGuru चित्र संस्करण विंडोज, मैक ओएस एक्स और लिनक्स के लिए एक अनुकूलन योग्य डुप्लिकेट छवि खोजक है।

डूपगुरु (मानक, संगीत और चित्र संस्करण) के कुछ संस्करण हैं, और चित्र संस्करण आपको तुलनात्मक एल्गोरिथ्म के माध्यम से नेत्रहीन समान छवियों को खोजने की अनुमति देता है , अन्य तरीकों के बीच (जैसे EXIF ​​मूल छवि टाइमस्टैम्प, या फ़ाइलों के समान होने) ।

इसमें विभिन्न प्रकार की अन्य उपयोगी सुविधाएँ शामिल हैं जैसे अपवर्जित फ़ोल्डर, iPhoto / एपर्चर पुस्तकालयों के लिए समर्थन, और यह कैसे डुप्लिकेट का पता लगाता है और उनके साथ क्या करता है, इसका काफी अनुकूलन।


0

डुप्लिकेट फ़ोटो से आपका क्या मतलब है? क्या आपके पास ऐसी फाइलें हैं जो समान हैं, कहते हैं कि एक अतिरिक्त समय या दो की नकल की? या क्या आप ऐसी तस्वीरों का अर्थ करते हैं जो "समान" दिखें।

यदि आपके पास समान फ़ाइलों का मतलब है, तो आप सभी फाइलों पर 'shasum' का उपयोग कर सकते हैं, तो परिणाम का आदेश दें और 'uniq' के साथ अद्वितीय लाइनें ढूंढें और देखें कि क्या समाप्त हो गया है। एक Ubuntu खोल में सभी आसान।


इसमें से कोई भी आसान या सुविधाजनक नहीं है। नीचे उल्लिखित fdupes पहले से ही SHA की गणना करने से बेहतर काम करेंगे। अब क्या यूनिक्स उपकरण हैं जो छवि समानता की तलाश करेंगे? यदि हां, तो यह भयानक होगा।
फास्टरज

यूनिक्स उपकरणों का उपयोग करने के लिए उपयोग किए जाने वाले किसी के लिए आसान और सुविधाजनक, जो कि यूनीक, सॉर्ट, डिफरेंट, श्सम, आदि हैं। लेकिन मैं मानता हूं कि यदि आप नियमित रूप से उनका उपयोग नहीं करते हैं, तो वे उपयोग करने में कठिन हो सकते हैं। मुझे ऐसी किसी चीज का पता नहीं है जो "जैसा दिखता है" वह सब कुछ है जो मैंने देखा है, जिसमें एपर्चर और लाइटरूम भी शामिल है, फाइल-ए-समरूप है, जो वास्तव में सिर्फ एक md5 या shasum है
Pat Farrell

मैं नियमित रूप से यूनिक्स टूल का उपयोग करता हूं और मुझे यह उत्तर कुछ मूर्खतापूर्ण लगता है। सबसे पहले, SHA नेत्रहीन रूप से करना धीमा होता है, जब एक फ़ाइल आकार की तुलना चीजों को हल करती है। दूसरा, SHA या MD5 टकरा सकते हैं - इसलिए SHA की तुलना अकेले काफी होती है। यदि आप इन दोनों में फैक्टर रखते हैं, तो आपको वह मिलता है जो fdupes करता है।
फास्टरज

इसके अलावा, एक बार जब आप सही ढंग से उस भस्म को जोड़ लेते हैं, तो आउटपुट अभी भी बहुत उपयोगी नहीं है। सबसे अच्छा आपको fdupes का आउटपुट मिलता है जो समान फ़ाइलों का एक डंप है। मेरे मामले में मेरे पास 10 हज़ार हैं और यह देखना बहुत मुश्किल है कि मैं कैसे डुप्लिकेट को खत्म कर सकता हूं।
फास्टरज

1
SHAs सिद्धांत में टकराते हैं, लेकिन व्यवहार में नहीं। हाँ, यह हमेशा के लिए लेता है। कुछ भी नहीं है जो काम करने जा रहा है तेजी से हो रहा है। लेकिन आपको इसे किक करने और एक या दो दिन में वापस आने में सक्षम होना चाहिए। यह सिर्फ एक सुझाव है, मैं इस पर एक युद्ध में नहीं जा रहा हूँ।
पैट फैरेल

0

"ब्लीचबिट" नाम का एक अप्लायंस है, जो आकार, नाम और अन्य फिल्टर द्वारा डुप्लिकेट फ़ाइलों को ढूंढता है। आप इसे ubuntu में synapctic पैकेज प्रबंधक से स्थापित कर सकते हैं।


डुप्लिकेट मिलने के बाद यह क्या करता है? क्या यह सिर्फ एक सूची प्रदर्शित करता है? मेरे पास 10 से हजारों डुप्लिकेट हैं और इनको हल करने के लिए एक अच्छा GUI बहुत उपयोगी होगा।
फास्टरज
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.