यदि आप वास्तव में करना चाहते हैं, तो यह देखें कि क्या दो प्रोजेक्ट्स में कोड क्लोन (कॉपी किया हुआ) है (दोनों प्रोजेक्ट्स जिसमें संभवतः फाइलों के बड़े सेट शामिल हैं)। आप क्लोन डिटेक्शन टूल चलाकर ऐसा कर सकते हैं। विकिपीडिया उनमें से कई को सूचीबद्ध करता है।
स्थूल रूप से तय करने के लिए कि बहुत अधिक नकल है, आपको केवल स्रोत लाइनों से मेल खाना चाहिए, और वहाँ से बाहर सटीक स्रोत-लाइन क्लोन डिटेक्टर की एक किस्म है। मेरा मानना है कि पीएमडी उनमें से एक है। ये क्या नहीं करेंगे कोड कोड पेस्ट-संपादित है; वे बॉयलर-कॉपी-पेस्ट-अपरिवर्तित कोड को कॉपी-पास्ट-एडेड सामान के चारों ओर लिपटे हुए पाएंगे।
यदि आप कॉपी-पास्ट-एडिट कोड के लिए कॉपी का विवरण देखना चाहते हैं, तो आपको एक क्लोन डिटेक्टर की आवश्यकता होती है जो "पैरामीटर" वाले क्लोन को ढूंढता है। टोकन आधारित डिटेक्टर संपादन के लिए ऐसा करते हैं जो केवल चर नामों या स्थिरांक को प्रतिस्थापित करते हैं।
एब्सट्रैक्ट-सिंटैक्स ट्री (एएसटी) आधारित डिटेक्टर बड़े चंक्स से जुड़े एडिट के लिए करते हैं, जैसे एक्सप्रेशन, स्टेटमेंट, इंसर्शन, डिलीट, एट। ये उत्तरार्द्ध बेहतर उत्तर देते हैं, क्योंकि टोकन डिटेक्टरों के विपरीत, वे एक गाइड के रूप में कंप्यूटर स्रोत कोड की भाषा संरचना का उपयोग कर सकते हैं।
हमारा क्लोन टूल एक ऐसा डिटेक्टर है।
मुझे ऐसे उपकरणों का पता नहीं है जो वास्तव में "समतुल्य" कोड (उलटे सशर्त) आदि पाएंगे। शोधकर्ताओं ने क्लोन डिटेक्टर बनाए हैं जो ऐसा कुछ करते हैं, लेकिन कॉम्बिनेटरिक्स इसे निष्पादित करने के लिए बहुत महंगा बनाते हैं, और अनुसंधान प्रोटोटाइप खराब तरीके से स्केल करते हैं।