"ए" "बी" और "सी" से संबंधित है। मैं कैसे दिखा सकता हूं कि "बी" और "सी" इस संदर्भ से संबंधित हो सकते हैं?
उदाहरण:
यहाँ हाल ही में ब्रॉडवे खेलने के बारे में कुछ सुर्खियाँ हैं:
- डेविड मैमेट का ग्लेनगारी ग्लेन रॉस, अल पैचीनो अभिनीत, ब्रॉडवे पर खुलता है
- ग्लेनगार्री ग्लेन रॉस ’में अल पचीनो: समीक्षकों ने क्या सोचा?
- अल पचीनो ब्रॉडवे मोड़ के लिए अभावपूर्ण समीक्षा अर्जित करते हैं
- रंगमंच की समीक्षा: ग्लेनगार्री ग्लेन रॉस अपने सितारों को बेच रही है
- ग्लेंगर्री ग्लेन रॉस; अरे, द क्लीज लाइट्स को किसने मारा?
मुसीबत:
इन रिकॉर्ड्स पर एक फजी-स्ट्रिंग मैच चलाने से कुछ रिश्ते स्थापित होंगे, लेकिन अन्य नहीं, भले ही एक मानव पाठक उन्हें बहुत बड़े डेटासेट में संदर्भ से निकाल सकता है।
मैं उस रिश्ते को कैसे खोजूं जो # 3 # 4 से संबंधित है? दोनों को आसानी से # 1 से जोड़ा जा सकता है, लेकिन एक दूसरे से नहीं।
क्या इस तरह के डेटा या संरचना के लिए एक (Googlable) नाम है? मैं किस तरह के एल्गोरिथ्म की तलाश कर रहा हूं?
लक्ष्य:
1,000 सुर्खियों को देखते हुए, एक प्रणाली जो स्वचालित रूप से यह बताती है कि ये 5 वस्तुएं शायद एक ही चीज के बारे में हैं।
सच कहूं, तो जब से मैंने प्रोग्राम किया है, तब तक ऐसा हो चुका है कि मैं इस समस्या से कैसे जूझूं। (मुझे नहीं पता कि मैं क्या नहीं जानता, अगर यह समझ में आता है)।
यह एक व्यक्तिगत परियोजना है और मैं इसे पायथन में लिख रहा हूं। किसी भी मदद, सलाह और संकेत के लिए अग्रिम धन्यवाद!