मैं अपने डेटा में सूक्ष्म संबंधों को कैसे व्यक्त करूं?

20

"ए" "बी" और "सी" से संबंधित है। मैं कैसे दिखा सकता हूं कि "बी" और "सी" इस संदर्भ से संबंधित हो सकते हैं?

उदाहरण:

यहाँ हाल ही में ब्रॉडवे खेलने के बारे में कुछ सुर्खियाँ हैं:

डेविड मैमेट का ग्लेनगारी ग्लेन रॉस, अल पैचीनो अभिनीत, ब्रॉडवे पर खुलता है
ग्लेनगार्री ग्लेन रॉस ’में अल पचीनो: समीक्षकों ने क्या सोचा?
अल पचीनो ब्रॉडवे मोड़ के लिए अभावपूर्ण समीक्षा अर्जित करते हैं
रंगमंच की समीक्षा: ग्लेनगार्री ग्लेन रॉस अपने सितारों को बेच रही है
ग्लेंगर्री ग्लेन रॉस; अरे, द क्लीज लाइट्स को किसने मारा?

मुसीबत:

इन रिकॉर्ड्स पर एक फजी-स्ट्रिंग मैच चलाने से कुछ रिश्ते स्थापित होंगे, लेकिन अन्य नहीं, भले ही एक मानव पाठक उन्हें बहुत बड़े डेटासेट में संदर्भ से निकाल सकता है।

मैं उस रिश्ते को कैसे खोजूं जो # 3 # 4 से संबंधित है? दोनों को आसानी से # 1 से जोड़ा जा सकता है, लेकिन एक दूसरे से नहीं।

क्या इस तरह के डेटा या संरचना के लिए एक (Googlable) नाम है? मैं किस तरह के एल्गोरिथ्म की तलाश कर रहा हूं?

लक्ष्य:

1,000 सुर्खियों को देखते हुए, एक प्रणाली जो स्वचालित रूप से यह बताती है कि ये 5 वस्तुएं शायद एक ही चीज के बारे में हैं।

सच कहूं, तो जब से मैंने प्रोग्राम किया है, तब तक ऐसा हो चुका है कि मैं इस समस्या से कैसे जूझूं। (मुझे नहीं पता कि मैं क्या नहीं जानता, अगर यह समझ में आता है)।

यह एक व्यक्तिगत परियोजना है और मैं इसे पायथन में लिख रहा हूं। किसी भी मदद, सलाह और संकेत के लिए अग्रिम धन्यवाद!

algorithms python data-structures

— चक ह
स्रोत

1

प्राकृतिक भाषा पार्सिंग और / या कुछ अन्य संभाव्य तकनीक की तरह लगता है

— jk।

2

यह एक बड़ा सवाल है!

— माइकल ब्राउन

मुझे लगता है कि मैंने उन प्रणालियों को देखा है जो प्रोलॉग में इसे लागू कर सकते हैं।

— FrustratedWithFormsDesigner

1

@FrustratedWithFormsDesigner मुझे संदेह है कि आप तर्क प्रोग्रामिंग में एकीकरण के बारे में सोच रहे हैं ..?

— इज़्काता

14

इसे क्लस्टर विश्लेषण कहा जाता है , जो मूल रूप से समान गुणों वाले ऑब्जेक्ट्स को क्लस्टर में समूहित कर रहा है। यह एक बहुत बड़ा विषय है, लेकिन इससे आपको शुरुआत करने के लिए जगह मिलनी चाहिए।

— कार्ल बेवफेल्ड
स्रोत

7

आप शब्दार्थ की दुनिया में प्रवेश कर रहे हैं। सार्वजनिक सेवाएँ हैं जो पाठ को पार्स करेंगी और प्रमुख अवधारणाओं को बाहर निकाल देंगी ( सिमेंटिक एपीआई के लिए एक त्वरित खोज कुछ बदल गई) जो कि एक निःशुल्क फ़ॉर्म दस्तावेज़ को पार्स करेगा और लोगों, स्थानों, चीज़ों, तिथियों और अवधारणाओं सहित प्रमुख विषयों को लौटाएगा। । कुछ बेहतर प्रारूप [RDF] के रूप में जाने जाएंगे।

यदि आप अपना स्वयं का सिस्टम बनाना चाहते हैं जो यह कर सकता है, तो क्षेत्र प्राकृतिक भाषा प्रसंस्करण है और यह गोता लगाने के लिए एक बहुत ही पेचीदा खरगोश छेद है।

— माइकल ब्राउन
स्रोत

4

यदि संभव हो तो, शीर्षक के साथ कहानी प्राप्त करें। सुर्खियों में कभी-कभी "प्यारा" हो सकता है और जो चर्चा की जा रही है, केवल वही संदर्भ दे सकता है। यह मनुष्यों के साथ ठीक काम करता है (क्योंकि उनके पास वैश्विक संदर्भ है ), लेकिन एनएलपी के साथ इतना अच्छा नहीं है।

जैसा कि कार्ल बेवफेल्ट के उत्तर में उल्लेख किया गया है, क्लस्टरिंग एक अच्छा तरीका है, लेकिन शैतान विवरण में है। आपको न केवल एक क्लस्टरिंग दृष्टिकोण चुनना होगा जो आपकी समस्या / उपयोगकर्ता स्थान को फिट करता है, आपको यह भी पता लगाना होगा कि क्या क्लस्टर किया जा रहा है।

मेरी पृष्ठभूमि 80 -90 के दशक से सूचना पुनर्प्राप्ति (आईआर) में है, और हमने समानता खोज और केंद्र-आधारित क्लस्टरिंग पर ध्यान केंद्रित किया है । हमारे दस्तावेजों को भारित विशेषता वैक्टर द्वारा दर्शाया गया था , जो मूल रूप से डॉक्टर की शर्तों और उनके सापेक्ष महत्व की एक सूची है। यह दृष्टिकोण काम कर सकता है (हालांकि दूसरों की तुलना में कुछ संग्रहों के साथ बेहतर), लेकिन इसमें लघु-सुंदर सुर्खियों के साथ समस्याएं हैं, क्योंकि उन्हें चीजों को एक साथ बाँधने के लिए महत्वपूर्ण शब्दावली शब्दों की कमी है। लेकिन यदि आप पूरे दस्तावेज़ का उपयोग करते हैं, तो आपको शर्तों की एक अधिक समृद्ध सूची मिलती है (और शायद बेहतर महत्व की), और शर्तों की सूची संभवतः आपके सुर्खियों में आने के समय (यानी गणना) का कनेक्शन आसान बना देगी। "प्यारा"।

यदि आप वेक्टर जनरेशन मुद्दों आदि में आना चाहते हैं तो मेरा ईमेल मेरी प्रोफाइल में है।

— पीटर रोवेल
स्रोत