मैं कुछ इनपुट और सिद्धांत की तलाश कर रहा हूं कि कैसे एक शाब्दिक विषय से संपर्क किया जाए।
मान लीजिए कि मेरे पास स्ट्रिंग्स का एक संग्रह है, जो सिर्फ एक वाक्य या संभावित रूप से कई वाक्य हो सकते हैं। मैं इन तारों को पार्स करना चाहता हूं और सबसे महत्वपूर्ण शब्दों को चीर देना चाहता हूं, शायद एक अंक के साथ जो यह बताता है कि शब्द कितना महत्वपूर्ण है।
आइए कुछ उदाहरणों पर गौर करें कि मेरा क्या मतलब है।
उदाहरण 1:
"मैं वास्तव में एक Keurig चाहता हूँ, लेकिन मैं एक बर्दाश्त नहीं कर सकता!"
यह एक बहुत ही बुनियादी उदाहरण है, सिर्फ एक वाक्य। एक इंसान के रूप में, मैं आसानी से देख सकता हूँ कि "केयूरिग" यहाँ सबसे महत्वपूर्ण शब्द है। इसके अलावा, "खर्च" अपेक्षाकृत महत्वपूर्ण है, हालांकि यह स्पष्ट रूप से वाक्य का प्राथमिक बिंदु नहीं है। शब्द "I" दो बार दिखाई देता है, लेकिन यह बिल्कुल महत्वपूर्ण नहीं है क्योंकि यह वास्तव में हमें कोई जानकारी नहीं बताता है। मैं इस तरह से कुछ शब्द / अंकों का हैश देखने की उम्मीद कर सकता हूं:
"Keurig" => 0.9
"afford" => 0.4
"want" => 0.2
"really" => 0.1
etc...
उदाहरण # 2:
"बस मेरे जीवन की सबसे अच्छी तैराकी प्रथाओं में से एक था। उम्मीद है कि मैं अपने समय को प्रतिस्पर्धा में बनाए रख सकता हूं। यदि केवल मुझे मेरी गैर-जलरोधी घड़ी लेने की याद थी।"
इस उदाहरण में कई वाक्य हैं, इसलिए पूरे महत्वपूर्ण शब्द होंगे। उदाहरण # 1 से बिंदु अभ्यास को दोहराए बिना, मैं शायद दो या तीन महत्वपूर्ण शब्दों को देखने की उम्मीद करूंगा, इसमें से दो शब्द आते हैं: "तैराकी" (या "तैराकी अभ्यास"), "प्रतियोगिता", और "घड़ी" (या "जलरोधक" घड़ी "या" गैर-जलरोधक घड़ी "इस बात पर निर्भर करती है कि हाइफ़न को कैसे संभाला जाता है)।
इस तरह के कुछ उदाहरणों को देखते हुए, आप ऐसा ही कुछ करने के बारे में कैसे जाएंगे? क्या प्रोग्रामिंग में कोई मौजूदा (ओपन सोर्स) लाइब्रेरी या एल्गोरिदम हैं जो पहले से ही ऐसा करते हैं?