मैं समूह का प्रयास कर रहा हूं, उदाहरण के लिए, प्रोग्रामिंग के बारे में अन्य तार के साथ प्रोग्रामिंग के बारे में तार, भौतिकी के बारे में अन्य तार के साथ भौतिकी के बारे में, आदि विषयों की एक विस्तृत श्रृंखला के लिए। समस्या के भयावह सैद्धांतिक भाषाई पहलू के बावजूद, मैं वास्तव में प्रोग्रामिंग / सॉफ्टवेयर का उपयोग कर रहा हूँ।
ठहरनेवाला: बड़ी संख्या में तारों को देखते हुए, मैं उन्हें शब्दार्थ विषय द्वारा समूहीकृत कैसे करूंगा?
विशेष अनुप्रयोग: मेरे पास ~ 200k सामान्य ज्ञान के प्रश्न हैं जो मैं सामान्य समूहों (कारों, कंप्यूटरों, राजनीति, कनाडा, भोजन, बराक ओबामा, आदि) में वर्गीकृत करना चाहूंगा।
मैंने जो देखा है: विकिपीडिया में प्राकृतिक भाषा प्रसंस्करण टूलकिट्स की एक सूची है (यह मानते हुए कि मैं जो करने की कोशिश कर रहा हूं, उसे वास्तव में एनएलपी कहा जाता है) इसलिए मैंने कुछ पर ध्यान दिया है लेकिन कोई भी मेरी जरूरतों के समान कुछ भी नहीं करता है।
नोट: यह बताया गया है कि ऐसा करने के लिए अतिरिक्त ज्ञान की आवश्यकता होती है (उदाहरण के लिए एक पॉर्श एक कार, C ++ एक प्रोग्रामिंग भाषा है)। मैं मानता हूं कि प्रशिक्षण डेटा की आवश्यकता है, लेकिन अगर मेरे पास केवल प्रश्नों और उत्तरों की सूची है, तो मैं प्रशिक्षण डेटा कैसे उत्पन्न कर सकता हूं? और फिर मैं प्रशिक्षण डेटा का उपयोग कैसे करूं?
अधिक नोट्स: यदि मेरा प्रश्नोत्तर की वर्तमान स्वरूपण और मदद (हालांकि यह JSON जैसा दिखता है, तो यह मूल रूप से एक कच्ची पाठ फ़ाइल है):
// row 1: is metadata
// row 2: is a very specific kind of "category"
// row 3: is the question
// row 4: is the answer
{
15343
A MUSICAL PASTICHE
Of classical music's "three B's", he was the one born in Hamburg in 1833
Johannes Brahms
}
लेकिन इससे पहले कि कोई इंगित करता है कि पहले से ही एक श्रेणी मौजूद है, ध्यान दें कि इस तरह ~ 200k प्रश्न और उत्तर हैं, और मूल रूप से कई "श्रेणियां" हैं। मैं इन्हें ऊपर सूचीबद्ध लोगों की तरह समूह में शामिल करने की कोशिश कर रहा हूं। साथ ही, यह प्रारूपण सभी प्रश्नों के लिए बहुत आसानी से बदला जा सकता है, मैं इसे प्रोग्रामेटिक रूप से करता हूं।
और अधिक नोट्स: मुझे वास्तव में नहीं पता है कि मुझे कितने श्रेणियों (कम से कम 10-20) की आवश्यकता होगी, क्योंकि मैंने स्वयं सभी प्रश्नों के माध्यम से नहीं पढ़ा है । मैं आंशिक रूप से परिमित करने के दौरान किसी भी तरह परिमित संख्या निर्धारित होने की उम्मीद कर रहा था। किसी भी मामले में, मैं हमेशा कई श्रेणियों को मैन्युअल रूप से बना सकता हूं।