लघु दस्तावेजों के लिए विषय


14

इस सवाल से प्रेरित होकर , मैं सोच रहा हूं कि क्या किसी भी विषय पर बहुत छोटे ग्रंथों के बड़े संग्रह के लिए कोई काम किया गया है। मेरा अंतर्ज्ञान यह है कि ट्विटर को इस तरह के मॉडल के लिए एक प्राकृतिक प्रेरणा होना चाहिए। हालांकि, कुछ सीमित प्रयोग से, ऐसा लगता है कि मानक विषय मॉडल (LDA, आदि) इस तरह के डेटा पर काफी खराब प्रदर्शन करते हैं।

क्या किसी को भी इस क्षेत्र में किए गए किसी काम का पता नहीं है? यह पेपर एलडीए को ट्विटर पर लागू करने के बारे में बात करता है, लेकिन मुझे वास्तव में दिलचस्पी है कि क्या अन्य एल्गोरिदम हैं जो शॉर्ट-डॉक्यूमेंट के संदर्भ में बेहतर प्रदर्शन करते हैं।


2
ट्विटर विषयवस्तु के लिए विशेष रूप से कठिन डेटासेट है, न केवल 'दस्तावेजों' के छोटे आकार के कारण, बल्कि पाठ के प्रकार के कारण भी। लोग विभिन्न टेक्सटिंग शॉर्टहैंड का उपयोग करते हैं, जो सह-घटनाओं की पहचान करना और भी कठिन बना देता है।
निक

ट्वीट्स पर विषय मॉडलिंग के लिए अच्छे कागजात और संबंधित स्रोत कोड की सूची देखें: quora.com/…
NQD

जवाबों:


7

यह एक देर से जवाब है, लेकिन यह इस समस्या के लिए संबंधित अनुसंधान और उपकरणों की खोज करने वाले अन्य लोगों के लिए उपयोगी हो सकता है:

  1. कोलंबिया के वेईवेई गुओ ने लघु-पाठ विषय मॉडलिंग के लिए कोड लागू किया। उन्होंने "लेटेंट स्पेस में मॉडलिंग सेंटिंग्स" ( http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf ) पेपर में कार्यान्वयन का वर्णन किया और यहां कोड उपलब्ध है: http: www .cs.columbia.edu / ~ Weiwei / code.html

  2. यद्यपि यह विषय मॉडलिंग नहीं है, यदि आपके पास ग्रंथों के छोटे टुकड़ों को शामिल करने वाला एक वर्गीकरण कार्य है, तो आप LibShortText का उपयोग कर सकते हैं। उनके वेब साइट विवरण से

"LibShortText लघु-पाठ वर्गीकरण और विश्लेषण के लिए एक खुला स्रोत उपकरण है। यह उदाहरण के लिए, शीर्षक, प्रश्न, वाक्य और लघु संदेश के वर्गीकरण को संभाल सकता है ..."

http://www.csie.ntu.edu.tw/~cjlin/libshorttext/


6

जबकि मैं उनके काम से सुपर परिचित नहीं हूं, मुझे पता है कि जैकब ईसेनस्टीन ने ट्विटर डेटा में पाठ विश्लेषण और चित्रमय मॉडल में काम किया है। विशेष रूप से, यह पत्र ट्विटर डेटा और माइक्रोब्लॉग्स में विषय मॉडलिंग के एक आवेदन का वर्णन करता है।

संपादित करें: वास्तव में कागज को थोड़ा और पढ़ने के बाद, वे कहते हैं:

हालांकि, ट्विटर पर औसत संदेश केवल सोलह शब्द टोकन है, जो पारंपरिक विषय मॉडलिंग के लिए बहुत विरल है; इसके बजाय, हमने दिए गए उपयोगकर्ता के सभी संदेशों को एक दस्तावेज़ में एकत्रित किया।

तो शायद यह कि बहुत कागज बहुत मदद का नहीं हो सकता है, फिर भी शायद अन्य ईसेनस्टीन प्रकाशन आपको सही दिशा में ले जा सकते हैं।


6

हाल ही में एक पेपर जिसे " लघु पाठ के लिए एक बिटरम विषय मॉडल " कहा गया है (WWW13) ने इस विषय पर कुछ प्रगति की है, और यहां इसका कोड है


2
मैं पुष्टि करता हूं कि BiTerm LDA ने लघु पाठ उच्चारण (3-8 शब्द) विषय मॉडलिंग और बाद के वर्गीकरण के लिए बहुत अच्छा काम किया है।
व्लादिस्लाव डोवलगेक्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.