लघु दस्तावेजों के लिए विषय

14

इस सवाल से प्रेरित होकर , मैं सोच रहा हूं कि क्या किसी भी विषय पर बहुत छोटे ग्रंथों के बड़े संग्रह के लिए कोई काम किया गया है। मेरा अंतर्ज्ञान यह है कि ट्विटर को इस तरह के मॉडल के लिए एक प्राकृतिक प्रेरणा होना चाहिए। हालांकि, कुछ सीमित प्रयोग से, ऐसा लगता है कि मानक विषय मॉडल (LDA, आदि) इस तरह के डेटा पर काफी खराब प्रदर्शन करते हैं।

क्या किसी को भी इस क्षेत्र में किए गए किसी काम का पता नहीं है? यह पेपर एलडीए को ट्विटर पर लागू करने के बारे में बात करता है, लेकिन मुझे वास्तव में दिलचस्पी है कि क्या अन्य एल्गोरिदम हैं जो शॉर्ट-डॉक्यूमेंट के संदर्भ में बेहतर प्रदर्शन करते हैं।

— मार्टिन ओ'लेरी
स्रोत

2

ट्विटर विषयवस्तु के लिए विशेष रूप से कठिन डेटासेट है, न केवल 'दस्तावेजों' के छोटे आकार के कारण, बल्कि पाठ के प्रकार के कारण भी। लोग विभिन्न टेक्सटिंग शॉर्टहैंड का उपयोग करते हैं, जो सह-घटनाओं की पहचान करना और भी कठिन बना देता है।

— निक

ट्वीट्स पर विषय मॉडलिंग के लिए अच्छे कागजात और संबंधित स्रोत कोड की सूची देखें: quora.com/…

— NQD

7

यह एक देर से जवाब है, लेकिन यह इस समस्या के लिए संबंधित अनुसंधान और उपकरणों की खोज करने वाले अन्य लोगों के लिए उपयोगी हो सकता है:

कोलंबिया के वेईवेई गुओ ने लघु-पाठ विषय मॉडलिंग के लिए कोड लागू किया। उन्होंने "लेटेंट स्पेस में मॉडलिंग सेंटिंग्स" ( http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf ) पेपर में कार्यान्वयन का वर्णन किया और यहां कोड उपलब्ध है: http: www .cs.columbia.edu / ~ Weiwei / code.html
यद्यपि यह विषय मॉडलिंग नहीं है, यदि आपके पास ग्रंथों के छोटे टुकड़ों को शामिल करने वाला एक वर्गीकरण कार्य है, तो आप LibShortText का उपयोग कर सकते हैं। उनके वेब साइट विवरण से

"LibShortText लघु-पाठ वर्गीकरण और विश्लेषण के लिए एक खुला स्रोत उपकरण है। यह उदाहरण के लिए, शीर्षक, प्रश्न, वाक्य और लघु संदेश के वर्गीकरण को संभाल सकता है ..."

http://www.csie.ntu.edu.tw/~cjlin/libshorttext/

— डीपीएस
स्रोत

6

जबकि मैं उनके काम से सुपर परिचित नहीं हूं, मुझे पता है कि जैकब ईसेनस्टीन ने ट्विटर डेटा में पाठ विश्लेषण और चित्रमय मॉडल में काम किया है। विशेष रूप से, यह पत्र ट्विटर डेटा और माइक्रोब्लॉग्स में विषय मॉडलिंग के एक आवेदन का वर्णन करता है।

संपादित करें: वास्तव में कागज को थोड़ा और पढ़ने के बाद, वे कहते हैं:

हालांकि, ट्विटर पर औसत संदेश केवल सोलह शब्द टोकन है, जो पारंपरिक विषय मॉडलिंग के लिए बहुत विरल है; इसके बजाय, हमने दिए गए उपयोगकर्ता के सभी संदेशों को एक दस्तावेज़ में एकत्रित किया।

तो शायद यह कि बहुत कागज बहुत मदद का नहीं हो सकता है, फिर भी शायद अन्य ईसेनस्टीन प्रकाशन आपको सही दिशा में ले जा सकते हैं।

— Junier
स्रोत

6

हाल ही में एक पेपर जिसे " लघु पाठ के लिए एक बिटरम विषय मॉडल " कहा गया है (WWW13) ने इस विषय पर कुछ प्रगति की है, और यहां इसका कोड है

— ज़ियाहुई यान
स्रोत

2

मैं पुष्टि करता हूं कि BiTerm LDA ने लघु पाठ उच्चारण (3-8 शब्द) विषय मॉडलिंग और बाद के वर्गीकरण के लिए बहुत अच्छा काम किया है।

— व्लादिस्लाव डोवलगेक्स