विषय मॉडलिंग / LDA के लिए R संकुल: सिर्फ `विषय-निर्माता` और` lda` [बंद]


29

यह मुझे लगता है कि केवल दो आर संकुल अव्यक्त डिरिचलेट आवंटन करने में सक्षम हैं :

एक है lda, जोनाथन चांग द्वारा लिखित; और दूसरा topicmodelsबेट्टीना ग्रुन और कर्ट हॉर्निक द्वारा लिखा गया है।

प्रदर्शन, कार्यान्वयन विवरण और एक्स्टेंसिबिलिटी के संदर्भ में इन दोनों पैकेजों के बीच क्या अंतर हैं?

जवाबों:


26

कार्यान्वयन: विषय-वस्तु पैकेज Blei एट अल द्वारा विषय मॉडल के लिए GSL C और C ++ कोड को एक इंटरफ़ेस प्रदान करता है। और फान एट अल। पहले के लिए यह बाद वाले गिब्स सैंपलिंग के लिए वैरिएंट ईएम का उपयोग करता है। Http://www.jstatsoft.org/v40/i13/paper देखें । पैकेज tm पैकेज से उपयोगिताओं के साथ अच्छी तरह से काम करता है।

जीडीएएल लाइब्रेरी के उन लोगों के समान कई मॉडलों के लिए lda पैकेज एक गिब्स्ड गिब्स सैम्पलर का उपयोग करता है। हालांकि, इसे पैकेज लेखकों द्वारा ही लागू किया गया है, बेली एट अल द्वारा नहीं। यह कार्यान्वयन इसलिए सामान्य रूप से इन मॉडल वेरिएंट को प्रस्तुत करने वाले मूल पत्रों में प्रस्तावित अनुमान तकनीक से भिन्न होता है, जहां VEM एल्गोरिथ्म आमतौर पर लागू होता है। दूसरी ओर, पैकेज अधिक कार्यक्षमता प्रदान करता है तो दूसरा पैकेज। पैकेज टेक्स्ट माइनिंग की कार्यक्षमता भी प्रदान करता है।

एक्स्टेंसिबिलिटी: एक्स्टेंसिबिलिटी के बारे में, इसकी प्रकृति द्वारा विषय वस्तु कोड को C और C ++ में लिखे गए अन्य विषय मॉडल कोड को इंटरफ़ेस करने के लिए बढ़ाया जा सकता है। लेखकों द्वारा प्रदान किए गए विशिष्ट कार्यान्वयन पर lda पैकेज अधिक निर्भर करता है, लेकिन वहाँ गिब्स नमूना अपने स्वयं के विषय मॉडल को निर्दिष्ट करने की अनुमति दे सकता है। एक्स्टेंसिबिलिटी के मुद्दों नोटा के लिए, पूर्व को GPL-2 और बाद वाले LGPL के तहत लाइसेंस प्राप्त है, इसलिए यह इस बात पर निर्भर हो सकता है कि आपको इसके लिए क्या विस्तार करना है (GPL-2 खुले स्रोत पहलू के बारे में सख्त है, अर्थात आप इसका उपयोग नहीं कर सकते हैं मालिकाना सॉफ्टवेयर में)।

प्रदर्शन: मैं यहाँ आपकी मदद नहीं कर सकता, मैंने अभी तक केवल विषय-वस्तु का उपयोग किया है।

निष्कर्ष:
व्यक्तिगत तौर पर मैं का उपयोग topicmodels, के रूप में यह अच्छी तरह से प्रलेखित (ऊपर जेएसएस कागज देखें) और मैं लेखकों पर भरोसा (Grün भी implemeted flexmix और HORNIK आर कोर सदस्य है)।


7
सबसे पहले, मुझे यकीन है कि विषय-वस्तु एक उत्कृष्ट पैकेज है, और मैं मानता हूं कि यह बहुत अच्छी तरह से प्रलेखित है। एलडीए पैकेज के लेखकों पर "भरोसा" करने के बारे में, जोनाथन चांग मेरे पीएचडी छात्र थे, और मुझे उनके कोड पर पूरी तरह से भरोसा है। वह एक उत्कृष्ट सॉफ्टवेयर इंजीनियर और विद्वान दोनों हैं। उनका पैकेज आसान है, काफी बड़े संग्रह के लिए अच्छा है, और आर में परिणाम तलाशने के लिए अच्छा है। (मुझे पसंद है और मैं दस्तावेजों के विरल मैट्रिक्स प्रतिनिधित्व के लिए उपयोग किया जाता हूं।) ध्यान दें, एलडीए रिलेशनल सहित अन्य मॉडलों को लागू करता है। विषय मॉडल, एलडीए (जीएलएम के साथ), और मिश्रित-सदस्यता स्टोचस्टिक ब्लॉकमॉडल की देखरेख करते हैं।

वजन करने के लिए धन्यवाद, मुझे यकीन है कि ldaपैकेज बहुत अच्छा है, मेरा मतलब यह नहीं है कि इसका मतलब ldaकिसी तरह से हीन कोड है। मैंने अपनी व्यक्तिगत धारणा बताई (प्रलेखन थोड़ा टेढ़ा दिखाई दिया)। चूंकि यह> 2 साल पहले मैंने जवाब को थोड़ा संपादित किया था (सीआरएएन पेज पर टाइपोस अभी भी हैं, मुझे लगता है कि उनके लिए तय किया जाना अच्छा होगा लेकिन ऐसा लगता है कि ईमेल खो गया है)।
मोमो

मुझे लगता है कि आपके पास दोनों पैकेजों के साथ बहुत अनुभव है और सामान्य विषय के बारे में सबसे अधिक जानते हैं, दोनों पैकेजों के कुछ पेशेवरों और विपक्षों को सूचीबद्ध करने के लिए उत्तर कैसे प्रदान करें? मैंने उपयोग नहीं किया lda, इसलिए मैं इसका अनुभवजन्य मूल्यांकन नहीं कर सका। यह प्रदान करना कि निश्चित रूप से ओपी और बाकी सभी के साथ-साथ किसी भी संभावित अन्याय को ठीक करने में मदद करेगा (जो इच्छित नहीं थे)। धन्यवाद!
मोमो

1
मैंने भी दोनों की कोशिश की, और ldaपैकेज को अधिक विकल्प शामिल पाया । हालांकि, यह समझना मुश्किल है कि मॉडल में फिट होने के लिए अपने डेटा को कैसे प्रारूपित करें। topicmodelsपैकेज के साथ अच्छी तरह से काम tmपैकेज है, जबकि ldaपैकेज एक सूची है जो स्पष्ट नहीं है बनाने के लिए कैसे अनुरोध करता है।
ओमरी 374

12

विषय- कर्ताओं के लिए +1 । @ मोमो का जवाब बहुत व्यापक है। मैं सिर्फ वह topicmodelsशब्द जोड़ता हूं जो दस्तावेज़ की अवधि वाले मेट्रिक्स के रूप में इनपुट लेता है, जो आसानी से tmपैकेज के साथ या अजगर का उपयोग करके बनाया जाता है । ldaपैकेज एक अधिक गूढ़ इनपुट के रूप (Blei की झील प्राधिकरण-सी के आधार पर) का उपयोग करता है और मैं का उपयोग कर कोई भाग्यशाली रहे हैं निर्मित में तब्दील DTM के कार्यों ldaपैकेज स्वरूप (lda प्रलेखन मोमो नोटों के रूप में, बहुत खराब है)।

मैं कुछ कोड है कि कच्चे पाठ के साथ शुरू होता है, है उस में पूर्व संसाधित करता है tmऔर के माध्यम से कहते हैं यह topicmodels(अग्रिम में विषयों का इष्टतम संख्या खोजने और उत्पादन के साथ काम कर सहित) यहाँtopicmodelsपहली बार आने वाले किसी व्यक्ति के लिए उपयोगी हो सकता है ।


3
उन लोगों के लिए जो पहले से ही tm का उपयोग नहीं कर रहे हैं , और lda के साथ खेलना चाहते हैं , JFreq भी LDA-C के पसंदीदा प्रारूप में सादे पाठ डालता है।
कंजुगेटपायर

JFreq के बारे में जानना अच्छा है, मैंने इसे पहले नहीं देखा है। पारितोषिक के लिए धन्यवाद!
बेन

1
मैं सिर्फ पैकेज read_dtm_Blei_et_alमें कार्य tmकरता है जो एक ही काम करता है।
बेन

3

मौली रॉबर्ट्स, ब्रैंडन स्टीवर्ट और डस्टिन टिंगली द्वारा आर स्ट्रक्चरल टॉपिक मॉडल (एसटीएम) पैकेज भी एक बढ़िया विकल्प है। टीएम पैकेज के शीर्ष पर निर्मित यह दस्तावेज़-स्तरीय कोवरिएट जानकारी के साथ विषय मॉडलिंग के लिए एक सामान्य रूपरेखा है।

http://structuraltopicmodel.com/

एसटीएम पैकेज में विषयों की संख्या निर्धारित करने के लिए तरीकों की एक श्रृंखला (ग्रिड खोज) और उपाय (अर्थ सहानुभूति, अवशिष्ट और विशिष्टता) शामिल हैं। विषयों की संख्या को 0 पर सेट करने से भी मॉडल को विषयों की अधिकतम संख्या निर्धारित करने में मदद मिलेगी।

StmBrowser पैकेज विषयों पर बाहरी चर के प्रभाव की कल्पना करने के लिए एक महान डेटा दृश्य पूरक है। 2016 के राष्ट्रपति वाद-विवाद से संबंधित इस उदाहरण को देखें: http://alexperrier.github.io/stm-visualization/index.html


0

मैंने सभी 3 पुस्तकालयों का उपयोग किया, सभी 3 अर्थात, विषय-वस्तु, lda, stm; हर कोई n ग्राम के साथ काम नहीं करता है। विषयगत पुस्तकालय अपने अनुमान के साथ अच्छा है और यह n ग्राम के साथ भी काम करता है। लेकिन अगर कोई यूनी ग्राम के साथ काम कर रहा है, तो व्यवसायी एसटीएम को प्राथमिकता दे सकता है क्योंकि यह संरचित आउटपुट देता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.