अव्यक्त डिरिचलेट आवंटन बनाम पदानुक्रमित डिरिचलेट प्रक्रिया


49

अव्यक्त डिरिचलेट आवंटन (LDA) और पदानुक्रमित डिरिचलेट प्रक्रिया (HDP) दोनों विषय मॉडलिंग प्रक्रियाएं हैं। प्रमुख अंतर एलडीए को विषयों की संख्या के विनिर्देश की आवश्यकता है, और एचडीपी नहीं है। ऐसा क्यों हैं? और दोनों विषय मॉडलिंग विधियों के अंतर, पेशेवरों और विपक्ष क्या हैं?


क्या एचडीपी को उन विषयों की संख्या के संबंध में डेटा-संचालित माना जाता है, जो इसे चुनेंगे? व्यावहारिक पक्ष पर, मैंने बेली के एचडीपी कार्यान्वयन को चलाने की कोशिश की और यह पूरी स्मृति को खा गया जब तक कि मैंने इस प्रक्रिया को नहीं मार दिया। मेरे पास 16GB रैम है और विश्लेषण करने के लिए सिर्फ 100K लघु दस्तावेज़ हैं।
व्लादिस्लाव डोभालगिक्स

जवाबों:


35

एचडीपी एलडीए का एक विस्तार है, इस मामले को संबोधित करने के लिए डिज़ाइन किया गया है जहां मिश्रण घटकों की संख्या (दस्तावेज़-मॉडलिंग शर्तों में "विषयों" की संख्या) को प्राथमिकता नहीं कहा जाता है। तो यही कारण है कि एक अंतर है।

दस्तावेज़ मॉडलिंग के लिए LDA का उपयोग करते हुए, प्रत्येक "विषय" को कुछ ज्ञात शब्दावली में शब्दों के वितरण के रूप में मानता है। प्रत्येक दस्तावेज़ के लिए विषयों का मिश्रण एक डिरिचलेट वितरण से तैयार किया जाता है, और फिर दस्तावेज़ में प्रत्येक शब्द उस मिश्रण से एक स्वतंत्र ड्रा होता है (अर्थात, एक विषय का चयन करना और फिर एक शब्द उत्पन्न करने के लिए इसका उपयोग करना)।

HDP (दस्तावेज़ मॉडलिंग के लिए लागू) के लिए, एक भी विषयों की संख्या में अनिश्चितता को पकड़ने के लिए एक ड्यूरिचलेट प्रक्रिया का उपयोग करता है। तो एक सामान्य आधार वितरण का चयन किया जाता है जो कॉर्पस के लिए संभावित विषयों के अनगिनत-अनंत सेट का प्रतिनिधित्व करता है, और फिर प्रत्येक दस्तावेज़ के लिए विषयों के परिमित वितरण को इस आधार वितरण से नमूना लिया जाता है।

जहां तक ​​पेशेवरों और विपक्षों की बात है, एचडीपी को यह फायदा है कि अधिकतम संख्या में विषय पहले से निर्दिष्ट किए जाने के बजाय डेटा से अनबाउंड और सीखे जा सकते हैं। मुझे लगता है कि यह लागू करने के लिए अधिक जटिल है, और उस मामले में अनावश्यक है जहां विषयों की एक सीमित संख्या स्वीकार्य है।


22

वास्तविक रूप से, मैं पदानुक्रमित एलडीए से आउटपुट से कभी प्रभावित नहीं हुआ हूं। यह सिर्फ विषयों की संख्या चुनने के लिए ग्रैन्युलैरिटी का एक इष्टतम स्तर खोजने के लिए प्रतीत नहीं होता है। मैंने नियमित एलडीए के कुछ पुनरावृत्तियों को चलाकर बहुत बेहतर परिणाम प्राप्त किए हैं, मैन्युअल रूप से उत्पादित किए गए विषयों का निरीक्षण करना, यह निर्णय लेना कि विषयों की संख्या को बढ़ाना या घटाना है, और जब तक मैं जिस ग्रैन्युलैरिटी की तलाश कर रहा हूं उसे प्राप्त करना जारी रखता हूं।

याद रखें: श्रेणीबद्ध एलडीए आपके दिमाग को नहीं पढ़ सकता है ... यह नहीं जानता कि आप वास्तव में किस विषय के लिए मॉडलिंग का उपयोग करने का इरादा रखते हैं। जैसे k- साधन क्लस्टरिंग के साथ, आपको उस k को चुनना चाहिए जो आपके उपयोग के मामले के लिए सबसे अधिक समझ में आता है।


16

मैं इंगित करना चाहता था, क्योंकि यह इस विषय के लिए शीर्ष Google हिट्स में से एक है, कि लेटेंट डिरिचलेट एलोकेशन (एलडीए), पदानुक्रमित डिरिचलेट प्रक्रियाएं (एचडीपी), और पदानुक्रमित लैटेंट डिरिचलेट आवंटन (एचएलडीए) सभी अलग-अलग मॉडल हैं।

एलडीए मॉडल दस्तावेजों को निश्चित संख्या में विषयों के डाइरिक्लेट मिश्रण के रूप में- उपयोगकर्ता द्वारा मॉडल के एक पैरामीटर के रूप में चुना जाता है- जो शब्दों के बारीक मिश्रण में होते हैं। यह विषयों और दस्तावेजों में शर्तों के एक फ्लैट, नरम संभाव्य क्लस्टरिंग उत्पन्न करता है।

एचडीपी मॉडल विषय शब्दों के मिश्रण के रूप में, एलडीए की तरह, लेकिन दस्तावेजों की एक निश्चित संख्या के मिश्रण होने के बजाय, विषयों की संख्या एक dirichlet प्रक्रिया द्वारा उत्पन्न होती है, जिसके परिणामस्वरूप विषयों की संख्या एक यादृच्छिक चर भी होती है। नाम का "पदानुक्रमित" भाग जेनेरिक मॉडल (विषयों की संख्या का उत्पादन करने वाली डिरिक्लेट प्रक्रिया) में जोड़ा जा रहा एक अन्य स्तर को संदर्भित करता है, न कि विषयों को स्वयं- विषय अभी भी फ्लैट क्लस्टरिंग हैं।

दूसरी ओर hLDA, LDA का एक रूपांतर है जो कि एक नए, विशिष्ट स्तर के मिश्रण के रूप में मॉडल विषयों, dirichlet वितरण से तैयार किया गया है।और नहीं प्रक्रियाओं। यह अभी भी विषयों की संख्या को हाइपरपैरमीटर के रूप में मानता है, अर्थात, डेटा से स्वतंत्र। अंतर यह है कि क्लस्टरिंग अब पदानुक्रमित है - यह विषयों के पहले सेट की एक क्लस्टरिंग सीखता है, विषयों के बीच एक अधिक सामान्य, अमूर्त संबंध (और इसलिए, शब्द और दस्तावेज़) देता है। इसे ऐसे समझें जैसे गणित, विज्ञान, प्रोग्रामिंग, इतिहास इत्यादि में स्टैक एक्सचेंजों को क्लस्ट करने के रूप में, डेटा साइंस को क्लस्ट करने और एक सार सांख्यिकी और प्रोग्रामिंग विषय में सत्यापन को पार करने के विपरीत है, जो सॉफ्टवेयर इंजीनियरिंग, लेकिन सॉफ्टवेयर इंजीनियरिंग के साथ कुछ अवधारणाओं को साझा करता है। एक्सचेंज को कंप्यूटर विज्ञान एक्सचेंज के साथ एक अधिक ठोस स्तर पर क्लस्टर किया गया है, और सभी वर्णित एक्सचेंजों के बीच समानता समूहों की ऊपरी परत तक दिखाई नहीं देती है।


0

मेरे पास एक ऐसी स्थिति है जहां एलडीए की तुलना में एचडीपी अच्छा काम करता है। मेरे पास लगभग 16000 दस्तावेज हैं जो विभिन्न वर्गों के हैं। जैसा कि मैं इस बात से अनभिज्ञ हूं कि मैं प्रत्येक कक्षा के लिए कितने अलग-अलग विषयों को इकट्ठा कर सकता हूं, एचडीपी वास्तव में इस मामले में सहायक है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.