मैं इंगित करना चाहता था, क्योंकि यह इस विषय के लिए शीर्ष Google हिट्स में से एक है, कि लेटेंट डिरिचलेट एलोकेशन (एलडीए), पदानुक्रमित डिरिचलेट प्रक्रियाएं (एचडीपी), और पदानुक्रमित लैटेंट डिरिचलेट आवंटन (एचएलडीए) सभी अलग-अलग मॉडल हैं।
एलडीए मॉडल दस्तावेजों को निश्चित संख्या में विषयों के डाइरिक्लेट मिश्रण के रूप में- उपयोगकर्ता द्वारा मॉडल के एक पैरामीटर के रूप में चुना जाता है- जो शब्दों के बारीक मिश्रण में होते हैं। यह विषयों और दस्तावेजों में शर्तों के एक फ्लैट, नरम संभाव्य क्लस्टरिंग उत्पन्न करता है।
एचडीपी मॉडल विषय शब्दों के मिश्रण के रूप में, एलडीए की तरह, लेकिन दस्तावेजों की एक निश्चित संख्या के मिश्रण होने के बजाय, विषयों की संख्या एक dirichlet प्रक्रिया द्वारा उत्पन्न होती है, जिसके परिणामस्वरूप विषयों की संख्या एक यादृच्छिक चर भी होती है। नाम का "पदानुक्रमित" भाग जेनेरिक मॉडल (विषयों की संख्या का उत्पादन करने वाली डिरिक्लेट प्रक्रिया) में जोड़ा जा रहा एक अन्य स्तर को संदर्भित करता है, न कि विषयों को स्वयं- विषय अभी भी फ्लैट क्लस्टरिंग हैं।
दूसरी ओर hLDA, LDA का एक रूपांतर है जो कि एक नए, विशिष्ट स्तर के मिश्रण के रूप में मॉडल विषयों, dirichlet वितरण से तैयार किया गया है।और नहीं प्रक्रियाओं। यह अभी भी विषयों की संख्या को हाइपरपैरमीटर के रूप में मानता है, अर्थात, डेटा से स्वतंत्र। अंतर यह है कि क्लस्टरिंग अब पदानुक्रमित है - यह विषयों के पहले सेट की एक क्लस्टरिंग सीखता है, विषयों के बीच एक अधिक सामान्य, अमूर्त संबंध (और इसलिए, शब्द और दस्तावेज़) देता है। इसे ऐसे समझें जैसे गणित, विज्ञान, प्रोग्रामिंग, इतिहास इत्यादि में स्टैक एक्सचेंजों को क्लस्ट करने के रूप में, डेटा साइंस को क्लस्ट करने और एक सार सांख्यिकी और प्रोग्रामिंग विषय में सत्यापन को पार करने के विपरीत है, जो सॉफ्टवेयर इंजीनियरिंग, लेकिन सॉफ्टवेयर इंजीनियरिंग के साथ कुछ अवधारणाओं को साझा करता है। एक्सचेंज को कंप्यूटर विज्ञान एक्सचेंज के साथ एक अधिक ठोस स्तर पर क्लस्टर किया गया है, और सभी वर्णित एक्सचेंजों के बीच समानता समूहों की ऊपरी परत तक दिखाई नहीं देती है।