एकाग्रता मापदंडों पर हाइपरपायर वितरण के साथ बहुराष्ट्रीय-डिरिचलेट मॉडल


10

मैं यथासंभव सामान्य रूप से समस्या का वर्णन करने का प्रयास करूंगा। मैं एक पैरामीटर संभाव्यता वेक्टर थीटा के साथ एक स्पष्ट वितरण के रूप में टिप्पणियों को मॉडलिंग कर रहा हूं ।

फिर, मुझे लगता है कि पैरामीटर वेक्टर थीटा एक डिरिचलेट पूर्व डिस्ट्रीब्यूशन के साथ अनुसरण करता है ।α1,α2,,αk

क्या तब के मापदंडों पर हाइपरपियर वितरण को लागू करना संभव है ? क्या यह एक बहुभिन्नरूपी वितरण होगा जैसे कि श्रेणीबद्ध और डाइरिक्लेट वितरण? मुझे लगता है कि अल्फा हमेशा सकारात्मक होते हैं इसलिए एक गामा हाइपरपायर को काम करना चाहिए।α1,α2,,αk

यकीन नहीं होता कि अगर किसी ने ऐसे (संभवतया) ओवरप्रेमेट्रिजेड मॉडलों को फिट करने की कोशिश की है, लेकिन मुझे यह सोचना उचित लगता है कि अल्फा को ठीक नहीं किया जाना चाहिए, बल्कि गामा वितरण से आना चाहिए।

कृपया मुझे कुछ संदर्भों के साथ प्रदान करने का प्रयास करें, इस पर अंतर्दृष्टि कि मैं अभ्यास में इस तरह के दृष्टिकोण की कोशिश कैसे कर सकता हूं।


हां, यह संभव है और यह किया गया है। सामान्य तौर पर इसे बायेसियन पदानुक्रमित मॉडल कहा जाता है। अधिमानतः, यह पूर्व संभव निर्भरता के लिए खाता होना चाहिए।

@Procrastinator धन्यवाद। क्या आपके पास इस तरह के मॉडल के साथ काम करने वाले अच्छे बायेसियन पदानुक्रमित मॉडल के लिए कुछ संदर्भ हैं? धन्यवाद।
दनाईल

@Procrastinator: क्या आपने बेयसियन हायरार्केन मॉडल के संबंध में कोई कागजात / रिपोर्ट या आदर्श रूप से हाथों-हाथ आवेदन पत्र प्राप्त करने का प्रयास किया है?
ज़ुर्बर्ब

जवाबों:


12

α1=α2=...αKα<1α>1

ऐसे मामलों में जहां किसी को भी विरल या घनी बहुराष्ट्रीय वितरण के लिए कोई मजबूत उम्मीद नहीं है, अपने डिर्चिलेट वितरण पर हाइपरपायर रखने से आपके मॉडल को उनके बीच चुने जाने के लिए कुछ अतिरिक्त लचीलापन मिलता है।

βDirichlet(1)λExponential()θDirichlet(βλ)

अतिरिक्त डिरिचलेट केवल समरूपता लगाने से बचने के लिए है।

मैंने यह भी देखा है कि लोग बहुराष्ट्रीय उत्सर्जन वितरण के साथ छिपे हुए मार्कोव मॉडल के संदर्भ में एक गरिमा से पहले गामा हाइपर का उपयोग करते हैं, लेकिन मैं एक संदर्भ नहीं ढूंढ सकता। इसके अलावा, ऐसा लगता है कि मैंने विषय मॉडल में उपयोग किए गए समान हाइपर का सामना किया है।


महान जवाब धन्यवाद! मेरे पास एक छोटी अनुवर्ती क्यू है, क्या यह मॉडल प्रत्येक थेट्स के लिए अलग-अलग परिवर्तनशीलता की अनुमति देगा? मेरे पास यह सवाल है क्योंकि पैरामीटर लैम्ब्डा को सभी थीटा में साझा किया जाता है, इसलिए वे सभी एक ही स्केलिंग पैरामीटर को साझा करते हैं, इसलिए मैं सोच रहा था कि ओवरडिप्रिडेशन के मामले में मॉडल ऐसा लचीलापन प्रदान करेगा। यहाँ आपके अंतर्ज्ञान / ज्ञान की बहुत सराहना की जाती है! धन्यवाद!
डायनायल

Dirichlet(0.2,0.2,0.2,0.2)θθβ

4

इस हाइपरपीयर समस्या के समाधान को प्रदर्शित करने के लिए, मैंने PyMC3 में एक पदानुक्रमित गामा-ड्यूरिचलेट-मल्टीमोमियल मॉडल लागू किया। Dirichlet के लिए गामा को निर्दिष्ट किया गया है और टेड डनिंग के ब्लॉग पोस्ट के प्रति नमूना लिया गया है ।

मेरे द्वारा लागू किया गया मॉडल इस Gist में पाया जा सकता है लेकिन नीचे भी वर्णित है:

यह फिल्म रेटिंग के लिए एक बायेसियन श्रेणीबद्ध (पूलिंग) मॉडल है। प्रत्येक फिल्म को शून्य से पांच तक के पैमाने पर रेट किया जा सकता है। प्रत्येक फिल्म को कई बार रेट किया गया है। हम प्रत्येक फिल्म के लिए रेटिंग का सुचारू वितरण करना चाहते हैं।

हम डेटा से मूवी रेटिंग पर एक शीर्ष-स्तरीय पूर्व वितरण (हाइपरपायर) सीखने जा रहे हैं। प्रत्येक फिल्म के बाद उसका अपना पूर्व होगा जो इस शीर्ष-स्तर से पहले चिकना होता है। इसके बारे में सोचने का एक और तरीका यह है कि प्रत्येक फिल्म के लिए रेटिंग्स को समूह-स्तर की ओर सिकोड़ दिया जाएगा, या वितरण किया जाएगा।

यदि किसी फिल्म में एक एटिपिकल रेटिंग वितरण है, तो यह दृष्टिकोण रेटिंग्स को कुछ और इन-लाइन के साथ सिकोड़ देगा, जो अपेक्षित है। इसके अलावा, यह पहले से सीखी गई फिल्मों को कुछ रेटिंग्स के साथ बूटस्ट्रैप करने के लिए उपयोगी हो सकता है ताकि उन्हें कई रेटिंग वाली फिल्मों की तुलना में सार्थक रूप से प्रदर्शित किया जा सके।

मॉडल इस प्रकार है:

γk=1...KGamma(α,β)

θm=1...MDirichletM(cγ1,...,cγK)

zm=1...M,n=1...NmCategoricalM(θm)

कहाँ पे:

  • KK=6
  • M
  • Nmm
  • α=1/K
  • β
  • c
  • γkk
  • θmK
  • zmnnm

1

यह एक प्रत्यक्ष बायेसियन संयुग्म पूर्व मॉडलिंग है। बीटा-बिनोमियल मॉडल से एक प्राकृतिक विस्तार। इसके लिए एक अच्छा संसाधन पुस्तक से हो सकता है । और पोस्टीरियर भी Dirichlet है और इसलिए dirichlet से अनुकरण करना आवश्यक सारांश देगा


1
धन्यवाद। मैं इस तरह की पुस्तक, महान संदर्भ से परिचित हूं। मैंने इसे देखने की कोशिश की, लेकिन वे ऐसे बहुराष्ट्रीय पदानुक्रमित मॉडल सीधे प्रदान नहीं करते हैं, लेकिन उनके पास बहुत सारे अच्छे विचार हैं जो लागू किए जा सकते हैं।
दनाईल

1
दिरिचलेट-बहुराष्ट्रीय एक संयुग्मित मॉडल है, लेकिन ऑप ने डिरिचलेट के मापदंडों पर एक (हाइपर-) के बारे में पूछताछ की। डिरिचलेट वितरण के लिए पहले कोई मानक संयुग्म नहीं है, हालांकि वास्तव में मौजूद होना चाहिए , क्योंकि यह घातीय परिवार का सदस्य है।
jerad
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.