पदानुक्रमित बायेसियन मॉडल (?)


12

कृपया सांख्यिकीय लिंगो की मेरी कसौटी पर माफी माँगें :) मुझे यहाँ पर कुछ ऐसे प्रश्न मिले हैं जो विज्ञापन से संबंधित हैं और दरों पर क्लिक करते हैं। लेकिन उनमें से किसी ने भी मेरी पदानुक्रमित स्थिति की मेरी समझ के साथ बहुत मदद नहीं की।

एक संबंधित सवाल है कि क्या ये समान श्रेणीबद्ध बायेसियन मॉडल के समान प्रतिनिधित्व हैं? , लेकिन मुझे यकीन नहीं है कि वे वास्तव में एक समान समस्या है। एक अन्य प्रश्न पदानुक्रमित बायेसियन द्विपद मॉडल के लिए हाइपरप्रिअर्स के बारे में विस्तार से जाता है, लेकिन मैं उनकी समस्या का समाधान करने में सक्षम नहीं हूं

मेरे पास नए उत्पाद के लिए ऑनलाइन कुछ विज्ञापन हैं। मैंने कुछ दिनों तक विज्ञापन चलने दिया। उस बिंदु पर पर्याप्त लोगों ने विज्ञापनों पर क्लिक किया है, जिसमें से सबसे अधिक क्लिक प्राप्त होते हैं। सभी को बाहर निकालने के बाद, लेकिन जिस पर सबसे अधिक क्लिक होते हैं, मैं उसे दूसरे कुछ दिनों के लिए चलता हूं, यह देखने के लिए कि विज्ञापन पर क्लिक करने के बाद लोग वास्तव में कितना खरीदते हैं। उस बिंदु पर मुझे पता है कि क्या विज्ञापन को पहले स्थान पर चलाना एक अच्छा विचार था।

मेरे आंकड़े बहुत शोर कर रहे हैं क्योंकि मेरे पास बहुत अधिक डेटा नहीं है क्योंकि मैं केवल हर दिन कुछ आइटम बेच रहा हूं। इसलिए यह अनुमान लगाना बहुत मुश्किल है कि एक विज्ञापन को देखने के बाद कितने लोग कुछ खरीदते हैं। प्रत्येक 150 क्लिकों में से केवल एक खरीद में परिणाम होता है।

आम तौर पर बोलना मुझे यह जानना चाहिए कि क्या मैं प्रत्येक विज्ञापन पर जितनी जल्दी हो सके पैसे खो रहा हूं, किसी भी तरह से सभी विज्ञापनों के वैश्विक आंकड़ों के साथ प्रति-विज्ञापन समूह के आंकड़ों को सुचारू कर रहा हूं ।

  • यदि मैं प्रतीक्षा करता हूं जब तक कि प्रत्येक विज्ञापन ने पर्याप्त खरीदारी नहीं देखी, तो मैं टूट जाऊंगा क्योंकि इसमें बहुत लंबा समय लगता है: 10 विज्ञापनों का परीक्षण करने के लिए मुझे 10 गुना अधिक धन खर्च करने की आवश्यकता है ताकि प्रत्येक विज्ञापन के आंकड़े पर्याप्त रूप से विश्वसनीय हो जाएं। उस समय तक मेरे पास पैसे खत्म हो गए होंगे।
  • अगर मैं उन सभी विज्ञापनों पर औसत खरीदारी करता हूं, तो मैं उन विज्ञापनों को नहीं निकाल पाऊंगा जो अभी भी काम नहीं कर रहे हैं।

मैं वैश्विक खरीद दर (इस्तेमाल कर सकते हैं एन $ उप वितरण? इसका मतलब यह होगा कि मेरे पास प्रत्येक विज्ञापन के लिए जितना अधिक डेटा होगा, उस विज्ञापन के आंकड़े उतने ही अधिक स्वतंत्र होंगे। यदि किसी ने अभी तक किसी विज्ञापन पर क्लिक नहीं किया है, तो मुझे लगता है कि वैश्विक औसत उपयुक्त है।perclick)anduseitasapriorfor

मैं उसके लिए कौन सा वितरण चुनूंगा?

अगर मेरे पास A पर 20 और B पर 4 क्लिक हैं, तो मैं उसे कैसे मॉडल कर सकता हूं? अब तक मुझे पता चला है कि एक द्विपद या पॉसों के वितरण से यहां समझ में आ सकती है:

  • purchase_rate ~ poisson (?)
  • (purchase_rate | group A) ~ poisson (केवल समूह ए के लिए खरीद दर का अनुमान है?)

लेकिन मैं वास्तव में गणना करने के लिए आगे क्या करता हूं purchase_rate | group A। समूह A (या किसी अन्य समूह) के लिए समझ बनाने के लिए मैं दो वितरणों को एक साथ कैसे प्लग करूं।

क्या मुझे पहले एक मॉडल फिट करना है? मेरे पास एक डेटा है जिसे मैं एक मॉडल को "ट्रेन" करने के लिए उपयोग कर सकता हूं:

  • विज्ञापन A: 352 क्लिक, 5 खरीद
  • विज्ञापन बी: ​​15 क्लिक, 0 खरीद
  • विज्ञापन C: 3519 क्लिक, 130 खरीदारी

मैं समूहों में से किसी एक की संभावना का अनुमान लगाने का एक तरीका ढूंढ रहा हूं। यदि किसी समूह में केवल दो अंकों के अंक हैं, तो मैं अनिवार्य रूप से वैश्विक औसत पर वापस आना चाहता हूं। मैं बायेसियन आँकड़ों के बारे में थोड़ा जानता हूँ और बहुत से लोगों को पीडीएफ का वर्णन करते हुए पढ़ा है कि कैसे वे बायेसियन इनविज़न का उपयोग करते हैं और पुजारी और इतने पर संयुग्मित होते हैं। मुझे लगता है कि यह ठीक से करने का एक तरीका है, लेकिन मैं यह पता नहीं लगा सकता कि इसे सही तरीके से कैसे मॉडल किया जाए।

मैं उन संकेतों के बारे में सुपर खुश रहूंगा जो मुझे एक बायेसियन तरीके से अपनी समस्या बनाने में मदद करते हैं। इससे ऑनलाइन उदाहरण खोजने में बहुत मदद मिलेगी जिसका उपयोग मैं वास्तव में इसे लागू करने के लिए कर सकता हूं।

अपडेट करें:

जवाब देने के लिए बहुत बहुत धन्यवाद। मैं अपनी समस्या के बारे में अधिक से अधिक बिट्स को समझने लगा हूं। धन्यवाद! मुझे यह देखने के लिए कुछ प्रश्न पूछना चाहिए कि क्या मैं समस्या को थोड़ा बेहतर समझता हूं:

ab

12 12

P(conversion|ad=X)=P(ad=X|conversion)P(conversion)P(ad=X)

  • P(ad=X|conversion)α1α+β2αβαβX

  • फिर मैं पूर्व के साथ गुणा करता हूं, जो पी (रूपांतरण) है, जो मेरे मामले में सिर्फ जेफ्रीज से पहले है, जो गैर-जानकारीपूर्ण है। क्या मैं पहले से अधिक डेटा प्राप्त करूंगा?

  • P(ad)

जेफरी के पूर्व प्रयोग में, मैं मान रहा हूं कि मैं शून्य से शुरू कर रहा हूं और अपने डेटा के बारे में कुछ नहीं जानता। उस पूर्व को "गैर-सूचनात्मक" कहा जाता है। जैसा कि मैंने अपने डेटा के बारे में सीखना जारी रखा है, क्या मैं पूर्व अद्यतन करता हूं?

जैसे ही क्लिक और रूपांतरण आते हैं, मैंने पढ़ा है कि मुझे अपने वितरण को "अपडेट" करना है। क्या इसका मतलब यह है, कि मेरे वितरण के मापदण्ड बदल जाते हैं, या पूर्व के परिवर्तन? जब मुझे विज्ञापन एक्स के लिए एक क्लिक मिलता है, तो क्या मैं एक से अधिक वितरण अपडेट करता हूं? एक से अधिक पूर्व?

जवाबों:


9

जैसा कि आपने अंतर्ज्ञान किया है, आपके प्रश्न को संबोधित करने का एक बहुत ही सामान्य तरीका एक पदानुक्रमित (बहुस्तरीय) बायेसियन मॉडल का निर्माण करना है। मॉडल के तीन भाग हैं, जैसा कि नीचे दिया गया है।

नमूना

विज्ञापन रूपांतरण दरों के लिए पदानुक्रमित बायेसियन मॉडल

  1. N(μμ0,η0)μGa(λa0,b0)μ0=0,η0=0.1,a0=1,b0=1

  2. πjjjρj:=logit(πj)N(ρjμ,λ)

  3. kjjBin(kjσ(ρj),nj)σ(ρj)njj

डेटा

एक उदाहरण के रूप में, आइए आपके द्वारा अपने मूल प्रश्न में पोस्ट किया गया डेटा लेते हैं,

विज्ञापन A: 352 क्लिक, 5 खरीद

विज्ञापन बी: ​​15 क्लिक, 0 खरीद

विज्ञापन C: 3519 क्लिक, 130 खरीदारी

n1=352,k1=5,n2=15,k2=0,

अनुमान

इस मॉडल को बदलने का मतलब है कि हमारे मॉडल मापदंडों के लिए पीछे के वितरण को प्राप्त करना। यहां, मैंने मॉडल उलटा करने के लिए एक वैरिएबल बे दृष्टिकोण का उपयोग किया, जो एमसीएमसी जैसी स्टोचस्टिक नमूनाकरण योजनाओं की तुलना में कम्प्यूटेशनल रूप से अधिक कुशल है। मैंने नीचे दिए गए परिणामों को प्लॉट किया है।

डेटा और परिणामी डाकिया

आंकड़ा तीन पैनल दिखाता है। (ए) आपके द्वारा दिए गए उदाहरण डेटा का एक सरल दृश्य। ग्रे बार क्लिकों की संख्या का प्रतिनिधित्व करते हैं, काली पट्टियाँ रूपांतरणों की संख्या दर्शाती हैं। (b) परिणामस्वरूप जनसंख्या पर पश्चवर्ती वितरण का अर्थ रूपांतरण दर है। जैसा कि हम अधिक डेटा का निरीक्षण करते हैं, यह अधिक से अधिक सटीक हो जाएगा। (c) विज्ञापन-विशिष्ट पश्चवर्ती रूपांतरण दरों के केंद्रीय ९ ५% पीछे होने की संभावना अंतराल (या विश्वसनीय अंतराल)।

अंतिम पैनल एक बायेसियन दृष्टिकोण की दो प्रमुख विशेषताओं को पदानुक्रमित मॉडलिंग को दिखाता है। सबसे पहले, डाकियों की सटीकता अंतर्निहित डेटा बिंदुओं की संख्या को दर्शाती है। उदाहरण के लिए, हमारे पास विज्ञापन सी के लिए अपेक्षाकृत कई डेटा बिंदु हैं; इस प्रकार, इसका विज्ञापन अन्य विज्ञापनों के डाकियों की तुलना में अधिक सटीक है।

दूसरा, विज्ञापन-विशिष्ट अनुमानों को जनसंख्या के बारे में जानकारी द्वारा सूचित किया जाता है। दूसरे शब्दों में, विज्ञापन-विशिष्ट पोस्टर पूरे समूह के डेटा पर आधारित होते हैं, एक प्रभाव जिसे आबादी में सिकुड़ना कहा जाता है । उदाहरण के लिए, विज्ञापन A का पश्चवर्ती मोड (काला वृत्त) इसकी अनुभवजन्य रूपांतरण दर (नीला) की तुलना में बहुत अधिक है। ऐसा इसलिए है क्योंकि अन्य सभी विज्ञापनों में उच्चतर पोस्ट मोड हैं, और इस प्रकार हम समूह के माध्यम से अपने विज्ञापन-विशिष्ट अनुमानों को सूचित करके जमीनी सच्चाई का बेहतर अनुमान प्राप्त कर सकते हैं। हमारे पास किसी विशेष विज्ञापन के बारे में जितना कम डेटा होगा, उतना ही उसका विज्ञापन अन्य विज्ञापनों के डेटा से प्रभावित होगा।

आपके मूल प्रश्न में आपके द्वारा वर्णित सभी विचार उपरोक्त मॉडल में स्वाभाविक रूप से पूरे होते हैं, एक पूरी तरह से बायेसियन सेटिंग की व्यावहारिक उपयोगिता को दर्शाते हैं।


Kay, आप अपने विस्तृत जवाब के लिए धन्यवाद। मैं समझता हूं कि उत्तर थोड़ा दिनांकित है, लेकिन क्या आपने इसे साथ रखा है तो क्या आप इसके साथ कोड साझा करना चाहेंगे? मैं पदानुक्रमित बायेसियन मॉडलिंग सीखने की कोशिश कर रहा हूं, लेकिन आर। में सहज ज्ञान युक्त उदाहरण खोजने के लिए संघर्ष कर रहा हूं
ज़ुर्बर्

@Kay, दिलचस्प जवाब के लिए धन्यवाद, क्या आप पदानुक्रमित बायेसियन मॉडल के लिए कुछ संदर्भ जोड़ सकते हैं? धन्यवाद!
user511005

1
: हाय @Zhubarb, user511005, यहाँ ऊपर मॉडल का वर्णन कागज के लिए एक लिंक है sciencedirect.com/science/article/pii/S1053811913002371 मैंने एक साथ परिवर्तन संबंधी निष्कर्ष करने के लिए एक संक्षिप्त परिचय यहाँ रखा: people.inf.ethz.ch/ bkay / वार्ता / Brodersen_2013_03_22.pdf
केय ब्रोडर्सन

2

p

paabb

ab(12,12)a,b

pa,b


आपके संपादन के जवाब में:

pabppab

बायेसियन अपडेट है

P(px)P(p)P(xp)

xpababp

जेफ्रीज़ की पूर्व की योजनाएं पहले की तरह ही नहीं हैं, लेकिन मेरा मानना ​​है कि यह बेहतर है जब तक कि आपके पास इसका उपयोग करने का एक अच्छा कारण न हो। यदि आप उस बारे में चर्चा शुरू करना चाहते हैं तो एक और सवाल पूछने के लिए स्वतंत्र महसूस करें।


उत्तर देने के लिये धन्यवाद! मैंने अपने मूल प्रश्न को अपडेट किया क्योंकि मैं इस टिप्पणी बॉक्स में पात्रों से बाहर चला गया। यह बहुत अच्छा होगा अगर आप अपडेट में लिखे गए कुछ विवरणों के लिए कुछ प्रतिक्रिया दे सकते हैं।
मिका तिहोनेन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.