क्यों बीटा / डिरिचलेट रिग्रेशन को सामान्यीकृत रैखिक मॉडल नहीं माना जाता है?


26

आधार आर पैकेज betareg1 के विगनेट से यह उद्धरण है ।

इसके अलावा और अधिक, मॉडल सामान्यीकृत रैखिक मॉडल (GLMs; मैककुलघ और नेल्डर 1989) के साथ कुछ गुण (जैसे रैखिक भविष्यवक्ता, लिंक फ़ंक्शन, फैलाव पैरामीटर) साझा करता है, लेकिन यह इस ढांचे का एक विशेष मामला नहीं है (तय फैलाव तक भी नहीं) )

यह उत्तर इस तथ्य को भी स्पष्ट करता है:

[...] यह एक प्रकार का प्रतिगमन मॉडल है जो उचित है जब प्रतिक्रिया चर को बीटा के रूप में वितरित किया जाता है। आप इसे सामान्यीकृत रैखिक मॉडल के अनुरूप मान सकते हैं । यह वास्तव में आप क्या देख रहे हैं [...] (मेरा जोर)

प्रश्न शीर्षक यह सब कहता है: क्यों बीटा / डिरिचलेट रिग्रेशन को सामान्यीकृत रैखिक मॉडल नहीं माना जाता है (क्या वे नहीं हैं)?


जहां तक ​​मुझे पता है, सामान्यीकृत रैखिक मॉडल स्वतंत्र लोगों पर उनके आश्रित चर सशर्त की अपेक्षा पर बनाए गए मॉडल को परिभाषित करता है।

जी वाई एक्स बीटा σ 2f एक ऐसा लिंक फंक्शन है जो उम्मीद के अनुसार मैप करता है, प्रायिकता वितरण है, परिणाम और भविष्य कहनेवाला है, रैखिक पैरामीटर और संस्करण हैं।gYXβσ2

f(E(YX))g(βX,Iσ2)

माध्य और विचरण के बीच के संबंध में विभिन्न GLMs थोपते हैं (या आराम करते हैं), लेकिन घातांक परिवार में एक प्रायिकता वितरण होना चाहिए, एक वांछनीय संपत्ति जो सही ढंग से याद करने पर अनुमान की मजबूती में सुधार करना चाहिए। बीटा और डिरिचलेट वितरण घातीय परिवार का हिस्सा हैं, हालांकि, इसलिए मैं विचारों से बाहर हूं।g


[१] क्रिबिरी-नेटो, एफ।, और ज़ाइलिस, ए। (२०० ९)। आर में बीटा प्रतिगमन।



@amoeba लिंक के लिए धन्यवाद, इससे पहले कि सवाल नहीं देखा था।
Firebug

2
मुझे लगता है कि यह मुद्दा यह है कि यदि आप बीटा वितरण को मानक , मापदंडों (यानी से एकरूप (0,1)) के साथ लिखते हैं, तो बीटा वितरण घातीय परिवार में है, यदि आप इसे लिखते हैं (माध्य) और (फैलाव) के संदर्भ में , यह नहीं है। लेकिन मैंने कभी इस बात की परवाह नहीं की है कि क्या एक वितरण घातीय परिवार में है। लिए एक = = 1 μ φaba=b=1μϕ
क्लिफ एबी एबी

@ क्लिफब टिम के जवाब के तहत टिप्पणियों को पढ़ने के बाद ऐसा लगता है कि बीटा का पैरामीट्रिजेशन मापदंडों के गैर-ऑर्थोगोनलिटी की ओर जाता है, जो मैककुलर-नेल्डर जीएलएम के लिए एक आवश्यकता प्रतीत होती है।
Firebug

1
मुझे लगता है कि यह संक्षिप्त उत्तर है: आंकड़े.stackexchange.com/a/18812/28666 प्रासंगिक है और यहां उत्तरों में जोड़ता है (यह बताता है कि क्यों GLM को मूल रूप से घातीय फैलाव परिवार के साथ परिभाषित किया गया था)।
अमीबा का कहना है कि मोनिका

जवाबों:


20

मूल संदर्भ की जाँच करें:

फेरारी, एस।, और क्रिबारी-नेटो, एफ। (2004)। मॉडलिंग दरों और अनुपात के लिए बीटा प्रतिगमन। जर्नल ऑफ एप्लाइड स्टैटिस्टिक्स, 31 (7), 799-815।

लेखकों के रूप में, फिर से पैरामीट्रिज्ड बीटा वितरण के पैरामीटर सहसंबद्ध हैं, इसलिए

ध्यान दें कि सामान्यीकृत रैखिक प्रतिगमन मॉडल (मैककूल और नेल्डर, 1989) के वर्ग में सत्यापित होने के विपरीत, पैरामीटर और ऑर्थोगोनल नहीं हैं।φβϕ

इसलिए जबकि मॉडल जीएलएम की तरह दिखता है और जीएलएम की तरह क्वैक होता है, यह पूरी तरह से फ्रेमवर्क में फिट नहीं होता है।


7
+1 लेकिन अधिक विस्तृत उत्तर देना बहुत अच्छा होगा। मैं, व्यक्तिगत रूप से, उद्धरण (लिंक किए गए पेपर को खोलने के बाद भी) नहीं समझता। बीटा प्रतिगमन में ये पैरामीटर ऑर्थोगोनल क्यों नहीं हैं? .. यह GLMs के लिए क्यों आवश्यक है? .. आदि
अमीबा कहते हैं

3
ईमानदारी से @amoeba, मैं उस तरह का व्यक्ति नहीं हूं जो आपको उस पर विस्तृत जवाब दे सके। जीएलएम के पीछे की थ्योरी में मेरी इतनी दिलचस्पी नहीं थी कि इस तरह की सूक्ष्मताओं की गहरी समझ हो। मैककुलघ और नेल्डर ने इस आवश्यकता का उल्लेख किया है, लेकिन मुझे यह देखने के लिए उनकी पुस्तक की जांच करने की आवश्यकता है कि वास्तव में यह क्यों महत्वपूर्ण है। यदि कोई इस बारे में विस्तृत विवरण देता है कि यह एक मुद्दा क्यों है, तो मैं इस तरह के उत्तर के लिए एक इनाम देने पर विचार करूंगा।
टिम

9
GLMs में ऑर्थोगोनलिटी की आवश्यकता महत्वपूर्ण है: इसका मतलब है कि आप शेष संभावना को याद करने के बारे में चिंता किए बिना समीकरण का अनुमान लगा सकते हैं। पैरामीटर अनुमान संगत हैं यदि उपरोक्त माध्य समीकरण सही ढंग से निर्दिष्ट है। यदि इसके अतिरिक्त विचरण सही रूप से निर्दिष्ट किया गया है, तो इंजेक्शन मान्य है। हालाँकि, बीटा प्रतिगमन में आप इस तरह से दो मॉडल समीकरणों को अलग नहीं कर सकते, भले ही केवल एक स्थिर हो। सुसंगत परिणामों के लिए सब कुछ सही ढंग से निर्दिष्ट किया जाना है। φg(μ)=xβϕ
अचिम जाइलिस

3
@AchimZeileis मुझे याद आया कि मैंने CV पर आपका नाम देखा था। आप जो कहते हैं वह सही समझ में आता है। हो सकता है कि आप कुछ और तर्क जोड़कर अपनी टिप्पणी को उत्तर देने के लिए बदलना चाहें? जैसा कि मैंने कहा, मुझे इस सवाल का विस्तृत जवाब देने वाले किसी व्यक्ति के लिए इनाम देने में खुशी होगी।
टिम

2
@ समय मिलने पर ऐसा करने का प्रयास करेंगे। इसलिए मैंने सोचा कि एक त्वरित टिप्पणी कुछ भी नहीं से बेहतर है ...
अचिम जाइलिस

8

@Probabilityislogic द्वारा उत्तर सही रास्ते पर है।

बीटा वितरण दो पैरामीटर घातीय परिवार में हैनेल्डर और वेडरबर्न (1972) द्वारा वर्णित सरल जीएलएम मॉडल में दो पैरामीटर घातांक परिवार में सभी वितरण शामिल नहीं हैं।

एन एंड डब्ल्यू द्वारा लेख के संदर्भ में, जीएलएम निम्न प्रकार के घनत्व कार्यों पर लागू होता है (इसे बाद में जोर्जेंसन 1987 में घातीय फैलाव परिवार का नाम दिया गया ):

π(z;θ,ϕ)=exp[α(ϕ){zθg(θ)+h(z)}+β(ϕ,z)]

प्राकृतिक पैरामीटर लिए एक अतिरिक्त लिंक फ़ंक्शन और रैखिक मॉडल के साथ ।θ = ( μ ) = ( एक्स β )f()θ=f(μ)=f(Xβ)


इसलिए हम उपरोक्त वितरण को भी फिर से लिख सकते हैं:

π(z;μ,ϕ)=exp[z(f(μ)α(ϕ))+h(z)α(ϕ)g(f(μ))α(ϕ)+β(ϕ,z)]

दो पैरामीटर घातीय परिवार है:

f(z;θ1,θ2)=exp[T1(z)η1(θ1,θ2)+T2(z)η2(θ1,θ2)g(θ1,θ2)+h(z)]

जो समान लेकिन अधिक सामान्य दिखता है (यह भी कि यदि कोई एक स्थिर है)।θ


अंतर स्पष्ट है, और जीएलएम के रूप में बीटा वितरण को एक फॉर्म में रखना भी संभव नहीं है।

हालाँकि, मुझे अधिक सहज और अच्छी तरह से सूचित जवाब बनाने के लिए पर्याप्त समझ की कमी है (मुझे यह महसूस होता है कि विभिन्न प्रकार के मूलभूत सिद्धांतों में बहुत गहरे और अधिक सुरुचिपूर्ण रिश्ते हो सकते हैं)। GLM कम से कम वर्ग मॉडल के स्थान पर एक एकल वैरिएबल घातीय फैलाव मॉडल का उपयोग करके त्रुटि के वितरण को सामान्य करता है और लिंक फ़ंक्शन का उपयोग करके, रैखिक संबंध को सामान्य करता है।

सबसे अच्छा और सबसे सरल अंतर्ज्ञान प्रस्फुटन में -term का प्रतीत होता है , जो सब कुछ के साथ गुणा हो जाता है और इस प्रकार फैलाव साथ भिन्न नहीं होता है । जबकि कई दो पैरामीटर घातीय परिवार, और अर्ध-संभावना वाले तरीके, फैलाव पैरामीटर के साथ-साथ का एक फ़ंक्शन होने की अनुमति देते हैं ।θ θα(ϕ)θθ


एन एंड डब्ल्यू परिभाषित डीएफ में दूसरा पैरामीटर फैलाव है। यह एक पैरामीटर प्राकृतिक घातीय परिवारϕπ(z;θ)
the

@amoeba बीटा एक द्विभाजित घातीय पारिवारिक वितरण है, जैसे www2.stat.duke.edu/courses/Spring11/sta114/lec/expofam.pdf
टिम

2
मुझे यकीन नहीं है कि यह पूरी तरह से संभव नहीं है, यहां तक ​​कि निश्चित फैलाव के साथ भी। कम से कम एन एंड डब्ल्यू द्वारा बताई गई चमक के अनुसार नहीं (मुझे क्या पता है कि बहुत से लोग बीटा प्रतिगमन को हल करने के लिए बहुत अधिक कठिन चीजें करते हैं)। मैं क्या होता है, यह दिखाने के लिए उत्तर को संपादित करूंगा, और जहां यह गलत होगा, अगर हम पुनरावृत्त कम से कम वर्गों के समान पथ का पालन करने का प्रयास करते हैं।
सेक्स्टस एम्पिरिकस

2
मैंने उत्तर को कुछ हद तक संपादित किया है। 1) परिवारों और फैलाव मॉडल का मेरा प्रारंभिक विवरण गलत था। जीएलएम में एक पैरामीटर घातीय परिवारों के सभी वितरण शामिल हैं क्योंकि यह केवल उस घनत्व फ़ंक्शन नहीं है, बल्कि लिंक फ़ंक्शन भी है। 2) एक बेहतर सहज दृश्य के संदर्भ में मैं दूर नहीं जा सका और जल्द ही दूर होने की उम्मीद नहीं करता। जीएलएम मॉडल विभिन्न अभ्यावेदन में शास्त्रीय मॉडल से संबंधित हैं, फिटिंग प्रक्रियाओं के मैट्रिक्स निरूपण को जोड़ते हुए, लिंक फ़ंक्शन और विचरण के साथ लॉग-
लाइबिलिटी फ़ंक्शंस के डेरिवेटिव

2
मैंने आपके उत्तर को थोड़ा संपादित करने के लिए स्वतंत्रता ली, आशा है कि आप संपादन के साथ ठीक हैं। इसके अलावा, यह इस तरह दिखता है जैसे आँकड़े ।stackexchange.com/a/18812/28666 संकेत देते हैं कि एन एंड डब्ल्यू ने इस विशेष वितरण परिवार का उपयोग क्यों किया और व्यापक नहीं।
अमीबा का कहना है कि मोनिका

2

मुझे नहीं लगता कि बीटा वितरण घातीय फैलाव परिवार का हिस्सा है । इसे पाने के लिए, आपको एक घनत्व होना चाहिए

f(y;θ,τ)=exp(yθc(θ)τ+d(y,τ))

निर्दिष्ट कार्यों के लिए और । माध्य को रूप में दिया गया है और विचरण को रूप में दिया गया है । पैरामीटर को कैनोनिकल पैरामीटर कहा जाता है।c()d()c(θ)τc(θ)θ

बीटा डिस्ट्रीब्यूशन को इस तरह नहीं लिखा जा सकता है - यह देखने का एक तरीका यह है कि लॉग लाइबिलिटी में कोई टर्म नहीं है - इसके बजाय औरylog[y]log[1y]

fbeta(y;μ,ϕ)=exp(ϕμlog[y1y]+ϕlog[1y]log[B(ϕμ,ϕ(1μ)]log[y1y])

फिर भी यह देखने का एक और तरीका है कि बीटा घातीय फैलाव परिवार नहीं है, यह रूप में लिखा जा सकता है जहां और स्वतंत्र हैं और दोनों समान पैमाने पैरामीटर (और गामा) के साथ गामा वितरण का पालन करते हैं। घातीय परिवार है)। xzy=xx+zxz


1
यह उत्तर लिखित के रूप में सही नहीं है। इसे देखने का एक तरीका यह है कि प्रस्तुत तर्क के अनुसार, बर्नौली और द्विपद वितरण, उदाहरण के लिए, घातीय परिवारों के वर्ग में भी नहीं होंगे।
कार्डिनल

2
क्षमा करें, आप सही हैं कि मैंने जो उदाहरण दिया वह गलत था। (चेतावनी: मानसिक अंकगणित और CrossValidated का मोबाइल उपयोग खतरनाक हो सकता है!) हालांकि, मेरी बात अभी भी कायम है। यह उत्तर गलत है क्योंकि यह "घातीय परिवार" की बहुत संकीर्ण "परिभाषित" अवधारणा का विरोध करता है --- किसी भी पारंपरिक स्रोत या व्यावहारिक उपयोग की तुलना में बहुत संकीर्ण।
कार्डिनल

2
हम्म। विकिपीडिया घातीय पारिवारिक वितरण की सूची में बीटा करता है
अमीबा का कहना है कि मोनिका

1
यह सच है - मैं प्राकृतिक घातीय परिवार के बारे में सोच रहा था - जो कि एक विशेष मामला है
संभावना

1
फ़ंक्शन में पैरामीटर को एक लिंक फ़ंक्शन द्वारा भी वर्णित किया गया है, और फिर यह संकीर्ण रूप से परिभाषित वितरण फ़ंक्शन अधिक विस्तृत हो जाता है, जिसमें एक पैरामीटर घातीय परिवार के सभी वितरण शामिल हैं, लेकिन केवल दो पैरामीटर घातीय परिवार में से कुछ। θ
सेक्टस एम्पिरिकस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.