गामा GLMs का उपयोग कब करें?


88

गामा वितरण आकार की एक विस्तृत श्रृंखला पर ले जा सकता है, और अपने दो मापदंडों के माध्यम से माध्य और विचरण के बीच की कड़ी को देखते हुए, यह गैर-नकारात्मक डेटा में विषम-विषमता से निपटने के लिए अनुकूल है, एक तरह से लॉग-ट्रांसफॉर्मिंग ओएलएस हो सकता है। डब्लूएलएस या किसी प्रकार की हेटेरोसेडासिटी-संगत वीसीवी अनुमानक के बिना नहीं करते।

मैं इसे नियमित गैर-नकारात्मक डेटा मॉडलिंग के लिए अधिक उपयोग करूंगा, लेकिन मैं किसी और को नहीं जानता जो इसका उपयोग करता है, मैंने इसे औपचारिक कक्षा सेटिंग में नहीं सीखा है, और जो साहित्य मैंने पढ़ा है वह कभी भी इसका उपयोग नहीं करता है। जब भी मैं Google को "गामा जीएलएम के व्यावहारिक उपयोग" जैसा कुछ कहता हूं, तो मैं इसे पॉइसन घटनाओं के बीच प्रतीक्षा समय के लिए उपयोग करने की सलाह देता हूं। ठीक। लेकिन यह प्रतिबंधात्मक है और इसका एकमात्र उपयोग नहीं हो सकता है।

स्वाभाविक रूप से, ऐसा लगता है कि गामा GLM गैर-नकारात्मक डेटा के मॉडलिंग का एक अपेक्षाकृत धारणा-प्रकाश साधन है, जिसे गामा का लचीलापन दिया जाता है। बेशक आपको किसी भी मॉडल की तरह क्यूक्यू भूखंडों और अवशिष्ट भूखंडों की जांच करने की आवश्यकता है। लेकिन क्या कोई गंभीर कमियां हैं जो मुझे याद आ रही हैं? "ओएलएस चलाने वाले" लोगों के संचार से परे?

जवाबों:


57

गामा के पास एक संपत्ति है जिसे लॉगनॉर्मल ने साझा किया है; अर्थात् जब आकार पैरामीटर स्थिर होता है, जबकि स्केल पैरामीटर विविध होता है (जैसा कि आमतौर पर या तो मॉडल के लिए उपयोग करते समय किया जाता है), विचरण मतलब-वर्ग (भिन्नता का निरंतर गुणांक) के लिए आनुपातिक होता है।

इसके लिए अनुमानित कुछ वित्तीय आंकड़ों के साथ या वास्तव में कई अन्य प्रकार के डेटा के साथ होता है।

परिणामस्वरूप यह अक्सर उन डेटा के लिए उपयुक्त होता है जो निरंतर, सकारात्मक, सही-तिरछा होता है और जहां लॉग-स्केल पर विचरण निकट-स्थिर होता है, हालांकि उन लोगों के साथ कई अन्य प्रसिद्ध (और अक्सर काफी आसानी से उपलब्ध) विकल्प होते हैं। गुण।

इसके अलावा, गामा GLM (यह प्राकृतिक लिंक का उपयोग करने के लिए अपेक्षाकृत अधिक दुर्लभ है) के साथ लॉग-लिंक को फिट करना आम है। डेटा के लॉग में सामान्य रैखिक मॉडल को फिट करने से यह थोड़ा अलग होता है कि लॉग स्केल पर गामा को अलग-अलग डिग्री पर तिरछा छोड़ दिया जाता है जबकि सामान्य (लॉगनॉर्मल का लॉग) सममित होता है। यह इसे (गामा) विभिन्न स्थितियों में उपयोगी बनाता है।

मैंने गामा GLMs (वास्तविक डेटा उदाहरणों के साथ) (मेरे सिर के ऊपर) डे जोंग और हेलर और फ़्रीज़ के साथ-साथ कई पत्रों के लिए व्यावहारिक उपयोग देखा है ; मैंने अन्य क्षेत्रों में भी आवेदन देखे हैं। ओह, और अगर मुझे सही याद है, तो वेनबेल्स और रिप्ले के एमएएसए स्कूल अनुपस्थिति (क्विन डेटा) पर इसका उपयोग करते हैं; संपादित करें: यह वास्तव में यह है कि सांख्यिकी सांख्यिकी में एमएएसएस को पूरा करता है , पी 11, पीडीएफ के 14 वें पृष्ठ को देखें, इसमें लॉग लिंक है लेकिन वहाँ एक छोटी सी पारी है DV)। उह, और मैककुलग और नेल्डर ने रक्त के थक्के का उदाहरण दिया, हालांकि शायद यह प्राकृतिक लिंक हो सकता है।

इसके बाद फ़ारवे की पुस्तक है जहाँ उन्होंने एक कार बीमा उदाहरण और एक अर्धचालक विनिर्माण डेटा उदाहरण दिया।

दोनों विकल्पों में से किसी एक को चुनने के कुछ फायदे और कुछ नुकसान हैं। चूंकि इन दिनों दोनों को फिट करना आसान है; यह आम तौर पर चुनने की बात है कि सबसे उपयुक्त क्या है।

यह एकमात्र विकल्प से दूर है; उदाहरण के लिए, वहाँ भी उलटा गॉसियन GLMs है, जो अधिक तिरछा / भारी पूंछ (और यहां तक ​​कि अधिक विषमकोणीय) या तो गामा या lognormal है।

कमियों के लिए, भविष्यवाणी अंतराल करना कठिन है। कुछ नैदानिक ​​प्रदर्शन व्याख्या करने के लिए कठिन हैं। लीनियर प्रेडिक्टर (आमतौर पर लॉग-स्केल) के पैमाने पर कम्प्यूटिंग अपेक्षाएं समकक्ष लॉगनॉर्मल मॉडल की तुलना में कठिन हैं। परिकल्पना परीक्षण और अंतराल आम तौर पर स्पर्शोन्मुख हैं। ये अक्सर अपेक्षाकृत मामूली मुद्दे होते हैं।

लॉग-लिंक लॉगानॉर्मल रिग्रेशन (लॉग्स लेना और एक साधारण रैखिक रिग्रेशन मॉडल को फिट करना) पर इसके कुछ फायदे हैं; इसका मतलब यह है कि भविष्यवाणी आसान है।


3
क्या यह "गामा" या "गामा" होना चाहिए? हम जानते हैं कि इसका नाम किसी व्यक्ति के लिए नहीं है। मैंने लोअर केस "g" को अधिक बार देखा है। स्पष्ट रूप से वितरण को फ़ंक्शन के लिए नामित किया गया है, जो 18 वीं शताब्दी में वापस जाता है।
निक कॉक्स

2
अंकन एकमात्र कारण मुझे लगता है कि उपयोग के लिए देखा है है। आम तौर पर वितरण के साथ, ऊपरी मामला आमतौर पर उपनामों, जैसे कि पॉइसन या गाऊसी, के रूप में जानता है। Γ
निक कॉक्स

@NickCox मैंने आपके सुझाव के अनुसार इसे बदल दिया है, और जब मैं उस पर था तब मैंने "उलटा गॉसियन" तय किया।
Glen_b

1
@Gleb_b: क्या आप अभी भी उलटे गॉसियन परिवार के साथ लॉग लिंक का उपयोग करते हैं?
दिमित्री वी। मास्टरोव

@ DimitriyV.Masterov यह कम इस्तेमाल किया जाता है इसलिए इसे सामान्य बनाना कठिन है। मैंने जो देखा है, उससे उलटा गॉसियन के साथ लॉग-लिंक का उपयोग करना बहुत आम है, लेकिन अन्य लिंक कुछ स्थितियों में उपयुक्त हो सकते हैं, जैसे कि उलटा लिंक।
Glen_b

28

यह एक अच्छा सवाल है। वास्तव में, लोग सामान्यीकृत रैखिक मॉडल (GLM) का अधिक उपयोग क्यों नहीं करते हैं यह भी एक अच्छा सवाल है।

चेतावनी नोट: कुछ लोग सामान्य रैखिक मॉडल के लिए जीएलएम का उपयोग करते हैं, न कि यहां क्या ध्यान में रखते हैं।

  • यह निर्भर करता है कि आप कहाँ दिखते हैं। उदाहरण के लिए, गामा वितरण कुछ दशकों से कई पर्यावरण विज्ञानों में लोकप्रिय है और इसलिए भविष्यवक्ता चर के साथ मॉडलिंग भी एक प्राकृतिक विस्तार है। जलविज्ञान और भू-आकृति विज्ञान में कई उदाहरण हैं, कुछ क्षेत्रों का नाम लेने के लिए जिनमें मैं भटक गया हूं।

  • जब भी यह सबसे अच्छा काम करता है, तो एक खाली उत्तर से परे इसका उपयोग करना काफी कठिन है। सकारात्मक डेटा को देखते हुए, मैं अक्सर अपने आप को गामा और लॉगनॉर्मल मॉडल (जीएलएम संदर्भ लॉग लिंक, सामान्य या गौसियन परिवार में) की कोशिश करता हूं और चुनता हूं जो बेहतर काम करता है।

  • गामा मॉडलिंग काफी हद तक हाल ही में करने के लिए मुश्किल था, निश्चित रूप से कहने के साथ तुलना के रूप में लॉग लेने और रैखिक regressions लागू करने के लिए, कोड की एक बहुत कुछ लिखे बिना। अब भी, मुझे लगता है कि यह सभी प्रमुख सांख्यिकीय सॉफ्टवेयर वातावरणों में समान रूप से आसान नहीं है।

  • गुणों और अवगुणों के बावजूद, इसका क्या उपयोग किया जाता है, यह समझाने में, मुझे लगता है कि आप हमेशा ठीक उसी तरह से उतरते हैं, जिस तरह के कारकों को आप पहचानते हैं: क्या सिखाया जाता है, साहित्य में ऐसा क्या है जो लोग पढ़ते हैं, लोग किस बारे में सुनते हैं काम और सम्मेलनों में। तो, आपको समझाने के लिए एक तरह के शौकिया समाजशास्त्र की आवश्यकता है। अधिकांश लोग अपने स्वयं के क्षेत्रों के भीतर सीधे और संकीर्ण रास्तों का पालन करते हैं। शायद ही, मॉडलिंग तकनीकों पर किसी भी क्षेत्र में आंतरिक साहित्य जितना बड़ा होता है, उस क्षेत्र में कम इच्छुक लोग कुछ अलग करने की कोशिश करते हैं।


1
आप कैसे निर्धारित करते हैं कि कौन सा बेहतर काम करता है?
दिमित्री वी। मास्टरोव

7
मैं संभावना, आर-वर्ग (लोगों के कहने के बावजूद) पर विश्वास करता हूं, पैरामीटर अनुमानों के आसपास आत्मविश्वास अंतराल, मनाया बनाम प्लॉट्स ऑफ फिटेड, रेजिडेंशियल बनाम फिटेड, आदि। अगर विज्ञान एक मॉडल को दूसरे पर पसंद कर रहे थे, तो वह भी वजन होगा, लेकिन मेरा अनुभव विज्ञान इतना अच्छा नहीं है। और कैसे किया जा सकता है?
निक कॉक्स

@NickCox जब विश्लेषण बनाम फिट, अवशिष्ट बनाम फिट और सामान्य qq साजिश का अवलोकन किया जाए, तो हमें क्या देखना चाहिए? मैं समझता हूं कि यह मॉडल के बीच भिन्न हो सकता है। क्या आप गामा, पॉइसन और नकारात्मक द्विपद के लिए एक उदाहरण दे सकते हैं? धन्यवाद
tatami

@ ततमी यह एक नया प्रश्न है, या अधिक, मुझे लगता है। यदि आप इसे पूछते हैं, तो आप देखेंगे कि कौन काटता है। मैंने कभी नहीं सोचा था कि एक गामा मॉडल और एक नकारात्मक द्विपद मॉडल किसी भी परियोजना में प्रतिद्वंद्वी थे, लेकिन यह कल्पना या अनुभव की विफलता हो सकती है।
निक कॉक्स

13

गामा प्रतिगमन जीएलएम में है और इसलिए आप नैदानिक ​​उद्देश्यों के लिए कई उपयोगी मात्रा प्राप्त कर सकते हैं, जैसे कि अवशिष्ट अवशिष्ट, लीवर, कुक की दूरी, और इसी तरह। वे शायद लॉग-ट्रांसफ़ॉर्म किए गए डेटा के लिए संबंधित मात्रा के रूप में अच्छे नहीं हैं।

गामा प्रतिगमन की तुलना में गामा प्रतिगमन से बचने वाली एक चीज परिवर्तन पूर्वाग्रह है। जेन्सेन की असमानता का तात्पर्य है कि lognormal प्रतिगमन से भविष्यवाणियों व्यवस्थित पक्षपातपूर्ण है क्योंकि यह तब्दील मॉडलिंग है हो जाएगा डेटा तब्दील उम्मीद मूल्य के बजाय।

इसके अलावा, गामा रिग्रेशन (या नॉनजेगेटिव डेटा के लिए अन्य मॉडल) इस तथ्य के कारण लॉगऑनॉर्मल की तुलना में डेटा की एक व्यापक सरणी के साथ सामना कर सकते हैं कि यह 0 पर एक मोड हो सकता है, जैसे कि आपके पास घातीय वितरण के साथ है, जो गामा में है परिवार, जो सामान्य के लिए असंभव है।

मैंने सुझाव पढ़ा है कि प्यासी संभावना का उपयोग अर्ध-संभावना के रूप में करना अधिक स्थिर है। वे एक दूसरे के संयुग्म हैं। अर्ध-पोइसन में सटीक 0 मानों का सामना करने में सक्षम होने का पर्याप्त लाभ भी है, जो गामा और विशेष रूप से, लॉगनोर्मल दोनों को परेशान करता है।


11

मेरी राय में, यह मानता है कि त्रुटियां गामा वितरण के एक परिवार पर समान आकृतियों के साथ और संबंधित सूत्र के अनुसार तराजू के साथ बदलती हैं।

लेकिन मॉडल निदान करना मुश्किल है। ध्यान दें कि सरल क्यूक्यू प्लॉट यहां उपयुक्त नहीं है, क्योंकि यह समान वितरण के बारे में है, जबकि हमारा अलग-अलग संस्करण के साथ वितरण का परिवार है।

मूल रूप से, अवशिष्ट प्लॉट का उपयोग यह देखने के लिए किया जा सकता है कि उनके पास अलग-अलग तराजू हैं लेकिन एक ही आकार, आमतौर पर लंबी पूंछ के साथ।

मेरे अनुभव में, गामा GLM को कुछ लंबी पूंछ वितरित समस्याओं के लिए आज़माया जा सकता है, और यह व्यापक रूप से बीमा और पर्यावरण क्षेत्रों, आदि में उपयोग किया जाता है, लेकिन धारणाओं का परीक्षण करना मुश्किल है, और मॉडल आमतौर पर अच्छा प्रदर्शन नहीं करता है, इसलिए विभिन्न कागजात एक ही समस्या के साथ अन्य पारिवारिक वितरण का उपयोग करने का तर्क देते हैं, जैसे उलटा गॉसियन, आदि। व्यवहार में, ऐसा लगता है कि इस तरह के विकल्प औद्योगिक अनुभव के साथ विशेषज्ञ निर्णय पर निर्भर करते हैं। यह गामा GLM के उपयोग को सीमित करता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.