मैं एक बड़े डेटा सेट के साथ काम कर रहा हूं (गोपनीय, इसलिए मैं बहुत अधिक साझा नहीं कर सकता),
एक छोटा डेटा सेट बनाना संभव हो सकता है जिसमें चर नामों के बिना वास्तविक डेटा की कुछ सामान्य विशेषताएं हैं और न ही वास्तविक मूल्यों में से कोई।
और निष्कर्ष पर आया कि एक नकारात्मक द्विपद प्रतिगमन आवश्यक होगा। मैंने पहले कभी glm रिग्रेशन नहीं किया है, और मुझे इस बारे में कोई स्पष्ट जानकारी नहीं मिल सकती है कि धारणाएं क्या हैं। क्या वे एमएलआर के लिए समान हैं?
स्पष्ट रूप से नहीं! आप पहले से ही जानते हैं कि आप प्रतिक्रिया कर रहे हैं कि सशर्त रूप से नकारात्मक द्विपद है, सशर्त रूप से सामान्य नहीं है। ( कुछ धारणाएँ साझा की जाती हैं। उदाहरण के लिए स्वतंत्रता।)
मुझे आम तौर पर पहले GLMs के बारे में बात करने दें।
GLM में कई प्रतिगमन शामिल हैं, लेकिन कई तरीकों से सामान्यीकृत होते हैं:
1) प्रतिक्रिया का सशर्त वितरण (निर्भर चर) घातीय परिवार से है , जिसमें पॉइसन, द्विपद, गामा, सामान्य और कई अन्य वितरण शामिल हैं।
2) माध्य प्रतिक्रिया एक लिंक फ़ंक्शन के माध्यम से भविष्यवक्ताओं (स्वतंत्र चर) से संबंधित है । वितरण के प्रत्येक परिवार में एक संबद्ध विहित लिंक फ़ंक्शन है - उदाहरण के लिए पॉइसन के मामले में, विहित लिंक लॉग है । विहित लिंक लगभग हमेशा डिफ़ॉल्ट होते हैं, लेकिन अधिकांश सॉफ़्टवेयर में आपके पास आमतौर पर प्रत्येक वितरण विकल्प के भीतर कई विकल्प होते हैं। द्विपद के लिए विहित लिंक लॉगिट है (रैखिक भविष्यवक्ता लॉग मॉडलिंग कर रहा है ( p), एक सफलता की लॉग-ऑड्स, या एक "1") और गामा के लिए विहित लिंक व्युत्क्रम है - लेकिन दोनों ही मामलों में अन्य लिंक फ़ंक्शंस अक्सर उपयोग किए जाते हैं।लॉग( पी1 - पी)
यदि आपकी प्रतिक्रिया और आपके भविष्यवक्ता X 1 और X 2 थे , तो लॉग लिंक के साथ एक पोइसन रिग्रेशन आपके पास आपके विवरण के लिए हो सकता है कि Y का मतलब X से कैसे संबंधित है :Yएक्स1एक्स2Yएक्स
E ( Y)मैं) = μमैं
लॉगμमैं= ηमैं ( को 'लीनियर ' कहा जाता है, और यहां लिंक फ़ंक्शन , लिंक फ़ंक्शन का प्रतिनिधित्व करने के लिए अक्सर प्रतीक का उपयोग किया जाता है)ηलॉगजी
ηमैं= β0+ β1एक्स1 मैं+ β2एक्स2 मैं
3) प्रतिक्रिया का विचरण स्थिर नहीं है, लेकिन विचरण-फ़ंक्शन (माध्य का एक कार्य, संभवतः स्केलिंग पैरामीटर) के माध्यम से संचालित होता है। उदाहरण के लिए, एक पोइसन का विचरण माध्य के बराबर होता है, जबकि गामा के लिए यह माध्य के वर्ग के समानुपाती होता है। (अर्ध-वितरण, ग्रहण किए गए वितरण से कुछ हद तक वेरिएंस फ़ंक्शन के डिकॉउलिंग की अनुमति देते हैं)
-
तो क्या आप एमएलआर से याद करते हैं जो आम धारणाएं हैं?
आजादी अभी भी है।
होमोसकेडिसिटी अब नहीं माना जाता है; विचरण स्पष्ट रूप से माध्य का एक कार्य है और इसलिए सामान्य तौर पर भविष्यवक्ताओं के साथ भिन्न होता है (इसलिए जब कि मॉडल आम तौर पर हेट्रोसेकेडैस्टिक होता है, तो हेटेरोस्केडासिटी एक विशिष्ट रूप लेता है)।
रैखिकता: मॉडल अभी भी मापदंडों में रैखिक है (यानी रैखिक भविष्यवक्ता ), लेकिन अपेक्षित प्रतिक्रिया रैखिक रूप से उनसे संबंधित नहीं है (जब तक कि आप पहचान लिंक फ़ंक्शन का उपयोग नहीं करते हैं!)।एक्सβ
प्रतिक्रिया का वितरण काफी अधिक सामान्य है
आउटपुट की व्याख्या कई मायनों में समान है; आप अभी भी उदाहरण के लिए उनकी मानक त्रुटियों से विभाजित अनुमानित गुणांक को देख सकते हैं, और उन्हें समान रूप से व्याख्या कर सकते हैं (वे asymptotically सामान्य हैं - एक Wald z- परीक्षण - लेकिन लोग अभी भी उन्हें t-ratios कहते हैं, तब भी जब वे कोई जानकारी नहीं बनाते हैं) उन्हें distributed सामान्य तौर पर)।टी
नेस्टेड मॉडल (सेटअप की तरह 'एनोवा-टेबल' के बीच तुलना) थोड़ा अलग है, लेकिन समान (एसिम्प्टोटिक ची-स्क्वायर परीक्षण शामिल है)। यदि आप एआईसी और बीआईसी के साथ सहज हैं तो इनकी गणना की जा सकती है।
इसी प्रकार के नैदानिक डिस्प्ले आमतौर पर उपयोग किए जाते हैं, लेकिन व्याख्या करना कठिन हो सकता है।
यदि आप मतभेदों को ध्यान में रखते हैं तो आपके कई लीनियर रिग्रेशन इंट्यूशन खत्म हो जाएंगे।
यहां एक ऐसी चीज का उदाहरण दिया गया है, जिसे आप एक चमक के साथ कर सकते हैं, जिसे आप वास्तव में रैखिक प्रतिगमन के साथ नहीं कर सकते हैं (वास्तव में, ज्यादातर लोग इसके लिए गैर-रेखीय प्रतिगमन का उपयोग करेंगे, लेकिन सामान्य मामले में GLM आसान और इसके लिए अच्छा है) - सामान्य है , एक समारोह के रूप में मॉडलिंग की :Yएक्स
E ( Y)) = एक्सप( η) = एक्सप( एक्स)β) = एक्सप( β0+ β1x ) (यानी, एक लॉग-लिंक)
वर ( Y)) = σ2
यही है, और बीच एक घातीय संबंध के एक न्यूनतम वर्ग फिट है ।Yएक्स
क्या मैं चर को उसी तरह बदल सकता हूं (मैंने पहले ही पता लगा लिया है कि आश्रित चर को बदलना एक बुरा कॉल है क्योंकि इसे एक प्राकृतिक संख्या होने की आवश्यकता है)?
आप (आमतौर पर) प्रतिक्रिया (DV) को बदलना नहीं चाहते हैं। आप कभी-कभी रैखिक भविष्यवक्ता की रैखिकता प्राप्त करने के लिए भविष्यवाणियों (IVs) को बदलना चाह सकते हैं।
मैंने पहले से ही निर्धारित किया है कि नकारात्मक द्विपद वितरण मेरे डेटा में अति-फैलाव के साथ मदद करेगा (विचरण लगभग 2000 है, मतलब 48 है)।
हाँ, यह अतिविशिष्टता से निपट सकता है। लेकिन ध्यान रखें कि बिना शर्त फैलाव के साथ सशर्त फैलाव को भ्रमित न करें ।
एक और आम दृष्टिकोण - अगर थोड़ा और अधिक गुदगुदी और इसलिए कुछ हद तक मेरे मन को संतुष्ट करता है - है अर्ध-पॉइसन रिग्रेशन (अतिविशिष्ट पॉइसन रिग्रेशन)।
नकारात्मक द्विपद के साथ, यह घातीय परिवार में है यदि आप अपने किसी विशेष पैरामीटर को निर्दिष्ट करते हैं (जिस तरह से यह आम तौर पर जीएलएमएस के लिए कम से कम पुनर्गठित होता है)। कुछ पैकेज इसे फिट करेंगे यदि आप पैरामीटर निर्दिष्ट करते हैं, तो अन्य जीएलएम रूटीन के आसपास उस पैरामीटर के एमएल अनुमान (प्रोफाइल संभावना के माध्यम से) को लपेटेंगे, प्रक्रिया को स्वचालित करेंगे। कुछ आपको वितरण के एक छोटे सेट तक सीमित कर देंगे; आप यह नहीं कहते हैं कि आप किस सॉफ्टवेयर का उपयोग कर सकते हैं, इसलिए वहां ज्यादा कुछ कहना मुश्किल है।
मुझे लगता है कि आमतौर पर लॉग-लिंक का उपयोग नकारात्मक द्विपद प्रतिगमन के साथ किया जाता है।
वहाँ कई परिचयात्मक स्तर के दस्तावेज़ हैं (आसानी से Google के माध्यम से पाए जाते हैं) जो कुछ बुनियादी पॉइसन GLM और फिर डेटा के नकारात्मक द्विपद GLM विश्लेषण के माध्यम से आगे बढ़ते हैं, लेकिन आप GLM पर एक पुस्तक को देखना पसंद कर सकते हैं और हो सकता है कि पहले थोड़ा Poisson प्रतिगमन करें। बस उस के लिए इस्तेमाल किया पाने के लिए।