मैंने अपने आश्रित चर को रूपांतरित किया, क्या मैं लॉग लिंक फ़ंक्शन के साथ जीएलएम सामान्य वितरण का उपयोग कर सकता हूं?


10

मेरे पास सामान्यीकृत रैखिक मॉडल (GLM) से संबंधित एक प्रश्न है। मेरा आश्रित चर (DV) निरंतर है और सामान्य नहीं है। इसलिए मैंने इसे बदल दिया (अभी भी सामान्य नहीं है लेकिन इसमें सुधार हुआ है)।

मैं DV से संबंधित करना चाहता हूँ दो स्पष्ट चर और एक निरंतर covariable। इसके लिए मैं एक GLM (मैं SPSS का उपयोग कर रहा हूं) का संचालन करना चाहता हूं, लेकिन मैं यह सुनिश्चित करने के लिए अनिश्चित हूं कि वितरण और फ़ंक्शन का चयन कैसे करें।

मैंने लेवेने के गैरपरंपरागत परीक्षण का आयोजन किया है और मेरे पास भिन्नताओं की समरूपता है इसलिए मैं सामान्य वितरण का उपयोग करने के लिए इच्छुक हूं। मैंने पढ़ा है कि रैखिक प्रतिगमन के लिए डेटा को सामान्य होने की आवश्यकता नहीं है, अवशिष्ट करते हैं। तो, मैंने व्यक्तिगत रूप से प्रत्येक GLM से रैखिक भविष्यवक्ता (GLM सामान्य पहचान फ़ंक्शन और सामान्य लॉग फ़ंक्शन) के लिए मानकीकृत पियर्सन अवशिष्ट और अनुमानित मूल्यों को मुद्रित किया है। मैंने व्यक्तिगत रूप से दोनों के लिए सामान्यता परीक्षण (हिस्टोग्राम और शापिरो-विल्क) और अनुमानित मूल्यों के खिलाफ अवशिष्ट अवशिष्ट (यादृच्छिकता और विचरण के लिए जाँच) किए हैं। पहचान समारोह से अवशिष्ट सामान्य नहीं हैं, लेकिन लॉग फ़ंक्शन से अवशिष्ट सामान्य हैं। मैं लॉग लिंक फ़ंक्शन के साथ सामान्य चुनने के लिए इच्छुक हूं क्योंकि पियर्सन अवशिष्ट सामान्य रूप से वितरित किए जाते हैं।

तो मेरे सवाल हैं:

  • क्या मैं लॉग ऑन लिंक फ़ंक्शन के साथ जीएलएम सामान्य वितरण का उपयोग कर सकता हूं DV जो पहले ही लॉग ट्रांसफ़ॉर्म हो चुका है?
  • क्या प्रसरण समरूपता परीक्षण सामान्य वितरण का उपयोग करने के लिए पर्याप्त है?
  • क्या अवशिष्ट जाँच प्रक्रिया लिंक फ़ंक्शन मॉडल को सही ठहराने के लिए सही है?

बाईं ओर DV वितरण की छवि और दाईं ओर लॉग लिंक फ़ंक्शन के साथ जीएलएम सामान्य से अवशेष।

बाईं ओर डीवी वितरण और दाएं तरफ जीएलएम सामान्य से अवशिष्ट


यह बिल्कुल स्पष्ट नहीं है कि आप इसका क्या मतलब है: " तो, मैंने सामान्य पहचान समारोह और सामान्य लॉग फ़ंक्शन के साथ GLM से पियर्सन अवशिष्ट की तुलना की है। "
Glen_b -Reinstate Monica

आपकी टिप्पणी के लिये धन्यवाद। मेरा मतलब था कि मैंने व्यक्तिगत रूप से प्रत्येक GLM (पहचान और लॉग) से अवशिष्टों और अनुमानित मूल्यों को मुद्रित किया है और सामान्य रूप से जांचा और प्रत्येक मॉडल के लिए व्यक्तिगत रूप से अनुमानित मूल्यों के खिलाफ मानकीकृत पियरसन अवशेषों की साजिश रची। पहचान फ़ंक्शन के लिए, अवशिष्ट सामान्य नहीं हैं, जबकि लॉग फ़ंक्शन के लिए, अवशिष्ट सामान्य हैं।
वैज्ञानिक

पूर्वानुमानित मूल्यों के खिलाफ मानकीकृत पियर्सन अवशिष्टों का एक भूखंड कैसे इंगित करता है कि डेटा वास्तव में सामान्य है या नहीं?
Glen_b -Reinstate मोनिका

मैंने अवशिष्टों के हिस्टोग्राम की साजिश रचने और शापिरो-विल्क (लॉग फ़ंक्शन के लिए पी> 0.05) का संचालन करके सामान्यता की जांच की। फिर मैंने पूर्वानुमानित मूल्यों के खिलाफ अवशेषों को देखा कि क्या वे बेतरतीब ढंग से वितरित किए गए थे और विचरण की जांच करने के लिए। (महत्वपूर्ण जानकारी नहीं कहने के लिए खेद है, मैं पहली बार पोस्ट कर रहा हूं)
वैज्ञानिक

मुझे लगता है कि "पहचान समारोह" यहाँ "घनत्व फ़ंक्शन" के लिए एक होमोफ़ोन स्लिप है।
निक कॉक्स

जवाबों:


7

क्या मैं लॉग ऑन लिंक फ़ंक्शन के साथ जीएलएम सामान्य वितरण का उपयोग कर सकता हूं DV जो पहले ही लॉग ट्रांसफ़ॉर्म हो चुका है?

हाँ; यदि मान्यताओं को उस पैमाने पर संतुष्ट किया जाता है

क्या प्रसरण समरूपता परीक्षण सामान्य वितरण का उपयोग करने के लिए पर्याप्त है?

विचरण की समानता सामान्यता क्यों होगी?

क्या अवशिष्ट जाँच प्रक्रिया लिंक फ़ंक्शन मॉडल को सही ठहराने के लिए सही है?

आपको अपनी मान्यताओं की उपयुक्तता की जांच करने के लिए हिस्टोग्राम और फिट टेस्ट दोनों का उपयोग करने से सावधान रहना चाहिए:

1) सामान्यता का आकलन करने के लिए हिस्टोग्राम का उपयोग करने से सावधान रहें । (इसके अलावा यहां )

संक्षेप में, कुछ के रूप में सरलता पर निर्भर करता है कि आप अपने विकल्प के रूप में चुन सकते हैं, या यहाँ तक कि केवल बिन सीमा के स्थान पर, डेटा के आकार के काफी भिन्न इंप्रेशन प्राप्त करना संभव है:

अवशिष्ट के दो हिस्टोग्राम

यह एक ही डेटा सेट के दो हिस्टोग्राम हैं। कई अलग-अलग द्वैध का उपयोग करना यह देखने में उपयोगी हो सकता है कि क्या छाप उसके प्रति संवेदनशील है।

2) यह निष्कर्ष निकालने के लिए फिट परीक्षणों की अच्छाई का उपयोग करने से सावधान रहें कि सामान्यता की धारणा उचित है। औपचारिक परिकल्पना परीक्षण वास्तव में सही प्रश्न का उत्तर नहीं देते हैं।

उदाहरण के लिए आइटम 2 के तहत लिंक देखें यहां

विचरण के बारे में, जो समान डेटासेट का उपयोग करते हुए कुछ पत्रों में उल्लेख किया गया था "क्योंकि वितरण में सजातीय संस्करण थे एक जीएसएम के साथ एक गौसियन वितरण का उपयोग किया गया था"। यदि यह सही नहीं है, तो मैं वितरण का औचित्य या निर्णय कैसे कर सकता हूं?

सामान्य परिस्थितियों में, सवाल यह नहीं है कि क्या मेरी त्रुटियां (या सशर्त वितरण) सामान्य हैं? - वे नहीं होंगे, हमें जांचने की भी जरूरत नहीं है। एक और अधिक प्रासंगिक सवाल है 'गैर-सामान्यता की डिग्री कितनी बुरी तरह से मेरे प्रभाव को प्रभावित करती है? "

मैं एक कर्नेल घनत्व अनुमान या सामान्य QQplot (अवशिष्ट बनाम सामान्य स्कोर की साजिश) का सुझाव देता हूं। यदि वितरण यथोचित सामान्य लगता है, तो आपको चिंता करने की जरूरत नहीं है। वास्तव में, यहां तक ​​कि जब यह स्पष्ट रूप से गैर-सामान्य है, तब भी यह बहुत ज्यादा मायने नहीं रखता है, आप जो करना चाहते हैं उसके आधार पर (सामान्य भविष्यवाणी अंतराल वास्तव में सामान्यता पर निर्भर करेगा, उदाहरण के लिए, लेकिन कई अन्य चीजें बड़े नमूना आकारों पर काम करेंगी )

बड़े नमूनों में, पर्याप्त रूप से, सामान्य रूप से सामान्यता कम और कम महत्वपूर्ण हो जाती है (पीआई के अलावा जैसा कि ऊपर उल्लेख किया गया है), लेकिन सामान्यता को अस्वीकार करने की आपकी क्षमता अधिक से अधिक हो जाती है।

संपादित करें: विचरण की समानता के बारे में बात यह है कि वास्तव में बड़े नमूनों के आकार में भी आपके इंफ़ेक्शन को प्रभावित किया जा सकता है । लेकिन आप शायद इस बात का आकलन न करें कि परिकल्पना परीक्षणों द्वारा या तो। विचरण धारणा को गलत करना एक ऐसा मुद्दा है जो आपके ग्रहण किए गए वितरण का है।

मैंने पढ़ा है कि एक अच्छे फिट के लिए मॉडल के लिए स्केलेड डेवलेपमेंट Np के आसपास होना चाहिए?

जब आप एक सामान्य मॉडल को फिट करते हैं, तो इसका एक पैमाना पैरामीटर होता है, इस स्थिति में यदि आपका वितरण सामान्य नहीं होता है, तो भी यह एनपीपी के बारे में होगा।

आपकी राय में लॉग लिंक के साथ सामान्य वितरण एक अच्छा विकल्प है

यह जानने की निरंतर अनुपस्थिति में कि आप क्या माप रहे हैं या आप किस चीज के लिए प्रयोग कर रहे हैं, मैं अभी भी न्याय नहीं कर सकता कि क्या GLM के लिए एक और वितरण का सुझाव देना है, और न ही आपके संदर्भों के लिए सामान्यता कितनी महत्वपूर्ण हो सकती है।

हालाँकि, यदि आपकी अन्य धारणाएँ भी वाजिब हैं (रैखिकता और समानता की समानता को कम से कम जांचा जाना चाहिए और निर्भरता के संभावित स्रोतों पर विचार किया जाना चाहिए), तो ज्यादातर परिस्थितियों में मैं CI का उपयोग करने और गुणांक या विपरीत परिणामों पर परीक्षण करने जैसी चीजों को करने में बहुत सहज होगा। - उन अवशेषों में तिरछापन की केवल बहुत कम छाप है, जो कि, भले ही यह एक वास्तविक प्रभाव है, उन प्रकार के अनुमानों पर कोई ठोस प्रभाव नहीं होना चाहिए।

संक्षेप में, आपको ठीक होना चाहिए।

(जबकि एक अन्य वितरण और लिंक फ़ंक्शन फिट के संदर्भ में थोड़ा बेहतर कर सकता है, केवल प्रतिबंधित परिस्थितियों में वे भी अधिक समझ में आने की संभावना होगी।)


एक बार फिर धन्यवाद! विचरण के बारे में, जो समान डेटासेट का उपयोग करते हुए कुछ पत्रों में उल्लेख किया गया था "क्योंकि वितरण में सजातीय संस्करण थे एक गॉसियन वितरण के साथ एक जीएलएम का उपयोग किया गया था"। यदि यह सही नहीं है, तो मैं वितरण का औचित्य या निर्णय कैसे कर सकता हूं? अवशिष्ट सामान्य वितरण के संबंध में, इसका मतलब है कि यह अधिक उचित है? मैंने पढ़ा है कि एक अच्छे फिट के लिए मॉडल के लिए स्केलेड डेवलेपमेंट Np के आसपास होना चाहिए? मान GLMs और Np दोनों के लिए समान है। मैंने एआईसी के मानदंडों का उपयोग करके मॉडल में सबसे उपयुक्त मॉडल की पहचान की है। यकीन नहीं तो यही है जो आपका मतलब है।
वैज्ञानिक

ऊपर मेरे संपादन में चर्चा देखें
Glen_b -Reinstate Monica

अच्छी व्याख्या के लिए धन्यवाद @Glen_b। हिस्टोग्राम मैंने शापिरो-विल्क का उपयोग करके भी परीक्षण किया, क्या यह सब कुछ पर विचार नहीं करेगा? मैंने QQ की साजिश रची और सामान्य रूप से देखे जाने वाले पियर्सन अवशिष्ट मूल्यों और बिंदुओं को प्लॉट किया + उन बिंदुओं को छोड़कर, जहां वे थोड़े ऊपर की ओर जाते हैं, लाइन को फिट किया। क्या यही आपका मतलब है? अवशिष्टों का वितरण सामान्य दिखता है, इसलिए मैं आगे बढ़ सकता हूं? (यहां तक ​​कि अगर लॉग इन डीवी सामान्य नहीं है) (मैं अभी भी लिंक पढ़ रहा हूं, लेकिन यह पूछना चाहता हूं)
वैज्ञानिक

1
" क्योंकि इस मॉडल के लिए सामान्य क्यूक्यू प्लॉट सामान्य रूप से वितरित किए गए थे? " ... मैं कह सकता हूं "अवशेषों का क्यूक्यू प्लॉट बताता है कि सामान्यता की धारणा उचित है" या "अवशिष्ट सामान्य रूप से यथोचित दिखाई देते हैं"। यदि आपके दर्शकों को परिकल्पना परीक्षणों की उम्मीद है, तो आप अभी भी एक उद्धरण दे सकते हैं (लेकिन यह इस तथ्य को नहीं बदलता है कि वे विशेष रूप से उपयोगी नहीं हैं)। " डेटासेट के साथ समस्या यह है कि DV के हिस्टोग्राम में ..." बिना शर्त DV या किसी भी IV के वितरण के बारे में कोई धारणा नहीं है।
Glen_b -Reinstate मोनिका

1
मेरे उत्तर के तल पर अतिरिक्त चर्चा देखें। क्षमा करें, मैंने पहले उत्तर नहीं दिया था, लेकिन मैं सो रहा था। दूसरे सवाल पर, मैंने जो कारण पूछा, वह यह था कि दो मॉडल अपनी अधिकांश धारणाओं को साझा करते हैं, और इसलिए इस चर्चा के सभी बहुत अधिक प्रासंगिक हैं - भले ही DV अलग हो। यह बिल्कुल वैसी ही स्थिति नहीं है (और इसलिए एक नया प्रश्न होना चाहिए), लेकिन यह प्रश्न इससे जुड़ा होना चाहिए, इसलिए आप इस चर्चा के संदर्भ में प्रश्न पूछ सकते हैं, जैसे कि कोई अलग या अतिरिक्त मुद्दे हैं।
Glen_b -Reinstate मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.