क्या मैं रैखिक मॉडल में कारकों के गैर-महत्वपूर्ण स्तरों के लिए गुणांक की उपेक्षा कर सकता हूं?


15

यहाँ पर रैखिक मॉडल गुणांक के बारे में स्पष्टीकरण मांगने के बाद, मेरे पास फ़ैक्टर स्तरों के गुणांकों के लिए गैर-साइनफ़िकेंट (उच्च पी मान) से संबंधित प्रश्न है।

उदाहरण: यदि मेरे रैखिक मॉडल में 10 स्तरों वाला कारक शामिल है, और उन स्तरों में से केवल 3 में महत्वपूर्ण p मान हैं, जब Y की भविष्यवाणी करने के लिए मॉडल का उपयोग करते हुए मैं गुणांक शब्द को शामिल नहीं कर सकता, यदि विषय किसी एक में आता है गैर-सांकेतिक स्तर?

अधिक तेजी से, क्या 7 गैर-महत्वपूर्ण स्तरों को एक स्तर में ढकेलना और फिर से विश्लेषण करना गलत होगा?


2
ठीक है, आप ऐसा करके पक्षपाती आक्षेप प्राप्त कर सकते हैं - उदाहरण के लिए, यदि आप भविष्यवाणी अंतराल बना रहे हैं, तो कवरेज संभावनाएं 7 महत्वहीन स्तरों में से किसी व्यक्ति के लिए गलत होंगी।
मैक्रों

1
आपने यहाँ कुछ अच्छे उत्तर दिए हैं, लेकिन आपको इस बात में भी दिलचस्पी हो सकती है कि उच्च पी-वैल्यू वाले कारकों को छोड़ना अनुचित क्यों है। यह इंगित करने योग्य है कि यह तार्किक रूप से एक स्वचालित मॉडल चयन प्रक्रिया के बराबर है, भले ही आप इसे स्वयं कर रहे हों, इसके बजाय कंप्यूटर आपके साथ कर रहा है। इस प्रश्न के माध्यम से पढ़ने और दिए गए उत्तर w / समझ में मदद कर सकते हैं कि ये बातें क्यों सच हैं।
गूँग - मोनिका

1
इस Q की नवंबर 2012 से एक सटीक डुप्लिकेट है: आंकड़े . stackexchange.com/questions/18745/… । वहाँ कुछ सोचा-समझा जानकारी भी है।
rolando2

2
यह इतना महत्वपूर्ण प्रश्न है, और फिर भी सिद्धांत के साथ तर्क का समर्थन करने का कोई जवाब नहीं है। जैसा कि यह खड़ा है, वे सिर्फ राय हैं। उत्तर में से एक में भी जुड़ी हुई पुस्तक (जो निष्कर्ष अन्य उत्तरों से अलग है) संदर्भ प्रदान करती है। जैसा कि यह खड़ा है, मैं उनमें से किसी पर भरोसा नहीं करता हूं, और इस तरह कुछ भी नहीं करेगा (यानी सभी श्रेणियों / कारकों को रखें)।
ल्यूकोनाचो

जवाबों:


13

यदि आप कई स्तरों के साथ पूर्वसूचक चर में डाल रहे हैं, तो आप या तो चर में डालते हैं या आप नहीं करते हैं, आप स्तर नहीं चुन सकते हैं और न ही चुन सकते हैं। आप अपने भविष्यवक्ता चर के स्तरों को कम करने के लिए स्तरों की संख्या को कम कर सकते हैं (यदि यह आपके विश्लेषण के संदर्भ में समझ में आता है।) हालांकि, मुझे यकीन नहीं है कि अगर यह किसी प्रकार का सांख्यिकीय अमान्य हो जाएगा। ढहते स्तर क्योंकि आप देखते हैं कि वे महत्वपूर्ण नहीं हैं।

इसके अलावा, सिर्फ एक नोट, आप कहते हैं कि छोटे गुण नगण्य हैं। मुझे लगता है कि आप छोटे मतलब पी -value कर रहे हैं महत्वपूर्ण, अर्थात्: एक पी .0001 की -value महत्वपूर्ण है और इसलिए आप (शून्य अस्वीकार एक संभालने αपीपीपीα के स्तर ?)। >0.0001


(मेरे पी-मान टाइपो को ठीक किया।) यहां अच्छे अंक। इतना ढहने वाला स्तर, बशर्ते कि यह अध्ययन के संदर्भ में उचित और वास्तविक कारण पर आधारित कुछ तार्किक और तार्किक कारण (जो कि उन्हें विराम देने के साथ भी हो सकता है) उचित है, लेकिन न केवल उन्हें उनके महत्व के आधार पर मनमाने ढंग से lumping करना । समझ गया।
Trees4theForest 12

15

@ ऐली की प्रतिक्रिया एक अच्छी है।

यदि आप कई स्तरों के साथ एक चर में डाल रहे हैं, तो आपको अपने विश्लेषण में उन सभी स्तरों को बनाए रखने की आवश्यकता है। महत्व स्तर के आधार पर चुनना और चुनना दोनों ही आपके परिणामों को पूर्वाग्रह करेंगे और बहुत ही अजीबोगरीब बातें करेंगे, भले ही कुछ चमत्कार से आपके अनुमान एक ही बने रहें, क्योंकि विभिन्न स्तरों पर आपके अनुमानित प्रभावों में अंतर होगा। चर।

मैं भविष्यवक्ता के प्रत्येक स्तर के लिए आपके अनुमानों को ग्राफिक रूप से देखने पर विचार करूंगा। क्या आप एक प्रवृत्ति देख रहे हैं जैसे ही आप स्तर ऊपर जाते हैं, या यह अनियमित है?

सामान्य तौर पर, मैं सांख्यिकीय परीक्षणों के आधार पर चर को फिर से दर्ज करने का विरोध कर रहा हूँ - या सांख्यिकीय क्षणों पर पूरी तरह आधारित है। आपके चर में विभाजन कुछ और फर्म पर आधारित होना चाहिए - तार्किक रूप से सार्थक कट-पॉइंट, किसी विशेष संक्रमण बिंदु में क्षेत्र की रुचि आदि।


8

आपके द्वारा पहले से प्राप्त किए गए दो अच्छे उत्तरों पर विस्तार करते हुए, आइए इस पर गौर करें। मान लीजिए कि आपका आश्रित चर (कहना) आय है और आपका स्वतंत्र चर (कहना) जातीयता है, स्तरों के साथ, प्रति जनगणना परिभाषाओं के अनुसार (श्वेत, श्याम / अफ़र।, एम। भारतीय / अलास्का मूल निवासी, एशियाई, मूल निवासी हवाई / पीएसी)। अन्य और बहुराष्ट्रीय)। मान लीजिए कि आपने इसे संदर्भ श्रेणी के रूप में व्हाइट के साथ डमी कोड दिया है और आपको मिलता है

मैंnसी=0+1बी+2मैंएन+3एस+4एनएचपीमैं+5हे+6आर

यदि आप न्यूयॉर्क शहर में यह अध्ययन कर रहे हैं, तो आपको शायद बहुत कम मूल निवासी हवाईयन / प्रशांत द्वीप समूह मिलेंगे। आप उन्हें दूसरों के साथ शामिल करने का निर्णय ले सकते हैं (यदि कोई हो)। हालाँकि, आप पूर्ण समीकरण का उपयोग नहीं कर सकते हैं और सिर्फ उस गुणांक को शामिल नहीं कर सकते हैं। तब अवरोधक गलत होगा, और इसलिए आय के लिए कोई भी अनुमानित मूल्य होगा।

लेकिन आपको श्रेणियों को कैसे संयोजित करना चाहिए?

जैसा कि दूसरों ने कहा है, यह समझ में आता है


4

एक अलग राय देने के लिए: इसे एक यादृच्छिक प्रभाव के रूप में शामिल क्यों नहीं किया जाए? उन्हें कमजोर समर्थन के साथ उन स्तरों को दंडित करना चाहिए और सुनिश्चित करना चाहिए कि उनका प्रभाव आकार न्यूनतम है। इस तरह आप उन सभी को मूर्खतापूर्ण भविष्यवाणियों के बारे में चिंता किए बिना रख सकते हैं।

और हाँ, यह यादृच्छिक प्रभावों के पूरे "नमूना के सभी संभावित स्तरों" की तुलना में यादृच्छिक प्रभावों के एक बायेसियन दृष्टिकोण से अधिक प्रेरित है।


0

मैं यह भी सोच रहा था कि क्या मैं गैर-महत्वपूर्ण श्रेणियों को संदर्भ श्रेणी के साथ जोड़ सकता हूं। पुस्तक में "बिजनेस इंटेलिजेंस के लिए डेटा माइनिंग: कॉन्सेप्ट, तकनीक, और एप्लीकेशन में Microsoft Office Excel® में XLMiner®, गैलीट श्मुइली द्वारा दूसरा संस्करण, नितिन आर। पटेल, पीटर सी। ब्रूस", p87-89 कटौती अनुभाग) ( Google खोज परिणाम ) @ ऐली की प्रतिक्रिया के दूसरे वाक्य का समर्थन करता है:

  • "फिट किए गए प्रतिगमन मॉडल का उपयोग समान श्रेणियों को आगे संयोजित करने के लिए भी किया जा सकता है: जिन श्रेणियों में गुणांक होते हैं, जो सांख्यिकीय रूप से महत्वपूर्ण नहीं होते हैं (अर्थात उच्च पी-मूल्य) को संदर्भ श्रेणी के साथ जोड़ा जा सकता है क्योंकि संदर्भ श्रेणी से उनका भेद प्रतीत नहीं होता है आउटपुट चर पर महत्वपूर्ण प्रभाव "
  • "श्रेणियों में समान गुणांक मान (और समान चिह्न) को अक्सर जोड़ा जा सकता है क्योंकि आउटपुट चर पर उनका प्रभाव समान है"

हालाँकि, मैं विषय वस्तु विशेषज्ञों के साथ जाँच करने की योजना बनाता हूँ कि क्या श्रेणियां संयोजन तार्किक अर्थ बनाती हैं (जैसा कि पिछले उत्तरों / टिप्पणियों, उदाहरण @Fomite, @gung में निहित है)।


इस उत्तर का अन्य उत्तरों द्वारा विरोधाभास है।
kjetil b halvorsen
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.