सुराग जो एक समस्या रैखिक प्रतिगमन के लिए अच्छी तरह से अनुकूल है


12

मैं मॉन्टगोमरी, पेक और वीनिंग द्वारा रैखिक प्रतिगमन विश्लेषण के परिचय का उपयोग करके रैखिक प्रतिगमन सीख रहा हूं । मैं एक डेटा विश्लेषण परियोजना चुनना चाहता हूँ।

मेरे पास भोला विचार है कि रैखिक प्रतिगमन केवल तभी उपयुक्त होता है जब कोई संदेह करता है कि व्याख्यात्मक चर और प्रतिक्रिया चर के बीच रैखिक कार्यात्मक संबंध हैं। लेकिन कई वास्तविक दुनिया के आवेदन इस कसौटी पर खरे नहीं उतरते। फिर भी रैखिक प्रतिगमन इतना प्रचलित है।

एक अनुभवी सांख्यिकीविद् किसी परियोजना के क्या पहलुओं के बारे में सोच रहा होगा यदि वे मेरे जूते में थे, एक प्रश्न + डेटा की तलाश में जो रैखिक प्रतिगमन के लिए अच्छी तरह से अनुकूल है।


3
मैं सराहना करता हूं कि आप एक तकनीक सीख रहे हैं और जानना चाहते हैं कि यह कहां काम करेगा। लेकिन अनुभवी सांख्यिकीविदों (और सांख्यिकीय रूप से दिमाग वाले वैज्ञानिकों) के लिए स्थिति पूरी तरह से दूसरे तरीके की है: एक समस्या और डेटा है और फिर सवाल यह है कि किस तरह के मॉडल और तरीके सबसे अच्छे विकल्प हैं। आपको यह देखना होगा कि पहले की तरह रैखिक प्रतिगमन सिर्फ एक स्वाद है; अनुभव के साथ लोग पॉइसन रिग्रेशन, लॉजिट रिग्रेशन, आदि पर कूदने के लिए खुश हैं और यहां तक ​​कि मापदंडों में रैखिकता को आसानी से अधिक सामान्य संरचनाओं के साथ जोड़ा जा सकता है।
निक कॉक्स

और निश्चित समय श्रृंखला mdels जब प्रेक्षण संभावित रूप से
स्वतःसंबंधित

3
वास्तव में रैखिक मॉडल का उपयोग बाएं और दाएं तब भी किया जाता है, जब हमें पता होता है कि यह रिश्ता नॉनक्लियर है। पहले क्रम सन्निकटन के रूप में एक रेखीय मॉडल के बारे में सोचो, एक बहुभिन्नरूपी टेलर विस्तार की तरह।
अक्कल

जवाबों:


12

मेरे पास भोला विचार है कि रैखिक प्रतिगमन केवल तभी उपयुक्त होता है जब कोई संदेह करता है कि व्याख्यात्मक चर और प्रतिक्रिया चर के बीच रैखिक कार्यात्मक संबंध हैं। लेकिन कई वास्तविक दुनिया के आवेदन इस कसौटी पर खरे नहीं उतरते।

यह "रैखिक प्रतिगमन" में "रैखिक" क्या है की एक सही समझ नहीं है।

yx

yx

यहाँ एक एकल भविष्यवक्ता के साथ एक उदाहरण है , लेकिन वक्रता मॉडल को अक्सर कई प्रतिगमन के रूप में फिट किया जाता है, जहाँ प्रतिगमन में एक भविष्यवक्ता (x चर, स्वतंत्र चर) के कई कार्य हो सकते हैं और यह बहुत अधिक लचीलेपन की अनुमति देता है। इसमें बहुपद प्रतिगमन शामिल है, उदाहरण के लिए। कुछ चर्चा और उदाहरण यहां देखें ।

हालांकि, अगर हम इस तथ्य के लिए अनुमति देते हैं कि घुमावदार रिश्तों को फिट करने के लिए भविष्यवाणियों को रूपांतरित किया जा सकता है, तो मापदंडों में रैखिकता भी उन परिवर्तित भविष्यवाणियों में रैखिकता के अनुरूप होती है।

इसके अलावा, कई समस्याएं रैखिक के करीब हैं (कम से कम मूल्यों पर विचार किया जा रहा है), या इतना शोर कर रहे हैं कि किसी भी हल्के वक्रता को समझने योग्य नहीं है, और बढ़ते या घटते रिश्ते के लिए विभिन्न प्रकार के सरल मॉडल कर सकते हैं - और उस मामले में एक रेखीय विकल्प फिट और समझने के लिए पर्याप्त और सरल दोनों हो सकता है।

एक अनुभवी सांख्यिकीविद् किसी परियोजना के क्या पहलुओं के बारे में सोच रहा होगा यदि वे मेरे जूते में थे, एक प्रश्न + डेटा की तलाश में जो रैखिक प्रतिगमन के लिए अच्छी तरह से अनुकूल है।

जब मैं शिक्षण के लिए एक अच्छा उदाहरण खोजने की कोशिश कर रहा हूं, तब केवल एक ही समय मैं प्रतिगमन लागू करने के लिए एक समस्या की तलाश कर सकता हूं। जब वास्तव में सांख्यिकीय कार्य करने की स्थिति में (इसे समझाने या सिखाने के बजाय), मैं विधि के अनुरूप डेटा चुनने के बजाय ब्याज के सवाल (और डेटा की विशेषताओं) के अनुरूप होने के लिए पद्धति का चयन करता हूं।

उदाहरण के लिए, बढ़ई की कल्पना करें। बढ़ई ने एक प्रवक्ता नहीं उठाया और कहा कि "मैं इस पर क्या उपयोग कर सकता हूं ?"। बल्कि, बढ़ई को हल करने के लिए एक समस्या है, और समस्या की विशेषताओं को देखते हुए ("मैं क्या बनाने की कोशिश कर रहा हूं?" और "मैं किस तरह की लकड़ी का उपयोग कर रहा हूं?" और इतने पर ...) विशेष उपकरण हो सकते हैं? दूसरों की तुलना में अधिक प्रासंगिक है। कभी-कभी जो उपकरण उपलब्ध होते हैं वे विकल्पों को सीमित कर सकते हैं या मार्गदर्शन कर सकते हैं (यदि आपके पास एक प्रवक्ता नहीं है , तो आपको कुछ और करना होगा ... या आपको बस एक प्रवक्ता खरीदना होगा)।

हालाँकि, मान लें कि आपके पास एक पॉकेट सांख्यिकीविद है जो आपकी सहायता कर रहा है और आप रेखीय प्रतिगमन के अनुकूल एक समस्या खोजने की कोशिश कर रहे हैं। तब वे सुझाव दे सकते हैं कि आप विभिन्न प्रतिगमन मान्यताओं पर विचार करें और जब वे बात करें। मैं कुछ बातों का उल्लेख करूंगा।

E(y|g(x))g(x)gx=xE(y|x)=a+bx

यदि आप कई प्रतिगमन का उपयोग करने में सक्षम हैं, यहां तक ​​कि विशेष रूप से एक प्रमुख मुद्दा नहीं है, क्योंकि एक (उदाहरण के लिए) घन प्रतिगमन का उपयोग कर सकते हैं काफी सामान्य संबंधों को फिट करने के लिए।

मैं आपको समय के साथ डेटा को स्पष्ट करने का सुझाव दूंगा जब तक कि आप गंभीर रिग्रेशन वाले मुद्दों को नहीं समझते हैं; पार के अनुभागीय समस्याओं के साथ रहना।

xx

x

यदि आप परिकल्पना परीक्षण, आत्मविश्वास अंतराल या भविष्यवाणी अंतराल में रुचि रखते हैं, तो सामान्य प्रतिगमन मान्यताओं में से अधिक मायने रख सकते हैं (लेकिन ऐसे विकल्प हैं जो उन धारणाओं को नहीं बनाते हैं, और कुछ मामलों में, कम से कम कुछ धारणाएं नहीं हो सकती हैं वैसे भी विशेष रूप से महत्वपूर्ण हो)।

इसलिए कम से कम एक चीज़ के बारे में जानने की कोशिश करें कि वे कौन सी धारणाएँ हैं जो आपके द्वारा उपयोग की जाने वाली हीन प्रक्रियाओं को प्राप्त करने में बनाई गई हैं और वे आपकी विशेष समस्या में कितनी महत्वपूर्ण हो सकती हैं (उदाहरण के लिए, सामान्य परिकल्पना परीक्षणों का प्रदर्शन करते समय, सामान्यता एक धारणा है, लेकिन बड़े नमूनों में धारणा महत्वपूर्ण नहीं हो सकती है; दूसरी तरफ, निरंतर विचरण की धारणा एक मुद्दे से अधिक हो सकती है)।

ऐसे कई पद हैं जो प्रतिगमन की मान्यताओं पर चर्चा करते हैं, और कुछ पद जो चर्चा करते हैं कि उन्हें कब बनाया जाना चाहिए, और वे कितना मायने रखते हैं, और यहां तक ​​कि उन पर विचार करने का क्या आदेश है।


अच्छा जवाब है, लेकिन मुझे लगता है कि यह पूरी तरह से सवाल का जवाब नहीं देता है। एक अनुभवी सांख्यिकीविद् किसी परियोजना के क्या पहलुओं के बारे में सोच रहा होगा यदि वे मेरे जूते में थे, एक प्रश्न + डेटा की तलाश में जो रैखिक प्रतिगमन के लिए अच्छी तरह से अनुकूल है। अनुत्तरित रहता है।
Dawny33

@ Dawny33 मैं निश्चित रूप से बाद में इसे और अधिक जोड़ने का इरादा रखता हूं - जब मैं टाइप कर रहा था तो कुछ सामान आया था, जिसने मुझे मूल रूप से पूर्ण उत्तर लिखने में रोक दिया था; मेरे पास केवल उस वाकये को खत्म करने का समय था, जो अब मैं एक या दो दिन के लिए वापस नहीं पा सकता था। वास्तव में मेरे पास सभी टाइपो को सही करने का समय भी नहीं था। (इस बीच आपको उत्तर पोस्ट करने में संकोच नहीं करना चाहिए।) दूसरी ओर, यह इंगित करते हुए कि प्रश्न का आधार त्रुटिपूर्ण है, ओपी के लिए अलग-अलग चीजों से पूछना चाह सकता है, जो कि मूल रूप से उनका इरादा था (यह अक्सर ऐसा होता है जब मामला होता है। केंद्रीय आधार विफल हो जाता है)
Glen_b -Reinstate मोनिका

उदाहरण के लिए, मैं एक नए प्रश्न का अनुमान लगाता हूं जो कि हो सकता है "क्या आपके पास एक उदाहरण है?"।
Glen_b -Reinstate मोनिका

@Glen_b धन्यवाद। "रेखीय" मॉडल को संदर्भित करता है मापदंडों में रैखिक होने के नाते । क्षमा करें यदि मैंने गलत लिखा है, तो मेरा मतलब यह नहीं था कि अन्यथा। कीवर्ड कार्यशील था ।
cwackers

@Glen_b वे सुझाव दे सकते हैं कि आप विभिन्न प्रतिगमन मान्यताओं पर विचार करें । फिर से सहमत हुए। मुझे इस बारे में स्पष्ट नहीं था, लेकिन मेरा क्यू डोमेन ज्ञान के बारे में अधिक है। मैं सोच रहा हूं कि एक अनुभवी सांख्यिकीविद् एलआर विश्लेषण के लिए विचार किए जा रहे सिस्टम में क्या देख रहा होगा, इसलिए वहां के मेरे भोले प्रस्ताव को प्रतिगामी और कार्यात्मक रूप से प्रतिक्रिया से संबंधित किया जा रहा है, और प्रतिक्रिया के लिए जिसका एक साथ संबंध additive है।
cwackers

4

YYYYYX) कुंआ। कई वर्षों के अनुभव से आप देखेंगे कि कुछ चर जैसे कि रक्तचाप एक रैखिक मॉडल और अन्य में अच्छा व्यवहार करते हैं (जैसे, रक्त रसायन माप)।

YY


अच्छी तरह से व्यवहार किए जाने के पहलू को इंगित करने के लिए धन्यवाद। मैंने रजिस्टरों के परिवर्तनों के बारे में सोचा है, लेकिन प्रतिक्रिया चर के नहीं। हालाँकि, अब मैं देख रहा हूँ कि बाद में कैसे अवशेषों के वितरण को फिर से व्यवस्थित करने के लिए इस्तेमाल किया जा सकता है। तस्वीर में से कुछ भरने के लिए धन्यवाद। एक बहुत ही उपयोगी पोस्ट।
cwackers

3

@Glen_b ने बहुत अच्छा जवाब दिया लेकिन, जैसा कि उल्लेख किया गया है, खत्म नहीं हुआ।

तो, अपने अंतिम प्रश्न के रूप में:

एक अनुभवी सांख्यिकीविद्, मुझे लगता है, यह सवाल नहीं पूछेंगे। ग्लेन नोट के रूप में, समस्या उपकरण का उपयोग करने के लिए निर्धारित करती है, न कि दूसरे तरीके से।

अगर मैं लीनियर रिग्रेशन जैसी तकनीक सीखने की कोशिश कर रहा था तो मैं पहले से काम किए गए उदाहरणों का उपयोग करूंगा - लेकिन जिन लोगों के पास वास्तविक डेटा था, उन्होंने चीजों को आसान बनाने के लिए डिज़ाइन किए गए डेटा को नहीं बनाया। उदाहरण के लिए प्रतिगमन मॉडलिंग जैसी पुस्तक मार्गदर्शन प्रदान कर सकती है।

हालांकि, एक प्रतिगमन समस्या को देखने वाले पहले चरणों में से एक यह तय कर रहा है कि क्या रैखिक प्रतिगमन वास्तव में उपयुक्त है।


एक अनुभवी सांख्यिकीविद्, मुझे लगता है, यह सवाल नहीं पूछेंगे। हाँ, यही कारण है कि मैंने अपने क्यू को "अपने जूते में" योग्य किया। पुस्तक सिफारिश के लिए बहुत बहुत धन्यवाद। मैं एक कॉपी नीचे ट्रैक करूँगा। उदाहरणों का एक समूह कहानी के आधे हिस्से में कम से कम मदद करेगा, जबकि अन्य उदाहरण आधे हैं।
cwackers

आह, एक बोली! 4 वें संस्करण के पेज 2 से: हम पाठकों को प्रश्नों के बारे में सोचने के लिए आमंत्रित करते हैं (कार्य, अनुसंधान या रुचि के अपने क्षेत्रों में) जिन्हें प्रतिगमन विश्लेषण का उपयोग करके संबोधित किया जा सकता है।
cwackers

0

कई प्रतिक्रियाओं ने उन धारणाओं को छुआ है जिन्हें पूरा करने की आवश्यकता है: अवशिष्ट में रैखिकता, पूर्वसूचक की सीमा के पार विचरण की समरूपता, कोई चरम मान जो प्रतिगमन रेखा और स्वतंत्र टिप्पणियों को प्रभावित कर सकता है। अवशिष्ट भूखंड अधिकांश प्रतिगमन कार्यक्रमों के साथ उत्पादन करने में काफी आसान हैं और कुछ पैकेज कुछ स्वचालित रूप से (एसएएस) प्रदान करते हैं।

एक व्यक्ति ने y को बदलने की बात की। यह कुछ क्षेत्रों में सामान्य अभ्यास है, लेकिन यह एक अभ्यास है जो पक्षपाती और संभवतया अप्रत्यक्ष परिणाम देता है। पूर्वाग्रह तब दिखाई देता है जब आप परिणामों को मूल मीट्रिक में बदलने की कोशिश करते हैं। एक और प्रकार के प्रतिगमन पर शिफ्ट करने के लिए बेहतर है जिसमें एक अवशिष्ट पैटर्न होता है जो अवशिष्ट की वितरण संबंधी मान्यताओं से मेल खाता है। अग्रेंजी के श्रेणीगत डेटा विश्लेषण के परिचय में अध्याय 3 देखें जहां वह लिंक्स की अवधारणा का परिचय देते हैं। प्रतिगमन पाठ्यपुस्तकों की एक संख्या भी सामान्यीकृत रैखिक मॉडल का परिचय देती है।


मैं परिवर्तन के बारे में निराशावाद को साझा नहीं करता हूं। सब के बाद मूल परिवर्तन काफी मनमाना है। यदि आप एक सममित वितरण के साथ अवशिष्ट को बदलते हैं और प्राप्त करते हैं, तो अनुमानित मानों का बैक-ट्रांसफॉर्म मूल पैमाने पर अनुमानित औसत है। अनुमानित मेडियन काफी उपयोगी होते हैं। यदि आप मूल पैमाने पर अनुमानित साधनों को प्राप्त करना चाहते हैं, तो आप स्मीयर अनुमानक का उपयोग कर सकते हैं।
फ्रैंक हरेल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.