मेरे कुछ भविष्यवक्ता बहुत अलग पैमानों पर हैं - क्या मुझे रैखिक प्रतिगमन मॉडल को फिट करने से पहले उन्हें बदलने की आवश्यकता है?


9

मैं एक बहुआयामी डेटा सेट पर रेखीय प्रतिगमन चलाना चाहूंगा। आदेश के परिमाण के संदर्भ में विभिन्न आयामों में अंतर मौजूद हैं। उदाहरण के लिए, आयाम 1 में आमतौर पर [0, 1] का मान रेंज होता है, और आयाम 2 में [0, 1000] का मान रेंज होता है।

क्या विभिन्न आयामों के लिए डेटा रेंज एक ही पैमाने में है यह सुनिश्चित करने के लिए मुझे कोई परिवर्तन करने की आवश्यकता है? यदि यह है, तो क्या इस तरह के परिवर्तन के लिए कोई मार्गदर्शन है?

जवाबों:


15

स्थानांतरण / स्केलिंग चर प्रतिक्रिया के साथ उनके सहसंबंध को प्रभावित नहीं करेंगे

क्यों यह सच है यह देखने के लिए, मान लीजिए कि बीच संबंध और है । फिर और बीच संबंध हैYXρY(Xa)/b

cov(Y,(Xa)/b)SD((Xa)/b)SD(Y)=cov(Y,X/b)SD(X/b)SD(Y)=1bcov(Y,X)1bSD(X)SD(Y)=ρ

जो सहसंबंध और तीन तथ्यों की परिभाषा से आता है :

  • cov(Y,X+a)=cov(Y,X)+cov(Y,a)=0=cov(Y,X)

  • cov(Y,aX)=acov(Y,X)

  • SD(aX)=aSD(X)

इसलिए, मॉडल फिट (उदाहरण के लिए या फिट किए गए मान) के संदर्भ में , अपने चर को शिफ्ट या स्केल करना (जैसे कि उन्हें उसी पैमाने पर रखना) मॉडल को नहीं बदलेगाR2 , क्योंकि रैखिक प्रतिगमन गुणांक चर के बीच सहसंबंध से संबंधित हैं। यह केवल आपके प्रतिगमन गुणांक के पैमाने को बदल देगा , जिसे तब ध्यान में रखना चाहिए जब आप आउटपुट की व्याख्या कर रहे हों यदि आप अपने भविष्यवाणियों को बदलना चाहते हैं।

संपादित करें: ऊपर ने मान लिया है कि आप इंटरसेप्ट के साथ साधारण प्रतिगमन के बारे में बात कर रहे हैं । इससे संबंधित कुछ और बिंदु (धन्यवाद @ साभार):

  • अवरोधन तब बदल सकता है जब आप अपने चरों को बदलते हैं, और जैसा कि टिप्पणियों में @ कार्डिनल बताते हैं, जब आप मॉडल से अवरोधन को छोड़ते हैं तो गुणांक बदल जाएंगे, यदि मैं मानता हूं कि आप ऐसा नहीं कर रहे हैं एक अच्छा कारण (उदाहरण के लिए यह उत्तर देखें )।

  • यदि आप किसी तरह से अपने गुणांक को नियमित कर रहे हैं (उदाहरण के लिए लासो, रिज रिग्रेशन), तो केंद्र केंद्रित / स्केलिंग फिट पर प्रभाव डालेगा। उदाहरण के लिए, यदि आप (रिज रिग्रेशन पेनल्टी) को दंडित कर रहे हैं, तो आप मानकीकरण के बाद एक बराबर फिट नहीं पा सकते हैं जब तक कि सभी चर पहले स्थान पर समान पैमाने पर नहीं थे, अर्थात कोई लगातार एक से अधिक नहीं है जो एक ही जुर्माना वसूल करेगा।βi2

कब / क्यों एक शोधकर्ता भविष्यवक्ताओं को बदलना चाह सकता है

एक सामान्य परिस्थिति (@Paul द्वारा बाद के उत्तर में चर्चा की गई) यह है कि शोधकर्ता अपने भविष्यवाणियों को मानकीकृत करेंगे ताकि सभी गुणांक समान पैमाने पर होंगे। उस स्थिति में, बिंदु अनुमानों का आकार एक मोटा विचार दे सकता है, जिससे पूर्वसूचक के संख्यात्मक परिमाण को मानकीकृत करने के बाद भविष्यवक्ताओं का सबसे बड़ा प्रभाव पड़ता है।

एक अन्य कारण यह है कि एक शोधकर्ता बहुत बड़े चर को मापना पसंद कर सकता है ताकि प्रतिगमन गुणांक एक अत्यंत छोटे पैमाने पर न हो। उदाहरण के लिए, यदि आप अपराध दर पर किसी देश के जनसंख्या आकार के प्रभाव को देखना चाहते हैं (बेहतर उदाहरण के बारे में नहीं सोच सकते हैं), तो आप गुणांक के बाद से इसकी मूल इकाइयों के बजाय लाखों में जनसंख्या आकार को मापना चाह सकते हैं। की तरह कुछ हो सकता है ।.00000001


दो त्वरित टिप्पणी: एक ओर जहां पोस्ट की शुरुआत सही है, तो यह तथ्य यह है कि केंद्रित याद करते हैं जाएगा अगर एक अवरोधन अनुपस्थित है एक प्रभाव है। :) दूसरा, यदि नियमितीकरण का उपयोग किया जाता है , तो केंद्र और पुनर्विक्रय महत्वपूर्ण प्रभाव डालते हैं । जबकि ओपी इस पर विचार नहीं कर सकता है, यह अभी भी ध्यान में रखने के लिए एक उपयोगी बिंदु है।
कार्डिनल

यदि मैट्रिक्स संकेतन के साथ सहज है, तो rescaling के लिए आक्रमण को भी आसानी से देखा जा सकता है। साथ पूर्ण रैंक (सादगी के लिए), । अब अगर हम को बदल देते हैं जहाँ विकर्ण है तो हमएक्सy^=एक्स(एक्स'एक्स)-1एक्स'yएक्सएक्सडीडी
y~=(एक्सडी)((एक्सडी)'एक्सडी)-1(एक्सडी)'y=एक्सडी(डीएक्स'एक्सडी)-1डीएक्स'y=एक्स(एक्स'एक्स)-1एक्स'y=y^
कार्डिनल

@कार्डिनल, मैंने इस तथ्य का उल्लेख करने का निर्णय लिया है कि, यदि आपके अनुमानों को नियमित किया जाता है तो केंद्र / स्केलिंग पर प्रभाव पड़ सकता है। मैंने पहली बार विरोध किया क्योंकि मुझे लगा कि यह एक लंबा विषयांतर शुरू करेगा जो उन लोगों को भ्रमित कर सकता है जो नियमित होने से परिचित नहीं हैं लेकिन मैंने पाया कि मैं इसे अपेक्षाकृत कम जगह के साथ संबोधित कर सकता हूं। Thanks--
मैक्रो

मेरी सभी टिप्पणियाँ आवश्यक रूप से सुझाव देने के लिए नहीं हैं कि उत्तर को अद्यतन किया जाना चाहिए। कई बार मैं सिर्फ अच्छे विचारों के तहत अनुत्तरित टिप्पणियों में फिसलना पसंद करता हूं ताकि संबंधित विचारों पर कुछ विचार कर सकूं जो किसी राहगीर के लिए दिलचस्पी का हो सकता है। (+1)
कार्डिनल

मतगणना के साथ ही कुछ फंकी चल रहा है। एक बार फिर, मैंने अपनी पूर्व टिप्पणी करते समय इसे बढ़ा दिया और यह "नहीं" लिया। हम्म।
कार्डिनल

2

तथाकथित "सामान्यीकरण" अधिकांश प्रतिगमन विधियों के लिए एक सामान्य दिनचर्या है। इसके दो तरीके हैं:

  1. प्रत्येक चर को [-1, 1] सीमा में मापें (मतलाब में मैपमिनमैक्स)
  2. प्रत्येक चर से माध्य निकालें और इसके मानक विचलन (मैटलैब में मैपस्टेड) ​​पर विभाजित करें, अर्थात वास्तव में "सामान्य करें"। यदि वास्तविक मतलब एक विचलन अज्ञात है तो बस नमूना चरित्र चित्रण लें: या जहाँ , , और
    एक्स~मैंजे=एक्समैंजे-μमैंσमैं
    एक्स~मैंजे=एक्समैंजे-एक्समैं¯रोंटी(एक्समैं)
    [एक्समैं]=μ[एक्समैं2-[एक्समैं]2]=σ2एक्समैं¯=1एनΣजे=1एनएक्समैंजेरोंटी(एक्समैं)=1एनΣजे=1एन(एक्समैंजे2-एक्समैं¯2)

जैसा कि रैखिक प्रतिगमन चर श्रेणियों के लिए बहुत संवेदनशील है, मैं आमतौर पर सभी चर को सामान्य बनाने का सुझाव देता हूं यदि आपको निर्भरता के बारे में कोई पूर्व ज्ञान नहीं है और सभी चर को सापेक्ष रूप से महत्वपूर्ण होने की उम्मीद है।

एक ही प्रतिक्रिया चर के लिए चला जाता है, हालांकि यह उनके लिए बहुत महत्वपूर्ण नहीं है।

क्यों नॉर्मलाइजेशन कर रहा है या नॅालाइजेशन? मॉडल में अलग-अलग वेरिएबल्स के सापेक्ष प्रभाव को निर्धारित करने के लिए अधिकतर। क्या एक ही यूनिट में सभी वेरिएबल प्राप्त किए जा सकते हैं।

उम्मीद है की यह मदद करेगा!


जब आप कहते हैं कि रेखीय प्रतिगमन चर श्रेणियों के प्रति बहुत संवेदनशील है, तो आपका क्या मतलब है ? किसी के लिए x1,x2,yइन दो आदेशों: summary(lm(y~x1+x2))$r.sqऔर summary(lm(y~scale(x1)+scale(x2)))$r.sq- मूल्यों जब आप गुणांक मानकीकृत नहीं है और जब आप करते हैं - एक ही मूल्य देने के लिए, बराबर फिट का संकेत है। आर2
मैक्रो

मैं फॉर्मेशन में पूरी तरह सही नहीं था। मेरा मतलब था बेवकूफ बनाना। यदि आप डेटा का केवल रेखीय परिवर्तन करते हैं तो प्रतिगमन हमेशा एक ही होगा ( अर्थ में )। लेकिन अगर आप यह निर्धारित करना चाहते हैं कि कौन से चर क्रूसियल हैं और जो बड़े पैमाने पर लगभग शोर हैं। यह बस चरों को बदलने और उनके मूल पैमानों को भूल जाने के लिए आश्वस्त है। इसलिए प्रतिगमन सापेक्ष प्रभावों को समझने के मामले में "संवेदी" है। आर2
पॉल

स्पष्ट करने के लिए धन्यवाद, लेकिन कौन से चर क्रूसिबल हैं और जो लगभग शोर हैं पैमाने मामलों को अक्सर -value द्वारा तय किया जाता है , जो कि मानकीकृत होने पर भी नहीं बदलेगा (जब आप अवरोधन को छोड़कर, निश्चित रूप से)। मैं आपकी बात से सहमत हूं कि यह कच्चे गुणांक के अनुमानों की अच्छी व्याख्या करता है। पी
मैक्रो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.