मात्रात्मक प्रतिगमन "काम" कैसे करता है?


25

मैं मात्रात्मक प्रतिगमन की एक सहज, सुलभ व्याख्या प्राप्त करने की उम्मीद कर रहा हूं।

मान लें कि मेरे पास , और भविष्यवाणियों के परिणाम का एक सरल डेटासेट है ।Yएक्स1,एक्स2

यदि, उदाहरण के लिए, मैं .25, .5, .75 पर एक मात्रात्मक प्रतिगमन चलाता हूं, और वापस ।β0,.25,β1,.25β2,.75

क्या केवल दिए गए मानों के आधार पर मान पाए जाते हैं, जो मानों को क्रमबद्ध करते हैं, और उदाहरणों के आधार पर एक रेखीय प्रतिगमन का प्रदर्शन करते हैं?βy

या सभी नमूने अनुमानों में योगदान करते हैं , जो बढ़ते भार के साथ होता है क्योंकि क्वांटाइल से दूरी बढ़ती है?β

या यह कुछ पूरी तरह से अलग है? मुझे अभी तक एक सुलभ स्पष्टीकरण नहीं मिला है।


3
मैथ्स के बारे में आपको ये दो उत्तर मददगार लग सकते हैं: आंकड़े . stackexchange.com/questions/102906/…
एंडी

जवाबों:


21

मैं Koenker और Hallock (2001, आर्थिक परिप्रेक्ष्य के जर्नल) और Koenker की नामांकित पाठ्यपुस्तक की सिफारिश करता हूं

  1. प्रारंभिक बिंदु वह अवलोकन है जो डेटा सेट का माध्य निरपेक्ष त्रुटियों के योग को कम करता है । यही है, 50% क्वांटाइल एक विशेष अनुकूलन समस्या का समाधान है (उस मूल्य को खोजने के लिए जो पूर्ण त्रुटियों के योग को कम करता है)।
  2. इस से, यह है कि किसी भी खोजने के लिए आसान है -quantile एक विशिष्ट न्यूनतम समस्या का समाधान है अर्थात् विषम की राशि को कम करने, भारित , पूर्ण त्रुटियों वजन पर निर्भर करती है कि साथ τττ
  3. अंत में, प्रतिगमन के कदम को बनाने के लिए, हम भविष्यवाणियों के रैखिक संयोजन के रूप में इस कम से कम समस्या के समाधान का मॉडल तैयार करते हैं, इसलिए अब यह समस्या एक मान नहीं, बल्कि प्रतिगमन मापदंडों का एक समूह है।

तो अपने अंतर्ज्ञान काफी सही है: नमूने के सभी के लिए योगदान , अनुमान quantile के आधार पर विषम वजन के साथ τ हम के लिए करना है।βτ


अपनी बात 1 के बारे में), क्या यह केवल सच नहीं माना जाएगा कि वाई सममित रूप से वितरित है? यदि Y को {1, 1, 2, 4, 10} की तरह तिरछा किया जाता है, तो माध्य 2 निश्चित रूप से पूर्ण त्रुटि को कम नहीं करेगा। क्या मात्रात्मक प्रतिगमन हमेशा मान लेता है कि Y सममित रूप से वितरित है? धन्यवाद!
बेन

1
@ बान: नहीं, समरूपता की आवश्यकता नहीं है। मुख्य बिंदु यह है कि माध्य अपेक्षित पूर्ण त्रुटि को कम करता है । यदि आपके पास 1, 2, 4, 10 और संभावनाओं के साथ असतत वितरण 0.4, 0.2, 0.2, 0.2 है, तो 2 का एक बिंदु सारांश वास्तव में अपेक्षित पूर्ण त्रुटि को कम करता है । अनुकार R कोड की कुछ पंक्तियाँ है:foo <- sample(x=c(1,2,4,10),size=1e6,prob=c(.4,.2,.2,.2),replace=TRUE); xx <- seq(1,10,by=.1); plot(xx,sapply(xx,FUN=function(yy)mean(abs(yy-foo))),type="l")
S. Kolassa - Reinstate Monica

(और हाँ, मुझे "रकम" पर चर्चा करने के बजाय अपने उत्तर में स्पष्ट होना चाहिए था।)
एस। कोलासा - मोनिका

Derp। मैं क्या सोच रहा था। यह अब समझ में आता है, धन्यवाद।
बेन

19

क्वांटाइल रिग्रेशन का मूल विचार इस तथ्य से आता है कि विश्लेषक डेटा के वितरण में रुचि रखता है, बल्कि डेटा का मतलब है। मतलब से शुरू करते हैं।

y=एक्सβ(Y|एक्स=एक्स)=एक्सβआर्गमिनटβ(y-एक्सβ)'(y-एक्सβ)

दूसरी ओर माध्यिका प्रतिगमन एक ऐसी रेखा की तलाश करता है, जो डेटा के आधे हिस्से की अपेक्षा करती है। इस मामले लक्ष्य समारोह में है कहाँ | | पहला आदर्श है।आर्गमिनटβ|y-एक्सβ|||

क्वांटाइल रिग्रेशन में माध्य के विचार को मात्रात्मक परिणामों तक पहुंचाना। पीछे विचार यह है कि डेटा की -पर्सेन्ट से परे एक लाइन मिल जाए ।α

यहां आपने एक छोटी सी गलती की है, क्यू-प्रतिगमन डेटा के एक मात्रा को खोजने की तरह नहीं है, फिर उस सबसेट (या यहां तक ​​कि अधिक चुनौतीपूर्ण सीमाएं) के लिए एक पंक्ति फिट करें।

α

β^α=आर्गमिनटβ{α|y-एक्सβ|मैं(y>एक्सβ)+(1-α)|y-एक्सβ|मैं(y<एक्सβ)}

जैसा कि आप देखते हैं कि यह चतुर लक्ष्य फ़ंक्शन कुछ और नहीं है जो एक अनुकूलन समस्या के लिए मात्रात्मक का अनुवाद कर रहा है।

βα


यह उत्तर शानदार है।
जिंहुआ वांग
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.