प्रतिगमन अवशिष्ट वितरण मान्यताओं


12

त्रुटियों पर वितरणात्मक धारणा को स्थान देना क्यों आवश्यक है, अर्थात

yi=Xβ+ϵi , ।ϵiN(0,σ2)

लिखा क्यों नहीं

yi=Xβ+ϵi , ,yiN(Xβ^,σ2)

जहां या तो मामले में । मैंने देखा है कि यह माना जाता है कि वितरण संबंधी मान्यताओं को डेटा पर नहीं बल्कि त्रुटियों के आधार पर रखा गया है। ϵi=yiy^

मैं वास्तव में इन दो योगों के बीच के अंतर को नहीं समझ रहा हूँ। कुछ स्थानों पर मुझे डेटा पर वितरण संबंधी धारणाएं दिखाई देती हैं (बायेसियन लिट। यह ज्यादातर लगता है), लेकिन ज्यादातर बार मान्यताओं को त्रुटियों पर रखा जाता है।

मॉडलिंग करते समय, किसी एक या दूसरे पर मान्यताओं के साथ शुरुआत क्यों करनी चाहिए?


सबसे पहले, यह "आवश्यक" नहीं है, यह निर्भर करता है कि आप क्या करने का इरादा रखते हैं। कुछ अच्छे उत्तर हैं, लेकिन मुझे लगता है कि एक्सएक्स "वाई" पैदा करने वाले के अर्थ में क्रूस, कार्य-कारण की अंतर्निहित धारणा है, और यदि आप इसे इस तरह देखते हैं कि आप देखते हैं कि वाई का वितरण "कारण" है आरएच का वितरण, जिसे एक्स और त्रुटियों को कहना है (यदि कोई हो)। आप बहुत सीमित वितरणीय मान्यताओं के साथ और विशेष रूप से, सामान्यता के बिना बहुत सारे अर्थमिति कर सकते हैं। सुकर है।
PatrickT

3
एक्सβy( y )=(y)=एक्सβy^ नहीं है , और की आबादी मतलब 'एस यह नमूना अनुमान के रूप में ही नहीं है। जो यह कहना है कि दूसरी चीज़ वास्तव में पहले जैसी नहीं है, लेकिन यदि आप इसकी अपेक्षा ( ) से करते हैं, तो दोनों समान होंगे। XβyE(y^)=E(y)=Xβ
Glen_b -Reinstate मोनिका

क्या है ? और अगर साथ बदलता रहता है , तो भिन्न क्यों नहीं होता? कृपया अपना मन बना लें कि आप किस संकेतन का उपयोग करना चाहते हैं, वेक्टर या मैट्रिक्स। अब यदि हम यह मानते हैं कि आपका संकेतन bizzare से अधिक है: , यानी आप स्वयं और अन्य सभी टिप्पणियों संदर्भ में वितरण को परिभाषित करते हैं ! yमैंमैंएक्सβ y =एक्स β yमैं~एन(एक्स ' मैं (Σएक्सजेएक्स ' जे )-1Σएक्सजेवाईj,σ2)yमैंyjy^yiiXβy^=Xβ^yiN(xi(xjxj)1xjyj,σ2)yiyj
mpiktas

1
मैंने प्रश्न को अस्वीकार कर दिया है क्योंकि मुझे लगता है कि नोटेशन भ्रामक है और यह पहले से ही कई सूक्ष्म रूप से परस्पर विरोधी उत्तरों के परिणामस्वरूप है।
mpiktas

जवाबों:


9

एक रेखीय प्रतिगमन सेटिंग में पर विश्लेषण और परिणाम प्राप्त करना सामान्य है , अर्थात "डेटा" पर सशर्त। इस प्रकार, आपको क्या चाहिए कि सामान्य है, अर्थात, आपको सामान्य होने के लिए आवश्यकता है। जैसा कि पीटर फ़्लॉम का उदाहरण दिखाता है, किसी के पास सामान्यता के बिना की सामान्यता हो सकती है , और, इस प्रकार, जब से आपको जरूरत है तो normality of , यह समझदार धारणा है।y X ϵ ϵ y ϵXyXϵϵyϵ


9

मैं दूसरी परिभाषा लिखूंगा

yiN(Xiβ,σ2)

या (कार्ल ओस्कर सुझाव +1 के रूप में)

yi|XiN(Xiβ,σ2)

यानी मॉडलिंग की धारणा यह है कि प्रतिक्रिया चर सामान्य रूप से प्रतिगमन रेखा (जो सशर्त माध्य का अनुमान है) के आसपास वितरित की जाती है, निरंतर विचरण । यह वही बात नहीं है जैसा कि यह सुझाव है कि सामान्य रूप से वितरित जाते हैं, क्योंकि वितरण का मतलब पर निर्भर करता है ।σ2yiXi

मुझे लगता है कि मैंने मशीन लर्निंग साहित्य में इसके समान सूत्र देखे हैं; जहाँ तक मैं यह देख सकता हूँ कि यह पहली परिभाषा के बराबर है, मैंने जो किया है वह दूसरे सूत्रीकरण को थोड़ा अलग तरीके से करने के लिए है, जो कि और 's को समाप्त करने के लिए है ।ϵiy^


3

अंतर एक उदाहरण से स्पष्ट करना सबसे आसान है। यहाँ एक सरल है:

मान लीजिये कि वाई बिमोडल है, एक स्वतंत्र चर के हिसाब से प्रतिरूपता के साथ। जैसे मान लीजिए कि Y ऊँचाई है और आपके नमूने (जो भी कारण से) में जॉकी और बास्केटबॉल खिलाड़ी शामिल हैं। में जैसेR

set.seed(123)
tall <- rnorm(100, 78, 3)
short <- rnorm(100, 60, 3)

height <- c(tall, short)
sport <- c(rep("B", 100), rep("H",100))

plot(density(height))

m1 <- lm(height~sport)
plot(m1)

पहला घनत्व बहुत गैर-सामान्य है। लेकिन मॉडल से अवशिष्ट सामान्य के बेहद करीब हैं।

जैसे कि प्रतिबंध इस तरह क्यों रखा गया है - मैं किसी और को जवाब दूंगा कि एक।


1
धन्यवाद! मैं देख रहा हूं कि आप एक बायोमॉडल वितरण के साथ क्या मतलब रखते हैं। अनुवर्ती प्रश्न: क्या होगा यदि डेटा के भिन्न रूप अलग-अलग हैं, (विषमलैंगिकता?) कहते हैं .. सभी जॉकी छोटे सही हैं, लेकिन बास्केटबॉल खिलाड़ियों की ऊंचाई बहुत अधिक है। शायद उनके लिए, लंबा <- rnorm (100,78,10)। इस तरह की स्थिति या पर आपकी धारणाओं को कैसे ? yiϵi
बिल_इ २ bill

उस स्थिति में, विषमलैंगिकता एक समस्या होगी और आपको कुछ अन्य प्रकार के प्रतिगमन, या संभवतः कुछ परिवर्तन का उपयोग करने की आवश्यकता होगी, या आप एक और चर जोड़ सकते हैं (इस मूर्खतापूर्ण उदाहरण में, बास्केटबॉल में खेला जाने वाला स्थान ऐसा कर सकता है)।
पीटर Flom - को पुनः स्थापित मोनिका

मुझे यकीन नहीं है कि सूत्रीकरण यह सुझाव देने के लिए है कि ys सामान्य रूप से वितरित किए जाते हैं, बस यह कि उनका एक सामान्य सशर्त वितरण है।
डिक्रान मार्सुपियल

2

आपको अपने दूसरे सूत्रीकरण में एक suscripted i जोड़ने की आवश्यकता है: क्योंकि को के साथ अलग-अलग होने में सक्षम होना चाहिए ।
y एक्स मैं

yiN(y^i,σε2)
y^xi

यह नोट किया गया है कि, क्या है ? यह । इससे सूत्रीकरण @DikranMarsupial प्रस्तुत होता है: यह मानने योग्य है कि यह आपके पहले के समान ही है। सूत्रीकरण, क्योंकि दोनों सामान्य वितरण को निर्धारित करते हैं और अपेक्षित मूल्य समान होते हैं। वह है: (और स्पष्ट रूप से संस्करण समान हैं।) दूसरे शब्दों में, यह हैy^ixiβ^

yiN(xiβ^,σε2)

E[xiβ^]=E[xiβ^+E[N(0,σε2)]]=E[xiβ^+0]=E[xiβ^]
मान्यताओं में अंतर नहीं है, लेकिन केवल एक उल्लेखनीय अंतर है।

तो सवाल यह है कि क्या पहले फॉर्मूलेशन का उपयोग करके विचार प्रस्तुत करना पसंद है?

मुझे लगता है कि उत्तर दो कारणों से हां है:

  1. लोग अक्सर भ्रमित करते हैं कि क्या कच्चे डेटा को सामान्य रूप से वितरित किया जाना चाहिए (यानी, ), या यदि डेटा सशर्त / त्रुटियों पर सामान्य रूप से वितरित किया जाना चाहिए ( उदाहरण के लिए , / ), उदाहरण के लिए। : क्या होगा यदि अवशिष्ट सामान्य रूप से वितरित किए जाते हैं, लेकिन y नहीं है?YXY|Xε
  2. लोग अक्सर भ्रमित करते हैं कि स्वतंत्र, कच्चे डेटा या त्रुटियों को क्या माना जाता है। इसके अलावा, हम अक्सर इस तथ्य का उल्लेख करते हैं कि कुछ आईआईडी होना चाहिए (स्वतंत्र और समान रूप से वितरित); यदि आप संदर्भ में सोच रहे हैं, तो यह भ्रम का एक और संभावित स्रोत हो सकता है, जैसा कि स्वतंत्र हो सकता है, लेकिन इसे तब तक वितरित नहीं किया जा सकता जब तक कि शून्य परिकल्पना नहीं होती (क्योंकि माध्य भिन्न होगा)। Y|XY|X

मेरा मानना ​​है कि ये भ्रम पहले की तुलना में दूसरे निर्माण का उपयोग करने की अधिक संभावना है।


1
@Glen_b, मैं आपकी टिप्पणी का पालन नहीं करता। मेरा दावा यह नहीं है कि बराबर है , बल्कि उस के बराबर । Subscripted टिप्पणियों का अनुक्रमण प्रासंगिक है। विचार यह है कि किसी दिए गए अवलोकन के लिए अनुमानित मूल्य, , । इससे का जनसंख्या / w का कोई मतलब नहीं है । (ऐसा प्रतीत होता है कि मैं अपने बेटों से टोपी जोड़ना भूल गया था, हालाँकि, मैंने अब इसे ठीक कर लिया है।)y^Xβy^ixiβ^iy^ixiβ^Y
गूँग - मोनिका

@Glen_b अगर यह नमूना होता तो इसका मतलब यह होता कि यह बजाय होता । मैंने शुरू में नोटेशन को भ्रामक पाया था, लेकिन यह तथ्य कि बयानों से अनुसरण करता है कि और । इन दोनों चीजों के सत्य होने के लिए, केवल हो सकता है । y y =एक्सβyमैं=एक्सβ+εमैंεमैं=yमैं - yy¯y^y^=Xβyi=Xβ+ϵiϵi=yiy^y^Xβ
डिक्रान मार्सुपियल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.