रैखिक प्रतिगमन के बारे में सबसे आम गलत धारणाओं में से कुछ क्या हैं?


70

मैं आपके लिए उत्सुक हूं, जिनके पास अन्य शोधकर्ताओं के साथ सहयोग करने का व्यापक अनुभव है, जो रैखिक प्रतिगमन के बारे में सबसे आम गलत धारणाओं में से कुछ हैं जो आप मुठभेड़ करते हैं?

मुझे लगता है कि समय से पहले आम भ्रांतियों के बारे में सोचने के लिए एक उपयोगी अभ्यास हो सकता है

  1. लोगों की गलतियों को स्वीकार करें और सफल अभिव्यक्ति करने में सक्षम हों कि कुछ गलत धारणा गलत क्यों है

  2. एहसास है कि अगर मैं खुद कुछ गलतफहमियों को दूर कर रहा हूँ!

कुछ बुनियादी बातें जो मैं सोच सकता हूँ:

स्वतंत्र / आश्रित चर को सामान्य रूप से वितरित किया जाना चाहिए

सटीक व्याख्या के लिए चर को मानकीकृत किया जाना चाहिए

अन्य कोई?

सभी प्रतिक्रियाओं का स्वागत है।


5
इसे संभवतः सीडब्ल्यू बनाया जाना चाहिए, क्योंकि यह संभावनाओं की एक सूची को आमंत्रित करता है और यह कहना मुश्किल होगा कि एक उद्देश्यपूर्ण रूप से 'सही उत्तर' है।
गंग

बहुत से लोग जो मुझे जानते हैं वे अभी भी अपने डेटा पर रेखीयकरण प्रदर्शन करने और उस पर छोड़ने पर जोर देते हैं, यहां तक ​​कि जब कंप्यूटिंग वातावरण वे उपयोग करते हैं तो नॉनलाइन रिग्रेशन के लिए अच्छा समर्थन होता है। (रेखीयकरण निश्चित रूप से उपयोगी होते हैं क्योंकि नॉनलाइनर फिट के लिए शुरुआती बिंदु होते हैं, लेकिन इन लोगों को इसका एहसास भी नहीं होता है।)
जेएम

1
@ गुंग: क्या सामुदायिक विकी अभी भी एक चीज है? ज्यादातर नेटवर्क-विस्तृत , सीडब्ल्यू वास्तव में सीमांत प्रदान करने के बारे में कभी नहीं था, मोटे तौर पर पूछे जाने वाले बड़ी सूची के प्रश्न जेल से मुक्त कार्ड से बाहर निकलते हैं, या प्रतिष्ठा के लोगों को लूटते हैं, अन्यथा वे अर्जित कर सकते थे सवाल पहले स्थान पर था। एक ही तरीका है कि आप इसे एक सवाल पर भी डाल सकते हैं यदि आप किसी मॉडरेटर से इसे करने के लिए कहते हैं।
रॉबर्ट हार्वे

1
यदि ईश्वर ने दुनिया को रैखिक बना दिया होता, तो अकालमृत्यु नहीं होती।
मार्क एल। स्टोन

1
@RobertHarvey: हाँ, यह है अभी भी बहुत ज्यादा CrossValidated पर एक बात (मेरी राय में, दुर्भाग्य से)। हमने इसके बारे में कुछ गर्म मेटाडा चर्चाएँ की हैं ( जैसे यह एक ), लेकिन वर्तमान स्थिति यह है कि सीडब्ल्यू स्थिति सभी राय-आधारित या बड़ी-सूची वाले प्रश्नों पर लागू की जा रही है जो खुले रहने के लिए पर्याप्त विषय पर विचार किए जाते हैं।
अमीबा

जवाबों:


38

β^0

Yβ0+βXX+εYβ0+βXX+βX2X2+εYβ0+βXX+βX2X2+βX3X3+ε

एक तीसरा गलत आधार यह है कि अनुमानित मापदंडों की संख्या बढ़ने से सांख्यिकीय शक्ति का नुकसान होता है। यह गलत हो सकता है जब सच्चा संबंध गैर-रैखिक होता है और अनुमान लगाने के लिए कई मापदंडों की आवश्यकता होती है (उदाहरण के लिए "टूटी हुई छड़ी" फ़ंक्शन को न केवल एक सीधी रेखा के अवरोधन और ढलान की शर्तों की आवश्यकता होती है, बल्कि उस बिंदु की आवश्यकता होती है जिस पर ढलान बदलता है और कितना ढलान बदल जाता है अनुमान भी): एक गलत मॉडल के अवशेष (उदाहरण के लिए एक सीधी रेखा) काफी बड़े हो सकते हैं (ठीक से निर्दिष्ट कार्यात्मक संबंध के सापेक्ष) जिसके परिणामस्वरूप कम अस्वीकृति संभावना और व्यापक आत्मविश्वास अंतराल और भविष्यवाणी अंतराल (पूर्वाग्रहित होने के अनुमान के अलावा) ।


4
(+1) Quibbles: (1) मुझे नहीं लगता कि परिचयात्मक ग्रंथों का अर्थ यह भी है कि सभी वक्र बहुपद कार्य हैं, बल्कि यह कि उन्हें बहुपद कार्यों द्वारा दिए गए सीमा पर अच्छी तरह से अनुमानित किया जा सकता है। इसलिए वे "प्रतिगमन दृष्टिकोणों के वर्ग में आते हैं जो किसी विशेष कार्यात्मक रूप को ग्रहण नहीं करते हैं", "हाइपरपैरमीटर" द्वारा शासित होता है जो विग्लिग्नेस को निर्दिष्ट करता है: लोज़ के लिए अवधि, नहीं। एक आधार रेखा पर प्रतिगमन के लिए समुद्री मील, एक बहुपद के आधार पर प्रतिगमन के लिए डिग्री। (मैं बहुआयामी पद के लिए एक झंडा लहराते नहीं कर रहा हूँ - यह अच्छी तरह से जाना जाता है वे एक से अधिक हम चाहते हैं सिरों पर आसपास शिथिल करते हैं - ...
Scortchi

2
... बस उन्हें उनका हक़ दिया जाता है।) (2) एक साइनसॉयड अच्छी तरह से फिट हो सकता है, जैसे कि रैखिक मॉडल ढांचे के भीतर; एक गैर-रैखिक मॉडल (एक आयताकार हाइपरबोला, कहते हैं) का उपयोग करके संतृप्ति प्रभाव; &सी। बेशक आपने अन्यथा नहीं कहा, लेकिन यह शायद यह इंगित करने के लायक है कि यदि आप जानते हैं कि एक चक्र, या एक स्पर्शरेखा है, तो अपने मॉडल में उन बाधाओं को लागू करना सहायक होगा।
Scortchi

2
@Sortchi मैं अधिक सहमत नहीं हो सका! (वास्तव में, बहुपदों की एक अनंत संख्या को देखते हुए , किसी भी कार्य को पूरी तरह से दर्शाया जा सकता है।) संक्षिप्त लक्ष्य था। :)
एलेक्सिस

2
@ अलेक्सिस पॉलीओमियल्स द्वारा कॉनवे के बेस 13 फ़ंक्शन का अनुमान लगाने की कोशिश करें। :)
सोलोमनऑफ का सीक्रेट

1
χQ

22

yxx

xxyxx

x

y=Xβ+εy

(मुझे संभवतः कुछ अन्य सामान्य त्रुटि-इन-चर मॉडल से भी लिंक करना चाहिए, तेजी से सामान्य क्रम में: ऑर्थोगोनल रिग्रेशन , डेमिंग प्रतिगमन , और कुल कम से कम वर्ग ।)

संदर्भ


उस नोट पर: यह तकनीक के उपयोग का एक कारण है जिसे या तो "कुल कम से कम वर्ग" या "ऑर्थोगोनल रिग्रेशन" कहा जाता है (जो आप पढ़ रहे हैं संदर्भ के आधार पर); यह सादे कम से कम वर्गों की तुलना में काफी अधिक जटिल है, लेकिन अगर आपके सभी बिंदु त्रुटि से दूषित हैं, तो यह करने योग्य है।
JM एक सांख्यिकीविद्

@JM धन्यवाद - हाँ, वास्तव में मैं मूल रूप से TLS के लिंक में रखना चाहूंगा, लेकिन स्मिथ और फिलिप्स के लेख से विचलित हो गया!
सिल्वरफिश

2
इस विषय पर +1 बढ़िया जोड़। मैंने अपने काम में अक्सर EIV मॉडल पर विचार किया है। हालांकि, अलग उनकी जटिलता या "त्रुटि अनुपात" के ज्ञान पर निर्भरता से, वहाँ एक और अधिक वैचारिक विचार करने के लिए मुद्दा है: कई प्रतिगमन, विशेष रूप से निगरानी की शिक्षा या भविष्यवाणी में, संबंधित करना चाहते मनाया के भविष्यवक्ताओं मनाया परिणामों। दूसरी ओर, EIV मॉडल, माध्य भविष्यसूचक और माध्य प्रतिक्रिया के बीच अंतर्निहित संबंधों की पहचान करने का प्रयास करते हैं ... थोड़ा अलग प्रश्न।

2
तो, क्या कोई "सत्य" प्रतिगमन (वैज्ञानिक संदर्भ में) के "कमजोर पड़ने" को "भविष्य कहनेवाला उपयोगिता की अनुपस्थिति" या कुछ ऐसा ही कहेगा जिसे एक भविष्यवाणी संदर्भ में कहा जाएगा।

21

p

एक गलतफहमी है कि मुझे लगता है कि कई प्रतिगमन के लिए विशिष्ट हैं:

  1. p
  2. YXXYZ1,,Z5Z6,,Z20

12
अच्छी चीज़। यह उत्तर और भी उपयोगी हो सकता है अगर यह समझाया जाए कि दोनों गलत क्यों हैं और इसके बजाय किसी को क्या करना चाहिए?
डीडब्ल्यू

14

मैं कहता हूं कि आपकी पहली सूची शायद सबसे आम है - और शायद सबसे व्यापक रूप से सिखाया जाने वाला तरीका - उन चीजों के बारे में जो स्पष्ट रूप से गलत दिखाई देती हैं, लेकिन यहां कुछ अन्य हैं जो कुछ स्थितियों में कम स्पष्ट हैं ( चाहे वे वास्तव में लागू हों) लेकिन अधिक विश्लेषणों को प्रभावित कर सकते हैं, और शायद अधिक गंभीरता से। जब प्रतिगमन विषय को पेश किया जाता है तो ये अक्सर कभी उल्लेख नहीं किया जाता है।

  • अवलोकनों के ब्याज सेटों की आबादी से यादृच्छिक नमूनों के रूप में व्यवहार करना जो संभवतः प्रतिनिधि के करीब नहीं हो सकते हैं (अकेले यादृच्छिक रूप से नमूने दें)। [कुछ अध्ययनों के बजाय नमूने की सुविधा के लिए कुछ निकट के रूप में देखा जा सकता है]

  • अवलोकन डेटा के साथ, प्रक्रिया के महत्वपूर्ण ड्राइवरों को छोड़ने के परिणामों की अनदेखी करना, जो निश्चित रूप से शामिल चर के गुणांक के अनुमानों को पूर्वाग्रह करेगा (कई मामलों में, यहां तक ​​कि उनके संकेत को बदलने की संभावना भी), व्यवहार के तरीकों पर विचार करने के प्रयास के साथ नहीं। उनके साथ (चाहे समस्या से अनभिज्ञता हो या केवल इस बात से अनजान हो कि कुछ भी किया जा सकता है)। [कुछ शोध क्षेत्रों में यह समस्या दूसरों की तुलना में अधिक है, चाहे वे डेटा के प्रकार के कारण जो एकत्र किए जाते हैं या क्योंकि कुछ अनुप्रयोग क्षेत्रों के लोगों को इस मुद्दे के बारे में पढ़ाया जाने की अधिक संभावना है।]

  • गंभीर प्रतिगमन (ज्यादातर समय के साथ एकत्र किए गए डेटा के साथ)। [यहां तक ​​कि जब लोगों को पता चलता है कि ऐसा होता है, तो एक और आम गलतफहमी है कि समस्या को पूरी तरह से दूर करने के लिए बस स्थिर माना जाता है।

ऐसे कई लोग हैं जो कोर्स का उल्लेख कर सकते हैं (स्वतंत्र डेटा के रूप में व्यवहार करना, जो लगभग निश्चित रूप से क्रमिक रूप से सहसंबद्ध होगा या यहां तक ​​कि एकीकृत भी हो सकता है, उदाहरण के लिए)।

आप देख सकते हैं कि समय के साथ एकत्र किए गए डेटा के अवलोकन संबंधी अध्ययन इन सभी पर एक साथ हिट हो सकते हैं ... फिर भी अनुसंधान के कई क्षेत्रों में इस तरह का अध्ययन बहुत आम है जहां प्रतिगमन एक मानक उपकरण है। उन्हें एक समीक्षक या संपादक के बिना प्रकाशन कैसे मिल सकता है, उनमें से कम से कम एक के बारे में जानने के बाद और निष्कर्ष में कुछ स्तर के अस्वीकरण की आवश्यकता के कारण मुझे चिंता होती है।

सांख्यिकी काफी सावधानी से नियंत्रित प्रयोगों (जब शायद इतनी सावधानी से नियंत्रित विश्लेषणों के साथ संयुक्त नहीं है) के साथ काम करते समय, अपूरणीय परिणामों की समस्याओं से भरा होता है, तो जैसे ही उन सीमाओं के बाहर एक कदम होता है, प्रजनन की स्थिति कितनी बदतर होनी चाहिए?


6
yx

2
@Silverfish मैं कुल गीत आपके साथ सहमत हूँ।
मार्क एल। स्टोन

@Silverfish यह CW है इसलिए आपको इस तरह से उपयुक्त अतिरिक्त संपादन करने के लिए अतिरिक्त-मुक्त महसूस करना चाहिए।
Glen_b

@Silverfish एक कारण है कि मैंने पहले ही इसे स्वयं नहीं जोड़ा था जब आपने इसका उल्लेख किया था ... मुझे लगता है कि यह शायद एक नए उत्तर के लायक है
Glen_b

12

मैं शायद इन गलत धारणाओं को नहीं कहूंगा, लेकिन शायद भ्रम के सामान्य बिंदु / हैंग-अप और, कुछ मामलों में, उन मुद्दों पर जो शोधकर्ताओं को पता नहीं हो सकते हैं।

  • मल्टीकोलिनरिटी (डेटा बिंदुओं की तुलना में अधिक चर के मामले सहित)
  • Heteroskedasticity
  • क्या स्वतंत्र चर के मान शोर के अधीन हैं
  • स्केलिंग (या स्केलिंग नहीं) गुणांक की व्याख्या को प्रभावित करता है
  • कई विषयों के डेटा का इलाज कैसे करें
  • सीरियल सहसंबंधों से कैसे निपटें (जैसे समय श्रृंखला)

चीजों के गलत पक्ष पर:

  • y=ax2+bx+cx
  • उस 'प्रतिगमन' का अर्थ है, साधारणतम वर्ग या रेखीय प्रतिगमन
  • यह निम्न / उच्च भार आवश्यक रूप से निर्भर चर के साथ कमजोर / मजबूत संबंधों को प्रभावित करता है
  • निर्भर और स्वतंत्र चर के बीच निर्भरता को आवश्यक रूप से जोड़ीदार निर्भरता तक कम किया जा सकता है।
  • प्रशिक्षण सेट पर फिट होने की यह उच्च अच्छाई एक अच्छे मॉडल का अर्थ है (यानी ओवरफिटिंग की उपेक्षा)

7

मेरे अनुभव में, छात्र अक्सर इस दृष्टिकोण को अपनाते हैं कि चुकता त्रुटियां (या ओएलएस प्रतिगमन) उपयोग करने के लिए स्वाभाविक रूप से उपयुक्त, सटीक और समग्र अच्छी चीज हैं, या विकल्प के बिना भी हैं। मैंने अक्सर ओएलएस को टिप्पणियों के साथ विज्ञापित देखा है कि यह "अधिक चरम / विचलित टिप्पणियों को अधिक वजन देता है", और अधिकांश समय यह कम से कम निहित है कि यह एक वांछनीय संपत्ति है। इस धारणा को बाद में संशोधित किया जा सकता है, जब आउटलेर और मजबूत दृष्टिकोण के उपचार पेश किए जाते हैं, लेकिन उस बिंदु पर क्षति होती है। तर्क है, चौकोर त्रुटियों का व्यापक उपयोग वास्तविक-विश्व त्रुटि लागतों के कुछ प्राकृतिक नियमों की तुलना में उनकी गणितीय सुविधा के साथ ऐतिहासिक रूप से अधिक है।

कुल मिलाकर, इस बात पर अधिक जोर दिया जा सकता है कि त्रुटि फ़ंक्शन का विकल्प कुछ हद तक मनमाना है। आदर्श रूप से, एक एल्गोरिथ्म के भीतर दंड के किसी भी विकल्प को संभावित त्रुटि (यानी, एक निर्णय लेने की रूपरेखा का उपयोग करके) के साथ संबंधित वास्तविक-वास्तविक लागत फ़ंक्शन द्वारा निर्देशित किया जाना चाहिए। पहले इस सिद्धांत को क्यों न स्थापित करें, और फिर देखें कि हम कितना अच्छा कर सकते हैं?


2
विकल्प भी आवेदन-निर्भर है। OLS बीजीय के लिए उपयोगी है, y- अक्ष फिट बैठता है लेकिन ज्यामितीय अनुप्रयोगों के लिए कम है, जहां कुल कम से कम वर्ग (या ऑर्थोगोनल दूरी के आधार पर कुछ अन्य लागत फ़ंक्शन) अधिक समझ में आता है।
विली व्हीलर

4

एक और आम गलतफहमी यह है कि एरर टर्म (या इकोनोमेट्रिक्स पैरलेंस में गड़बड़ी) और अवशिष्ट एक ही बात है।

त्रुटि शब्द सही मॉडल या डेटा जनरेटिंग प्रक्रिया में एक यादृच्छिक चर है , और अक्सर एक निश्चित वितरण का पालन करने के लिए माना जाता है, जबकि अवशिष्ट फिट किए गए मॉडल से मनाया डेटा के विचलन हैं। इस प्रकार, अवशिष्टों को त्रुटियों का अनुमान माना जा सकता है।


मुझे यकीन है कि लोगों को यह क्यों या किस प्रकार के मामलों में स्पष्टीकरण में रुचि होगी।
rolando2

4

सबसे आम गलतफहमी मैं मुठभेड़ है कि रैखिक प्रतिगमन त्रुटियों की सामान्यता मानता है। यह नहीं है सामान्यता रैखिक प्रतिगमन के कुछ पहलुओं के संबंध में उपयोगी है जैसे कि छोटे नमूना गुण जैसे गुणांक की आत्मविश्वास सीमा। यहां तक ​​कि इन चीजों के लिए गैर-सामान्य वितरण के लिए असममित मूल्य उपलब्ध हैं।

दूसरा सबसे आम एक भ्रम का एक समूह है, जिसके बारे में एंडोजेनिटी के संबंध में है, उदाहरण के लिए फीडबैक लूप के साथ सावधानी नहीं बरतें। यदि Y से X तक फ़ीडबैक लूप है तो यह एक समस्या है।


4

एक त्रुटि जो मैंने की है, वह है ओएलएस में एक्स और वाई की समरूपता मान लेना। उदाहरण के लिए, यदि मैं एक रैखिक संबंध मानता हूं

Y=aX+b
X=1aYba

शायद यह ओएलएस और कुल कम से कम वर्ग या पहले प्रमुख घटक के बीच के अंतर से भी संबंधित है।


3

जो मैंने अक्सर देखा है वह व्यवहार में कुछ उपयोग मामलों में रैखिक प्रतिगमन की प्रयोज्यता पर एक गलत धारणा है।

उदाहरण के लिए, हम कहते हैं कि हम जिस चर में रुचि रखते हैं वह किसी चीज़ की गणना है (उदाहरण: वेबसाइट पर आगंतुक) या किसी चीज़ का अनुपात (उदाहरण: रूपांतरण दर)। ऐसे मामलों में, चर को बेहतर लिंक किए जा सकते हैं जैसे कि पोइसन (गणना), बीटा (अनुपात) आदि जैसे लिंक फ़ंक्शंस का उपयोग करके। इसलिए अधिक उपयुक्त लिंक फ़ंक्शन के साथ सामान्यीकृत मॉडल का उपयोग करना अधिक उपयुक्त है। लेकिन सिर्फ इसलिए कि चर स्पष्ट नहीं है, मैंने देखा है कि लोग सरल रेखीय प्रतिगमन (लिंक फ़ंक्शन = पहचान) के साथ शुरू करते हैं। यहां तक ​​कि अगर हम सटीकता के निहितार्थों की अवहेलना करते हैं, तो मॉडलिंग की धारणाएं यहां एक समस्या हैं।


2

यहां मुझे लगता है कि शोधकर्ताओं द्वारा अक्सर अनदेखी की जाती है:

  • परिवर्तनीय बातचीत: शोधकर्ता अक्सर व्यक्तिगत भविष्यवाणियों के पृथक दांव को देखते हैं, और अक्सर बातचीत की शर्तों को भी निर्दिष्ट नहीं करते हैं। लेकिन वास्तविक दुनिया में चीजें परस्पर क्रिया करती हैं। सभी संभव इंटरैक्शन शर्तों के उचित विनिर्देशन के बिना, आप नहीं जानते कि आपके "भविष्यवक्ता" एक परिणाम बनाने में एक साथ कैसे संलग्न हैं। और यदि आप मेहनती होना चाहते हैं और सभी इंटरैक्शन निर्दिष्ट करना चाहते हैं, तो भविष्यवक्ताओं की संख्या में विस्फोट होगा। मेरी गणना से आप केवल 4 चर और 100 विषयों के साथ उनकी बातचीत की जांच कर सकते हैं। यदि आप एक और चर जोड़ते हैं तो आप बहुत आसानी से ओवरफिट कर सकते हैं।

0

एक और आम गलतफहमी है कि अनुमान (फिट किए गए मूल्य) परिवर्तनों के लिए अपरिवर्तित नहीं हैं, उदाहरण के लिए

f(y^i)f(yi)^
y^i=xiTβ^

f()

log()

यह हर समय आता है जब आप अपने डेटा का लॉग ट्रांसफॉर्म करते हैं, एक रेखीय प्रतिगमन को फिट करते हैं, फिर फिट किए गए मान को प्रतिपादक करते हैं और लोग पढ़ते हैं कि प्रतिगमन के रूप में। इसका मतलब यह नहीं है, यह मध्यिका है (यदि चीजें वास्तव में लॉग-सामान्य रूप से वितरित की जाती हैं)।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.