रिग्रेशन को समझना - मॉडल की भूमिका


46

यदि आप उस फ़ंक्शन को नहीं जानते हैं जिसके लिए आप पैरामीटर प्राप्त करने का प्रयास कर रहे हैं, तो प्रतिगमन मॉडल कैसे हो सकता है?

मैंने शोध का एक टुकड़ा देखा जिसमें कहा गया था कि जिन माताओं ने अपने बच्चों को स्तनपान कराया है, उन्हें बाद के जीवन में मधुमेह होने की संभावना कम थी। अनुसंधान कुछ 1000 माताओं के सर्वेक्षण से हुआ था और विविध कारकों के लिए नियंत्रित किया गया था और एक लॉगलाइनियर मॉडल का उपयोग किया गया था।

अब इसका मतलब यह है कि वे उन सभी कारकों को मानते हैं जो मधुमेह की संभावना को एक अच्छे कार्य (उचित रूप से) में फिट होने की संभावना को निर्धारित करते हैं जो लॉग के साथ बड़े करीने से एक रेखीय मॉडल में अनुवाद करता है और यह कि क्या महिला द्वारा खिलाया गया स्तन सांख्यिकीय रूप से महत्वपूर्ण है?

मुझे कुछ याद आ रहा है लेकिन मुझे यकीन है कि, वे मॉडल को कैसे जानते हैं?


आपको बहुत बहुत धन्यवाद। मैं आपके उत्तरों के बारे में सोचने में थोड़ा समय व्यतीत करना चाहता हूं और शायद, यदि आप मेरे विचारों के लिए उन्हें मेरे शब्दों में लिखने का प्रयास नहीं करते हैं। मुझे टेलर श्रृंखला से आने वाली प्रक्रिया का यह विवरण पसंद है। मुझे प्रतिगमन के अपने ज्ञान को बेतरतीब ढंग से और अर्थशास्त्रियों के लिए अर्थशास्त्र और गणित के माध्यम से उठाना पड़ा है और टेलर के साथ लिंक अनुपस्थित है।
जोनाथन एंड्रयूज

मैंने आपके खातों को मर्ज कर दिया है; लेकिन कृपया, इसे यहाँ दर्ज करें। आँकड़े ।ackackchange.com/users/login ताकि आप इसे फिर से ढीला न करें।

जवाबों:


43

यह प्रतिगमन को वास्तविक रूप के रैखिक सन्निकटन के रूप में देखने में मदद करता है। माना कि सच्चा रिश्ता है

y=f(x1,...,xk)

x1,...,xkyf

f(x1,...,xk)=f(0,...,0)+i=1kf(0)xkxk+ε,

εα0=f(0,...,0)αk=f(0)xk

y=α0+α1x1+...+αkxk+ε

ε


1
नमस्ते, बहुत अच्छी व्याख्या लेकिन मैं टेलर श्रृंखला विस्तार में "सिग्मा" भाग को समझने का प्रबंधन नहीं करता। आप यहां पाए गए इस समीकरण को कैसे कम करते हैं: mathworld.wolfram.com/TaylorSeries.html "दो भागों में एक वास्तविक कार्य की एक टेलर श्रृंखला" के तहत?
अरुण

1
n=1

18

उत्तर के दूसरे पक्ष, mpiktas के उत्तर के पूरक लेकिन अभी तक उल्लेख नहीं किया गया है:

"वे नहीं करते हैं, लेकिन जैसे ही वे कुछ मॉडल संरचना ग्रहण करते हैं, वे इसे डेटा के खिलाफ जांच सकते हैं "।

दो बुनियादी बात बिगड़ जाए सकता है कि कर रहे हैं: प्रपत्र समारोह की, जैसे यह और भी लॉग में रेखीय नहीं है। तो आप अपेक्षित मूल्यों के खिलाफ एक उचित अवशिष्ट की साजिश रचने से शुरू करेंगे। या सशर्त वितरण की पसंद , उदाहरण के तौर पर देखा गया है कि पॉइसन के सापेक्ष अतिविशिष्ट है। तो आप उसी मॉडल के एक नकारात्मक द्विपद संस्करण के खिलाफ परीक्षण करेंगे, या देखेंगे कि अतिरिक्त रूपांतर के लिए अतिरिक्त कोवरिएट्स खाते हैं या नहीं।

आप आउटलेयर, प्रभावशाली टिप्पणियों और अन्य चीजों के एक मेजबान के लिए भी जांच करना चाहते हैं। इस प्रकार की मॉडल समस्याओं की जाँच के बारे में पढ़ने के लिए एक उचित स्थान कैमरून और त्रिवेदी 1998 का ​​ch.5 है। (निश्चित रूप से महामारी विज्ञान के उन्मुख शोधकर्ताओं के लिए शुरू करने के लिए एक बेहतर जगह है - शायद अन्य लोक इसका सुझाव दे सकते हैं।)

यदि इन डायग्नोस्टिक्स ने मॉडल को डेटा को फिट करने में विफल होने का संकेत दिया है, तो आप मॉडल के प्रासंगिक पहलू को बदल देंगे और पूरी प्रक्रिया को फिर से शुरू करेंगे।


1
+1 यह वह कुंजी है जो इसे हाथ से लहराते रहने से रोकती है: आप नहीं जानते, लेकिन आप कुछ करने की कोशिश करते हैं और फिर देखते हैं कि यह कितनी अच्छी तरह से मेल खाता है और किस तरह से यह आपके डेटा को बेमेल करता है।
वेन

15

एक उत्कृष्ट पहला सवाल! मैं mpiktas के उत्तर से सहमत हूं, अर्थात संक्षिप्त उत्तर "वे नहीं हैं, लेकिन उन्हें सही मॉडल का अनुमान लगाने की उम्मीद है जो लगभग सही उत्तर देता है"।

महामारी विज्ञान के शब्दजाल में, यह मॉडल अनिश्चितता का एक स्रोत है जिसे ' अवशिष्ट भ्रमित ' के रूप में जाना जाता है । स्टीव साइमन का पृष्ठ देखें 'अवशिष्ट भ्रमित क्या है?' एक अच्छे संक्षिप्त विवरण के लिए, या हीको बेचर के 1992 के पेपर इन स्टैटिस्टिक्स इन मेडिसिन (सदस्यता req'd) के लिए लंबे समय तक, अधिक गणितीय उपचार, या Fewell, डेवी स्मिथ और स्टर्न के अमेरिकन जर्नल ऑफ एपिडेमियोलॉजी (सदस्यता req'd) में अधिक हाल के पेपर )।

यह एक कारण है कि छोटे प्रभावों की महामारी विज्ञान मुश्किल है और निष्कर्ष अक्सर विवादास्पद होते हैं - यदि मापा प्रभाव का आकार छोटा है, तो स्पष्टीकरण के रूप में अवशिष्ट भ्रमित या पूर्वाग्रह के अन्य स्रोतों को खारिज करना मुश्किल है।


1
मेरा तर्क है कि मॉडल मिसकैसीफिकेशन - जो ऐसा प्रतीत होता है कि ओपी किस बारे में बात कर रहा है, अवशिष्ट कन्फ्यूजिंग से कुछ अलग है। कन्फाउंडिंग के लिए एक कोवरिएट की आवश्यकता होती है। आप एक जोखिम को केवल एक जोखिम और परिणाम के गलत निर्धारण से जोड़ सकते हैं।
फोमाइट जूल

13

जॉर्ज बॉक्स का प्रसिद्ध उद्धरण "अनिवार्य रूप से, सभी मॉडल गलत हैं, लेकिन कुछ उपयोगी हैं" । जब इस तरह के मॉडल फिट होते हैं, तो हम डेटा पीढ़ी प्रक्रिया और भौतिक, वास्तविक दुनिया, प्रतिक्रिया और सहसंयोजकों के बीच संबंधों के बारे में सोचने (या करना) का प्रयास करते हैं। हम इन संबंधों को एक मॉडल में व्यक्त करने की कोशिश करते हैं जो डेटा को फिट करता है। या इसे दूसरे तरीके से रखने के लिए, डेटा के अनुरूप है। जैसा कि एक अनुभवजन्य मॉडल का उत्पादन किया जाता है।

यह उपयोगी है या नहीं यह बाद में निर्धारित किया गया है - क्या यह अच्छी, विश्वसनीय भविष्यवाणियां देता है, उदाहरण के लिए, महिलाओं को मॉडल फिट करने के लिए उपयोग नहीं किया जाता है? क्या मॉडल गुणांक व्याख्यात्मक और वैज्ञानिक उपयोग के हैं? क्या प्रभाव आकार सार्थक हैं?


3

आपके द्वारा पहले ही प्राप्त किए गए उत्तर उत्कृष्ट हैं, लेकिन मैं एक (आशावादी) पूरक उत्तर देने जा रहा हूं जो कि एक महामारीविद के दृष्टिकोण से है। मैं वास्तव में इस पर तीन विचार है:

सबसे पहले, वे नहीं करते हैं। यह भी देखें: सभी मॉडल गलत हैं, कुछ मॉडल उपयोगी हैं लक्ष्य एक एकल, निश्चित संख्या का उत्पादन नहीं करना है जो एक अंतर्निहित फ़ंक्शन के "सत्य" के रूप में लिया जाता है। लक्ष्य उस फ़ंक्शन के एक अनुमान का उत्पादन करना है , जिसके चारों ओर अनिश्चितता की मात्रा निर्धारित है, जो अंतर्निहित फ़ंक्शन का एक उचित और उपयोगी सन्निकटन है।

यह बड़े प्रभाव उपायों के लिए विशेष रूप से सच है। एक अध्ययन से "दूर ले" संदेश जो 3.0 का एक सापेक्ष जोखिम पाता है, वास्तव में अलग नहीं है यदि "सच" संबंध 2.5 या 3.2 है। जैसा कि @onestop ने उल्लेख किया है, यह छोटे प्रभाव माप अनुमानों के साथ कठिन हो जाता है, क्योंकि 0.9, 1.0 और 1.1 के बीच का अंतर स्वास्थ्य और नीति के दृष्टिकोण से बहुत बड़ा हो सकता है ।

दूसरा, अधिकांश एपिडेमियोलॉजी पेपर्स में छिपी एक प्रक्रिया है। यह वास्तविक मॉडल चयन प्रक्रिया है । हम अपने द्वारा समाप्त किए गए मॉडल की रिपोर्ट करते हैं, न कि हमारे द्वारा विचार किए गए सभी मॉडल (क्योंकि यह थकाऊ होगा, अगर कुछ और नहीं)। यहां तक ​​कि छोटे अवलोकन अध्ययनों के विश्लेषण में शामिल मॉडल बिल्डिंग स्टेप्स, वैचारिक आरेख, डायग्नोस्टिक्स, फिट आंकड़े, संवेदनशीलता विश्लेषण, कंप्यूटर पर शपथ ग्रहण और सफेद बोर्डों पर स्क्रिबलिंग शामिल हैं।

क्योंकि जब आप धारणाएँ बना रहे होते हैं , तो उनमें से कई ऐसी धारणाएँ भी होती हैं जिन्हें आप जाँच सकते हैं।

तीसरा, कभी-कभी हम नहीं करते। और फिर हम सम्मेलनों में जाते हैं और इसके बारे में एक दूसरे से बहस करते हैं;)

यदि आप एक क्षेत्र के रूप में महामारी विज्ञान के नट और बोल्ट में रुचि रखते हैं, और हम कैसे अनुसंधान करते हैं, तो शुरू करने के लिए सबसे अच्छी जगह शायद आधुनिक महामारी विज्ञान 3 संस्करण है, रोथमान, ग्रीनलैंड और लैश द्वारा। यह एक मामूली तकनीकी और बहुत अच्छा अवलोकन है कि एपी अनुसंधान कैसे आयोजित किया जाता है।


1
+1, यह यहाँ है के लिए एक अच्छा पूरक है। यह देखना अच्छा है कि एक उपयोगी योगदान अभी भी किया जा सकता है, भले ही कई अन्य अच्छे पहले से मौजूद हों।
गंग - मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.