क्या सभी इंटरैक्शन शर्तों को प्रतिगमन मॉडल में उनके व्यक्तिगत शब्दों की आवश्यकता है?


68

मैं वास्तव में एक पांडुलिपि की समीक्षा कर रहा हूं जहां लेखक एआईसी के साथ 5-6 लॉगिट रिग्रेशन मॉडल की तुलना करते हैं। हालांकि, कुछ मॉडलों में व्यक्तिगत सहसंयोजक शर्तों को शामिल किए बिना बातचीत की शर्तें हैं। क्या कभी ऐसा करने का कोई मतलब है?

उदाहरण के लिए (लॉग मॉडल के लिए विशिष्ट नहीं):

M1: Y = X1 + X2 + X1*X2
M2: Y = X1 + X2
M3: Y = X1 + X1*X2 (missing X2)
M4: Y = X2 + X1*X2 (missing X1)
M5: Y = X1*X2 (missing X1 & X2)

मैं हमेशा इस धारणा के अधीन रहा हूं कि यदि आपके पास एक्स 1 * एक्स 2 का इंटरैक्शन शब्द है तो आपको एक्स 1 + एक्स 2 की भी आवश्यकता है। इसलिए, मॉडल 1 और 2 ठीक होंगे लेकिन मॉडल 3-5 समस्याग्रस्त होंगे (भले ही एआईसी कम हो)। क्या ये सही है? क्या यह एक नियम या अधिक दिशानिर्देश है? क्या किसी के पास एक अच्छा संदर्भ है जो इसके पीछे के तर्क को बताता है? मैं सिर्फ यह सुनिश्चित करना चाहता हूं कि मैं समीक्षा में किसी महत्वपूर्ण चीज का गलत इस्तेमाल न करूं।

किसी भी विचार के लिए धन्यवाद, Dan


8
+1, मुझे लगता है कि यह वास्तव में एक अच्छा सवाल है। आप इस पहले के प्रश्न को भी देख सकते हैं जो एक ही क्षेत्र को कवर करता है। वहाँ के जवाब बहुत ही उत्कृष्ट हैं।
गुंग

पहले से ही बहुत अच्छे जवाब। Rindskopf द्वारा कुछ मामलों पर एक पेपर था जहाँ आपको मुख्य प्रभावों की आवश्यकता नहीं होती है। (यह भी देखें इस एक )
पीटर Flom

3
AFAIK: आर के एलएम () में, :ए: बी में बातचीत के लिए है। और *दोनों मुख्य प्रभावों और इंटरैक्शन के लिए है, इसलिए ए * बी = ए + बी + ए: बी। तो अगर (!) कागज के लेखक इस संकेतन का अनुसरण करते हैं, तो मुझे नहीं लगता कि कोई भी मॉडल वें एम प्रभाव छोड़ रहे हैं?
ज़ुर्बर्ब

इसके अलावा, मौजूदा जवाब में के रूप में ही तर्क उच्च आदेश बातचीत करने के लिए लागू होता है (उदाहरण के लिए आप सभी 2 रास्ता बातचीत की जरूरत है अगर आप एक 3 रास्ता शामिल हैं)
पीटर Flom

जवाबों:


38

ज्यादातर समय यह एक बुरा विचार है - मुख्य कारण यह है कि यह अब मॉडल को स्थान परिवर्तन के लिए अपरिवर्तित नहीं बनाता है। उदाहरण के लिए, आप एक ही परिणाम लगता है और दो भविष्यवक्ताओं एक्स मैं और जेड मैं और मॉडल निर्दिष्ट करें:yमैंएक्समैंzमैं

yमैं=β0+β1एक्समैंzमैं+ε

यदि आप भविष्यवाणियों को उनके माध्यम से केंद्र में रखते हैं, तो बन जाता हैएक्समैंzमैं

(एक्समैं-एक्स¯)(zमैं-z¯)=एक्समैंzमैं-एक्समैंz¯-zमैंएक्स¯+एक्स¯z¯

तो, आप देख सकते हैं कि मॉडल में मुख्य प्रभावों को फिर से प्रस्तुत किया गया है।

मैंने यहाँ एक तर्क दिया है, लेकिन यह एक व्यावहारिक मुद्दा पेश करता है। जैसा कि फ़ारवे (2005) में पृष्ठ 114 में उल्लेख किया गया है , पैमाने में एक योजक परिवर्तन मॉडल के निष्कासन को बदल देता है जब मुख्य प्रभाव को मॉडल से बाहर छोड़ दिया जाता है, जबकि निचले क्रम की शर्तों को शामिल करने पर ऐसा नहीं होता है। यह सामान्य रूप से अवांछनीय है कि स्थान परिवर्तन जैसी मनमानी चीजें सांख्यिकीय अनुमान (और इसलिए आपकी जांच के निष्कर्ष) में एक मौलिक परिवर्तन का कारण बनती हैं, जैसा कि तब हो सकता है जब आप निचले स्तर के प्रभावों के बिना किसी मॉडल में बहुपद शब्द या इंटरैक्शन शामिल करते हैं।

नोट: वहाँ, विशेष परिस्थितियों जहां केवल बातचीत में शामिल करना चाहते हैं हो सकता है अगर कुछ विशेष मूल अर्थ नहीं है या यदि आप केवल उत्पाद निरीक्षण और न कि व्यक्तिगत चर एक्स मैं , जेड मैं । लेकिन, उस स्थिति में, कोई भी भविष्यवक्ता के बारे में सोच सकता है i = x i z i और मॉडल के साथ आगे बढ़ सकता हैएक्समैंzमैंएक्समैं,zमैंमैं=एक्समैंzमैं

yमैं=α0+α1मैं+εमैं

बल्कि के बारे में सोच से एक बातचीत शब्द के रूप में।मैं


additive change in scale changes the inference (the t -statistics) for all but the highest order terms when any lower order terms are left out of the modelभविष्यवक्ताओं की संयोजी परिवर्तन आम तौर पर बदल जाता है टी उनके मुख्य प्रभाव (निचले क्रम शर्तें) यहाँ तक कि एक पूर्ण मॉडल में की। यह समग्र रूप से फिट है (आर ^ 2) जो संरक्षित है (लेकिन कुछ मुख्य प्रभावों के साथ एक मॉडल में योज्य परिवर्तन के तहत संरक्षित नहीं है)। क्या आप कहना चाहते हैं?
ttnphns

हां, यह सही है @ttnphns - यह इंगित करने के लिए धन्यवाद - मैंने इसे प्रतिबिंबित करने के लिए अपने उत्तर को थोड़ा संशोधित किया है।
मैक्रों

28

अब तक के सभी उत्तर एक बहुत ही बुनियादी बिंदु को याद करते हैं: आपके द्वारा चुने गए कार्यात्मक रूप को उन विशेषताओं को पकड़ने के लिए पर्याप्त लचीला होना चाहिए जो वैज्ञानिक रूप से प्रासंगिक हैं। मॉडल 2-5 ने बिना वैज्ञानिक औचित्य के कुछ शर्तों पर शून्य गुणांक लगाया। और भले ही वैज्ञानिक रूप से उचित हो, मॉडल 1 आकर्षक बना हुआ है क्योंकि आप उन्हें लागू करने के बजाय शून्य गुणांक के लिए परीक्षण कर सकते हैं।

कुंजी समझ रही है कि प्रतिबंध का क्या मतलब है। मॉडल 3-5 से बचने के लिए विशिष्ट सामंजस्य इसलिए है क्योंकि अधिकांश अनुप्रयोगों में वे जो धारणाएं लगाते हैं वे वैज्ञानिक रूप से अनुमानित हैं। मॉडल 3 मानता है कि X2 केवल ढलान dY / dX1 को प्रभावित करता है, लेकिन स्तर को नहीं। मॉडल 4 मानता है X1 केवल ढलान dY / dX2 को प्रभावित करता है, लेकिन स्तर नहीं। और मॉडल 5 मान लेता है कि न तो X1 और न ही X2 स्तर को प्रभावित करता है, लेकिन केवल dY / dX1 या dY / dX2 है। अधिकांश अनुप्रयोगों में ये धारणाएँ उचित नहीं लगती हैं। मॉडल 2 एक शून्य गुणांक भी लगाता है लेकिन फिर भी कुछ योग्यता है। यह डेटा को सबसे अच्छा रैखिक सन्निकटन देता है, जो कई मामलों में वैज्ञानिक लक्ष्य को संतुष्ट करता है।


5
(+1) यह सब सच है, लेकिन मूल पोस्टर एक ऐसी स्थिति का वर्णन करता प्रतीत हो रहा है, जहाँ लेखक मॉडल चयन करने की कोशिश कर रहे थे, और उनके कुछ उम्मीदवार मॉडल ऐसे थे जिनमें इंटरैक्शन शामिल नहीं था - इसलिए उनकी प्रेरणा एआईसी द्वारा निर्देशित थी। बजाय कुछ ठोस (जो हमेशा एक खतरनाक काम करने के लिए होता है, लेकिन जाहिर है उन्होंने ऐसा किया है)। जब आप किसी ठोस चीज़ से निर्देशित होते हैं, तो उसके बाद मॉडल संरचना को निर्धारित किया जाना चाहिए। लेकिन, जब आप एक सांख्यिकीय मानदंड द्वारा निर्देशित होते हैं, तो मुख्य प्रभावों को छोड़ने से बुरे गुण हो सकते हैं, जैसा कि मैंने अपने उत्तर में संकेत दिया है।
मैक्रों

16

एक्स1एक्स2इस्तेमाल की गई कोडिंग योजना के आधार पर [0, 0, 0, 1] या [1, -1, -1, 1] हो सकता है। मेरा मानना ​​है कि ऐसी स्थिति होना संभव है जहां एक कोडिंग स्कीम के साथ केवल इंटरैक्शन 'महत्वपूर्ण' हो, लेकिन दूसरी स्कीम का उपयोग करके सभी शब्द 'महत्वपूर्ण' हों। इसका तात्पर्य यह है कि सार्थक व्याख्यात्मक निर्णय एक मनमाने ढंग से कोडिंग निर्णय के आधार पर किए जाएंगे, जो वास्तव में, आपके सॉफ़्टवेयर ने आपके ज्ञान के बिना आपके लिए बनाए होंगे। मैं मानता हूं कि यह एक छोटा बिंदु है, लेकिन यह सिर्फ एक और कारण है कि यह आमतौर पर केवल बातचीत को बनाए रखने के लिए एक अच्छा विचार नहीं है (और पी-मूल्यों के आधार पर, भविष्यवाणियों के सबसेट का चयन करने के लिए भी नहीं)।


1
स्पष्ट मुख्य प्रभावों के लिए महत्त्वपूर्ण परीक्षण किसी भी तरह से कम नहीं है। एक समूह उपचार कोडिंग के तहत संदर्भ समूह से काफी अलग हो सकता है लेकिन विपरीत कोडिंग के तहत "भव्य मतलब" प्रभाव से नहीं।
probabilityislogic

10

चूंकि आप एक पेपर की समीक्षा कर रहे हैं, आप सुझाव दे सकते हैं कि लेखक मॉडल पदानुक्रम के मुद्दे पर चर्चा करते हैं और इसमें से उनके प्रस्थान को उचित ठहराते हैं।

यहाँ कुछ संदर्भ हैं:

  1. नेल्डर जेए। प्रतिक्रिया-सतह मॉडल में शर्तों का चयन — कमजोर-आनुवंशिकता सिद्धांत कितना मजबूत है? द अमेरिकन स्टेटिस्टिशियन। 1998, 52: 315-8। http://www.jstor.org/pss/2685433 । 10 जून 2010 को एक्सेस किया गया।

  2. पेइक्सोटो जेएल। बहुपद प्रतिगमन मॉडल में पदानुक्रमित चर चयन। द अमेरिकन स्टेटिस्टिशियन। 1987, 41: 311-3। http://www.jstor.org/pss/2684752 । 10 जून 2010 को एक्सेस किया गया।

  3. पेइक्सोटो जेएल। अच्छी तरह से तैयार बहुपद प्रतिगमन मॉडल की एक संपत्ति। द अमेरिकन स्टेटिस्टिशियन। 1990; 44: 26-30। http://www.jstor.org/pss/2684952 । 10 जून 2010 को एक्सेस किया गया।

मैं आमतौर पर पदानुक्रम का पालन करता हूं, लेकिन कुछ स्थितियों में इससे दूर जाता हूं। उदाहरण के लिए, यदि आप कई अलग-अलग गति से टायर पहनने बनाम माइलेज का परीक्षण कर रहे हैं, तो आपका मॉडल जैसा दिख सकता है:

चलने की गहराई = अवरोधन + माइलेज + माइलेज * गति

लेकिन यह गति के एक मुख्य प्रभाव को शामिल करने के लिए भौतिक अर्थ नहीं देगा क्योंकि टायर को यह नहीं पता है कि गति शून्य मील पर क्या होगी।

(दूसरी ओर, आप अभी भी गति प्रभाव के लिए परीक्षण करना चाह सकते हैं क्योंकि यह संकेत दे सकता है कि "ब्रेक-इन" प्रभाव अलग-अलग गति से है। दूसरी ओर, ब्रेक-इन को संभालने का एक और भी बेहतर तरीका होगा। शून्य पर और बहुत कम लाभ पर डेटा प्राप्त करें और फिर गैर-रैखिकता के लिए परीक्षण करें। ध्यान दें कि अवरोधन शब्द को हटाने से पदानुक्रम के उल्लंघन के एक विशेष मामले के रूप में सोचा जा सकता है।)

मैं यह भी दोहराता हूं कि किसी ने ऊपर कहा क्योंकि यह बहुत महत्वपूर्ण है: लेखकों को यह सुनिश्चित करने की आवश्यकता है कि वे जानते हैं कि उनका सॉफ़्टवेयर डेटा केंद्रित कर रहा है या नहीं। यदि उपरोक्त सॉफ़्टवेयर भौतिक रूप से निरर्थक हो जाता है यदि सॉफ़्टवेयर माइलेज को बदल देता है (माइलेज - माइलेज का मतलब)।

दवा स्थिरता अध्ययन ("क्रमिक भंडारण के लिए स्थिरता मॉडल", एमिल फ्राइडमैन और सैम सी। शुम, AAPS PharmSciTech, वॉल्यूम। 12, नंबर 1, मार्च 2011, DOI: 10.1208 में समान प्रकार की चीजें प्रासंगिक हैं। / s12249-010-9558-एक्स)।


1
धन्यवाद, यह एक शानदार जवाब है और इससे मुझे उन लोगों को समझाने में मदद मिलेगी जो सांख्यिकीय रूप से समझदार नहीं हैं।
djhocking

1
+1 मैं चाहता हूं कि एसओ पर उत्तर विलय करना संभव था। ऊपर दिए गए स्वीकृत उत्तर के साथ यह सही उत्तर बनाता है।
झूबर्ब

9

मेरे पास एक वास्तविक मामला है जो इसे दिखाता है। डेटा में, एक चर groupको 0-नियंत्रण और 1-उपचार के साथ दर्शाया गया है। अन्य भविष्यवक्ता ने time period0-उपचार से पहले और 1-उपचार के बाद प्रतिनिधित्व किया। उपचार के प्रभाव को मापने के लिए इंटरैक्शन ब्याज का मुख्य पैरामीटर था, नियंत्रण समूह में उपचार के बाद के अंतर का नियंत्रण समूह में मापा गया समय का कोई भी प्रभाव। से मुख्य प्रभावgroupकिसी भी उपचार से पहले 2 समूहों में अंतर मापा जाता है, इसलिए यह आसानी से 0 हो सकता है (यादृच्छिक प्रयोग में यह 0 होना चाहिए, यह एक नहीं था)। दूसरा मुख्य प्रभाव नियंत्रण समूह में समय से पहले और बाद की अवधि के बीच के अंतर को मापता है जहां कोई उपचार नहीं था, इसलिए यह भी समझ में आता है कि यह 0 हो सकता है जबकि बातचीत शब्द गैर-शून्य है। बेशक यह इस बात पर निर्भर करता है कि चीजों को कैसे कोडित किया गया था और एक अलग कोडिंग अर्थ बदल देगा और बातचीत मुख्य प्रभाव के बिना समझ में आता है या नहीं। तो यह केवल विशिष्ट मामलों में मुख्य प्रभावों के बिना बातचीत को फिट करने के लिए समझ में आता है।


तो क्या इसका मतलब यह है कि यह सब आपके अध्ययन के उद्देश्यों या आपके मापदंडों के आधार पर निर्भर करता है?
बेन

1
@ फिर, यह दोनों पर निर्भर कर सकता है कि आप अपने चर को कैसे परिमाणित करते हैं (मेरे उदाहरण में या तो चर के लिए 0/1 को 1/0 पर स्विच करने से व्याख्या बदल जाएगी) और आप किन सवालों के जवाब देने की कोशिश कर रहे हैं और आप कौन सी धारणाएँ बनाने के इच्छुक हैं। ।
ग्रेग स्नो

Y=बी0+बी1एक्स+बी2जेड+बी3एक्स*जेड*2008+yआरयूमैंरों
X और Z निरंतर चर हैं, Z विनियमन रेटिंग है। वर्ष 2008 अन्य वर्षों के लिए 1 और 0 स्कोर किया गया है। इसलिए यह ऐसा है जैसे मैं केवल वर्ष 2008 की टिप्पणियों को बिना बातचीत के ले लेता हूं। मैंने कमजोर और मजबूत आनुवंशिकता सिद्धांत के बारे में पढ़ा, लेकिन स्पष्ट रूप से समझ में नहीं आया
बेन

1
@ फिर, उपरोक्त मॉडल को फिट करना निश्चित रूप से संभव है, जो मूल रूप से कहता है कि आपको लगता है कि 2008 में एक इंटरैक्शन है (या हो सकता है), लेकिन किसी अन्य वर्ष में नहीं। यदि आपके पास इसके लिए एक औचित्य है, तो मुझे लगता है कि मॉडल ठीक है। लेकिन यह एक असामान्य रूप से पर्याप्त धारणा है कि आपको शायद किसी भी दर्शक के लिए इसे सही ठहराने की आवश्यकता होगी।
ग्रेग स्नो

बी1एक्स
बी1एक्स

7

मैं पीटर से सहमत हूं। मुझे लगता है कि नियम लोकगीत है। हम ऐसी स्थिति के बारे में क्यों सोच सकते हैं जहाँ दो चर केवल एक बातचीत के कारण मॉडल को प्रभावित करेंगे। रसायन विज्ञान में एक समानता यह है कि दो रसायन पूरी तरह से स्वयं निष्क्रिय होते हैं लेकिन एक साथ मिश्रित होने पर विस्फोट का कारण बनते हैं। मैथेमैटिकल / स्टैटिस्टिकल निकेट्स जैसे इनविरेंस का वास्तविक डेटा के साथ वास्तविक समस्या से कोई लेना-देना नहीं है। मुझे लगता है कि जब विचार करने के लिए बहुत सारे चर होते हैं, तो यह करने के लिए बहुत सारे परीक्षण होते हैं कि क्या आप सभी मुख्य प्रभावों को देखने जा रहे हैं और यदि सभी पहले आदेशों पर बातचीत नहीं करते हैं। हम केवल छोटे-छोटे प्रयोगों के साथ भी छोटे-छोटे प्रयोगों में भी दूसरे क्रम के अंतःक्रियाओं को नहीं देखते हैं। सोच यह है कि बातचीत का क्रम जितना कम होता है, उतना ही वास्तविक प्रभाव होता है। तो डॉन यदि मुख्य प्रभाव नहीं है, तो पहले या दूसरे क्रम के इंटरैक्शन को देखें। एक अच्छा नियम शायद लेकिन धार्मिक रूप से इसका पालन करने का मतलब है अपवादों को देखना और आपकी समस्या एक अपवाद हो सकती है।


8
पी

1
मैं शायद यह कहते हुए चूक जाता हूं कि वास्तविक दुनिया में आक्रमण की कोई प्रासंगिकता नहीं है। मेरा अभिप्राय यह था कि कुछ गणितीय परिणाम किसी विशेष व्यावहारिक समस्या में प्रासंगिक नहीं हो सकते हैं। एक उदाहरण के रूप में कम से कम वर्गों का अनुमान सामान्य त्रुटि मान्यताओं के तहत अधिकतम संभावना है और गॉस मार्कोव प्रमेय द्वारा कमजोर परिस्थितियों में निष्पक्ष रूप से न्यूनतम विचरण किया जाता है, लेकिन डेटा में आउटलेयर होने पर मैं इसका उपयोग नहीं करूंगा। एक ही टोकन के द्वारा एक इंटरएक्टिव सहित एक संपत्ति को बाहर निकालना चाहिए जिसमें एक अंतःक्रिया शामिल है जब यह समझदारी से कहता है कि यह मुख्य प्रभावों के बिना होता है?
माइकल चेर्निक

6

[मूल प्रश्न के एक भाग का उत्तर देने की कोशिश कर रहा है, जो अधिकांश उत्तरों में खुला छोड़ दिया गया लगता है: "AIC, के रूप में एक मॉडल चयन पर भरोसा किया जाना चाहिए?"]

एआईसी को एक नियम के रूप में, एक नियम के रूप में अधिक प्रयोग किया जाना चाहिए जिसे सुसमाचार के रूप में लिया जाना चाहिए।

एआईसी (या बीआईसी या मॉडल चयन के लिए किसी भी समान 'सरल मानदंड) की प्रभावशीलता अधिगम एल्गोरिथ्म और समस्या पर निर्भर करती है।

इसे इस तरह से सोचें: AIC फॉर्मूला में जटिलता (कारकों की संख्या) शब्द का लक्ष्य सरल है: उन मॉडलों का चयन न करने के लिए जो ओवर-फिट हैं। लेकिन एआईसी की सादगी अक्सर समस्या की वास्तविक जटिलता को पकड़ने में विफल रहती है। यही कारण है कि ओवर-फिटिंग से बचने के लिए अन्य व्यावहारिक तकनीकें हैं: उदाहरण के लिए, क्रॉस-सत्यापन या एक नियमितीकरण शब्द जोड़ना।

जब मैं बहुत बड़ी संख्या में इनपुट के साथ डेटा-सेट पर रैखिक प्रतिगमन करने के लिए ऑनलाइन SGD (स्टोकेस्टिक ग्रेडिएंट डिसेंट) का उपयोग करता हूं, तो मुझे एआईसी को मॉडल गुणवत्ता का एक भयानक भविष्यवक्ता लगता है क्योंकि यह बड़ी संख्या में जटिल मॉडल को अत्यधिक दंडित करता है। कई वास्तविक जीवन स्थितियां हैं जहां प्रत्येक शब्द का एक छोटा प्रभाव होता है, लेकिन साथ में, उनमें से एक बड़ी संख्या एक परिणाम के मजबूत सांख्यिकीय प्रमाण देती है। एआईसी और बीआईसी मॉडल-चयन मानदंड इन मॉडलों को अस्वीकार कर देंगे और सरल लोगों को पसंद करेंगे, भले ही अधिक जटिल बेहतर हों।

अंत में, यह सामान्यीकरण त्रुटि है (मोटे तौर पर: नमूना प्रदर्शन से बाहर) जो मायने रखता है। एआईसी आपको कुछ अपेक्षाकृत सरल स्थितियों में मॉडल की गुणवत्ता के कुछ संकेत दे सकता है। बस सावधान रहें और याद रखें कि वास्तविक जीवन अधिक बार नहीं है, एक साधारण सूत्र की तुलना में अधिक जटिल है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.