बातचीत प्रभाव की पहचान करने में सर्वोत्तम अभ्यास क्या हैं?


35

एक मॉडल ( x1:x2या x1*x2 ... xn-1 * xn) में चर (ओं) के प्रत्येक संभावित संयोजन का शाब्दिक परीक्षण करने के अलावा । यदि आप अपने स्वतंत्र (उम्मीद) चर के बीच एक संपर्क SHOULD या COULD मौजूद हैं, तो आप कैसे पहचानेंगे?

इंटरैक्शन की पहचान करने के प्रयास में सर्वोत्तम अभ्यास क्या हैं? क्या कोई ग्राफ़िकल तकनीक है जिसका आप उपयोग कर सकते हैं या कर सकते हैं?


आप हमें अपने डेटा के बारे में थोड़ा बता सकते हैं? आकार (सीएफ मेरा जवाब) और प्रकृति (सीएफ गैविन का जवाब)
रॉबिन जिरार्ड

@ रॉबिन: उसे बिस्तर से बाहर निकलने का समय दें, ब्रैंडन टोरंटो में है ;-)
मोनिका की बहाली - जी। सिम्पसन

1
@ रोबिन, मैं इसे और सामान्य रखना पसंद करूंगा। यदि, आपकी प्रतिक्रिया में आप एक ऐसी विधि प्रदान कर रहे हैं जिसमें डेटा के आकार या प्रकृति के बारे में एक धारणा की आवश्यकता है, तो कृपया इसे बताएं। समस्या यह है कि मैं अलग-अलग डेटा के साथ कई अलग-अलग मॉडलिंग कार्यों को फैला रहा हूं। इसलिए, इस मामले में, मैं बातचीत के प्रभावों की पहचान करने के लिए सामान्य सिफारिश की तलाश कर रहा हूं।
ब्रैंडन बर्टेल्सन

जवाबों:


20

कॉक्स और वर्मथ (1996) या कॉक्स (1984) ने बातचीत का पता लगाने के लिए कुछ तरीकों पर चर्चा की। समस्या आमतौर पर है कि बातचीत की शर्तें कितनी सामान्य होनी चाहिए। मूल रूप से, हम (ए) फिट (और परीक्षण) सभी दूसरे क्रम के इंटरैक्शन शब्द, एक समय में एक, और (बी) अपने संबंधित पी-मानों (यानी, 1 - पी के एक समारोह के रूप में संख्या शब्द) की साजिश रचते हैं।1-पी । विचार यह है कि क्या यह देखने के लिए कि एक निश्चित संख्या में इंटरैक्शन की शर्तें बरकरार रखी जानी चाहिए: इस धारणा के तहत कि सभी इंटरैक्शन टर्म्स शून्य हैं, पी-वैल्यू का डिस्ट्रीब्यूशन एक समान होना चाहिए (या समकक्ष रूप से, स्कैल्पलॉट पर पॉइंट्स को मोटे तौर पर साथ में वितरित किया जाना चाहिए। मूल के माध्यम से गुजरने वाली एक रेखा)।

अब, जैसा कि @Gavin ने कहा, कई (यदि सभी नहीं) इंटरैक्शन को फिट करने से ओवरफिटिंग हो सकती है, लेकिन यह भी एक निश्चित अर्थ में बेकार है (कुछ उच्च-क्रम इंटरैक्शन शर्तों में अक्सर कोई मतलब नहीं होता है)। हालांकि, यह व्याख्या के साथ करना है, बातचीत का पता नहीं लगाना है, और कॉक्स द्वारा बातचीत की व्याख्या में एक अच्छी समीक्षा पहले से ही प्रदान की गई थी : एक समीक्षा ( एप्लाइड सांख्यिकी के 2007, 1 (2), 371-385) - यह ऊपर उल्लेखित संदर्भ शामिल हैं। देखने के लायक शोध की अन्य लाइनें आनुवांशिक अध्ययनों में ग्राफिकल मॉडल (उदाहरण के लिए, जीन एसोसिएशन नेटवर्क में सांख्यिकीय इंटरेक्टर्स की पहचान के लिए एक कुशल विधि ) पर आधारित आनुवांशिक अध्ययनों में एपिस्टैटिक प्रभावों का अध्ययन है ।

संदर्भ

  • कॉक्स, डीआर और वर्मुथ, एन (1996)। बहुभिन्नरूपी निर्भरताएँ: मॉडल, विश्लेषण और व्याख्या । चैपमैन और हॉल / सीआरसी।
  • कॉक्स, डीआर (1984)। बातचीतअंतर्राष्ट्रीय सांख्यिकीय समीक्षा , 52, 1-31।

16

मेरा सबसे अच्छा अभ्यास मॉडल को फिट करने से पहले हाथ लगाने की समस्या के बारे में सोचना होगा । आपके द्वारा अध्ययन की जा रही घटना को एक प्रशंसनीय मॉडल दिया गया है? चरों और अंतःक्रियाओं के सभी संभावित संयोजनों को पूरा करना मेरे लिए डेटा ड्रेजिंग की तरह लगता है।


5
एक टिप्पणी की तरह लगता है या उत्तर "लगता है" है?
रॉबिन जिरार्ड

2
@ रोबिन - बाद वाला। मुझे सांख्यिकीय मॉडलिंग काफी मुश्किल लगता है (मैं थोड़ा औपचारिक सांख्यिकीय प्रशिक्षण के साथ एक पारिस्थितिकीविज्ञानी हूं, जो मैंने सीखा है, उनमें से अधिकांश स्वयं सिखाया गया है) लेकिन यह बहुत आसान है अगर मैं पहले समस्या के बारे में सोचता हूं, तो निर्धारित करें कि क्या प्रशंसनीय है, उस मॉडल का निर्माण करें, मेरा मॉडल डायग्नोस्टिक्स करें, बातचीत की कोशिश करें जहां ये वैज्ञानिक अर्थ बनाते हैं।
मोनिका की बहाली - जी। सिम्पसन

2
@ ब्रेंडन: यदि कोई लापता बातचीत होती है, तो कोवरिएट्स के मूल्यों पर अवशिष्ट अवशिष्ट में पैटर्न होंगे। सहसंयोजकों के खिलाफ अवशिष्टों को प्लॉट करना यह निर्धारित करने में मदद कर सकता है कि बातचीत कहां तक ​​उचित हो सकती है।
मोनिका - जी। सिम्पसन

2
@ ब्रैंडन: यह मानक मॉडल डायग्नोस्टिक्स और खोजपूर्ण प्लॉटिंग कौशल है। मुझे लगता है कि मुझे लगता है कि बातचीत में शामिल सहसंयोजक के मूल्यों पर सशर्त (ggplot2 या जाली तरीके से) के लिए एक उम्मीदवार हो सकता है मुझे लगता है कि एक कोविरेट्स के खिलाफ अवशेषों की साजिश होगी। पैटर्न हैं या नहीं यह देखने के लिए प्रत्येक पैनल के माध्यम से एक चिकनी चिकनी छड़ी। इस पर निर्भर करता है कि आपके सहसंयोजक किस प्रकार के चर हैं।
मोनिका को बहाल करें - जी। सिम्पसन

2
डेटा ड्रेजिंग? यदि आप डेटा को लंबे समय तक यातना देते हैं, तो यह कबूल होगा ...
जिज्ञासु

16

ट्री मॉडल (यानी आर का उपयोग करके) फिटिंग, आपको व्याख्यात्मक चर के बीच जटिल बातचीत की पहचान करने में मदद करेगा। यहां पेज 30 पर उदाहरण पढ़ें ।


बहुत सरल और बहुत उपयोगी है। क्रॉल के पाठ के संदर्भ के लिए भी धन्यवाद!
ब्रैंडन बर्टेल्सन

सावधान रहें - आप एक रेखीय मॉडल कहने में उन प्रकार के इंटरैक्शन को आसानी से फिट नहीं कर सकते हैं। बातचीत केवल पेड़ की एक शाखा (या भाग) में होती है। वास्तविक विश्व डेटा में इन प्रकार के टूल का उपयोग करने के लिए आपको बहुत अधिक डेटा की आवश्यकता होती है ।
मोनिका की बहाली - जी। सिम्पसन

3
जैसा कि @ गैविन ने कहा, संभावित नुकसान में से एक यह है कि निर्णय पेड़ों को एक बड़े नमूने के आकार की आवश्यकता होती है और वे काफी अस्थिर होते हैं (जो कि एक कारण बैगिंग और यादृच्छिक जंगलों को व्यवहार्य विकल्पों के रूप में प्रस्तावित किया गया था)। एक और समस्या यह है कि यह स्पष्ट नहीं है कि क्या हम दूसरे या उच्च-क्रम इंटरैक्शन प्रभाव की तलाश करते हैं। पूर्व मामले में, CARTs कोई समाधान नहीं हैं। किसी भी मामले में, मैं किसी भी तरह के अध्ययन (अवलोकन या नियंत्रित) में 6 चर के बीच बातचीत की किसी भी व्याख्या को बहुत ही संदिग्ध पाऊंगा।
च्लू

7

मैं इस प्रतिक्रिया को प्रस्तुत करूंगा क्योंकि मैं पूरी तरह से गैविन के साथ सहमत हूं, और यदि आप किसी भी प्रकार के मॉडल को फिट करने में रुचि रखते हैं, तो यह अध्ययन के तहत घटना का प्रतिबिंबित होना चाहिए। किसी भी और सभी प्रभावों की पहचान करने के तर्क के साथ समस्या क्या है (और गैविन क्या कहता है जब वह डेटा ड्रेजिंग कहता है) यह है कि आप अनंत संख्या में बातचीत, या चर के लिए द्विघात नियम, या आपके डेटा में परिवर्तन के लिए फिट हो सकते हैं, और आप अपने डेटा की कुछ भिन्नता के लिए अनिवार्य रूप से "महत्वपूर्ण" प्रभाव पाएंगे।

जैसा कि chl बताता है, इन उच्चतर क्रम इंटरैक्शन प्रभावों की वास्तव में कोई व्याख्या नहीं है, और अक्सर निचले क्रम के इंटरैक्शन का भी कोई मतलब नहीं है। यदि आप एक कारण मॉडल को विकसित करने में रुचि रखते हैं, तो आपको केवल उन शर्तों को शामिल करना चाहिए जो आपको विश्वास है कि आपके आश्रित चर ए प्राथमिकता के लिए प्रासंगिक हो सकते हैं आपके मॉडल को फिट करने के हो सकते हैं।

यदि आपको लगता है कि वे आपके मॉडल की भविष्य कहनेवाला शक्ति को बढ़ा सकते हैं, तो आपको अपने मॉडल को ओवर-फिटिंग करने से रोकने के लिए मॉडल चयन तकनीकों पर संसाधनों को देखना चाहिए।


7

कितना बड़ा है n? आपके पास कितने अवलोकन हैं? यह महत्वपूर्ण है ...

सोबोल इंडेक्स आपको बातचीत के द्वारा समझाया गया विचरण का अनुपात बताएगा यदि आपके पास बहुत सारे अवलोकन और कुछ हैंn, अन्यथा आपको मॉडलिंग करना होगा (शुरू करने के लिए रैखिक)। आपके पास संवेदनशीलता नामक एक अच्छा पैकेज है। वैसे भी यह विचार काफी बार विचरण को विघटित करने के लिए है (जिसे सामान्यीकृत एनोवा भी कहा जाता है)।

यदि आप जानना चाहते हैं कि विचरण का यह अनुपात कितना महत्वपूर्ण है, तो आपको मॉडलिंग करना होगा (मोटे तौर पर, आपको अपने मॉडल की स्वतंत्रता की डिग्री की संख्या को जानना होगा, ताकि इसकी तुलना विचरण करने के लिए की जा सके)।

क्या आपके चर असतत या निरंतर हैं? सच में बंधे या नहीं (यानी आपको अधिकतम पता नहीं है)?


सोबोल सूचकांकों को दिशा देने के लिए धन्यवाद। फिर से, मैं यह निर्दिष्ट करना चाहूंगा कि मैं यहां एक विशिष्ट उत्तर के बजाय एक सामान्य की तलाश कर रहा हूं। मैं डेटा के एक विशिष्ट सेट के बारे में नहीं पूछ रहा हूं, बल्कि एक समस्या के बारे में बताने की कोशिश कर रहा हूं जो कई अलग-अलग सेटों के साथ है।
ब्रैंडन बर्टेल्सन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.