क्या पारगमन के लिए सत्यापन का उपयोग किया जा सकता है?


37

सभी संदर्भों में मैं क्रॉस-वैलिडेशन से परिचित हूं यह पूरी तरह से भविष्य कहनेवाला सटीकता बढ़ाने के लक्ष्य के साथ उपयोग किया जाता है। क्या चरों के बीच निष्पक्ष संबंधों का अनुमान लगाने में क्रॉस वैधीकरण के तर्क को बढ़ाया जा सकता है?

जबकि रिचर्ड बर्क का यह पेपर "अंतिम" प्रतिगमन मॉडल में पैरामीटर चयन के लिए एक होल्ड आउट नमूना के उपयोग को दर्शाता है (और यह दर्शाता है कि चरण-वार पैरामीटर चयन एक अच्छा विचार क्यों नहीं है), मैं अभी भी नहीं देखता कि वास्तव में कैसे सुनिश्चित करता है प्रभाव एक्स के निष्पक्ष अनुमानों में वाई पर तर्क और विषय के पूर्व ज्ञान के आधार पर एक मॉडल चुनने की तुलना में अधिक है।

मैं पूछता हूं कि लोग उन उदाहरणों का हवाला देते हैं जिनमें किसी ने कारण-निर्धारण या सामान्य निबंधों में सहायता के लिए एक होल्ड-आउट नमूना का उपयोग किया था जो उनकी समझ में मदद कर सकता है। मुझे यह भी संदेह नहीं है कि क्रॉस सत्यापन की मेरी अवधारणा भोली है, और इसलिए यदि ऐसा कहा जाता है। ऐसा लगता है कि होल्ड आउट सैंपल का उपयोग कारण संबंधी अनुमान के लिए उत्तरदायी होगा, लेकिन मुझे ऐसा कोई काम नहीं पता है जो ऐसा करता हो या वे ऐसा कैसे करते हों।

बर्क पेपर के लिए प्रशस्ति पत्र:

मॉडल चयन के बाद सांख्यिकीय निष्कर्ष : रिचर्ड बर्क, लॉरेंस ब्राउन, लिंडा झाओ जर्नल ऑफ क्वांटिटेटिव क्रिमिनोलॉजी, वॉल्यूम। 26, नंबर 2. (1 जून 2010), पीपी 217-236।

यहाँ पीडीएफ संस्करण

यह CHL से छोटा सा नमूना अध्ययन में खोजपूर्ण डेटा विश्लेषण पर सवाल इस सवाल के लिए कहा जाए।

जवाबों:


19

मुझे लगता है कि यह समीक्षा करना उपयोगी है कि हम क्रॉस-वैधीकरण के बारे में क्या जानते हैं। सीवी के आसपास सांख्यिकीय परिणाम दो वर्गों में आते हैं: दक्षता और स्थिरता।

दक्षता वह है जो हम आमतौर पर पूर्वानुमान मॉडल के निर्माण के साथ संबंधित होते हैं। विचार यह है कि हम सीवी का उपयोग नुकसान फ़ंक्शन से संबंधित असममित गारंटी वाले मॉडल को निर्धारित करने के लिए करते हैं। यहां सबसे प्रसिद्ध परिणाम स्टोन 1977 के कारण है और यह दर्शाता है कि एलओयू सीवी एआईसीएमपी के समान ही है। लेकिन, ब्रेट एक अच्छा उदाहरण प्रदान करता है जहां आप एक पूर्वानुमान मॉडल पा सकते हैं जो आपको कारण तंत्र पर सूचित नहीं करता है।

संगति वह है जिससे हम चिंतित हैं यदि हमारा लक्ष्य "सच्चा" मॉडल ढूंढना है। यह विचार है कि हम asymptotic गारंटी के साथ एक मॉडल निर्धारित करने के लिए CV का उपयोग करते हैं, यह देखते हुए कि हमारे मॉडल स्थान में सच्चा मॉडल शामिल है, हम इसे एक बड़े पर्याप्त नमूने के साथ खोज लेंगे। यहां सबसे प्रसिद्ध परिणाम शाओ 1993 के कारण रैखिक मॉडल के विषय में है, लेकिन जैसा कि वह अपने सार में बताता है, उसकी "चौंकाने वाली खोज" लू के लिए परिणाम के विपरीत है। लीनियर मॉडल के लिए, आप LKO CV का उपयोग करके निरंतरता प्राप्त कर सकते हैं जब तक कि रूप में n can । रैखिक mdoels से परे, सांख्यिकीय परिणामों को प्राप्त करना कठिन है। k/n1n

लेकिन मान लें कि आप संगतता मानदंडों को पूरा कर सकते हैं और आपकी सीवी प्रक्रिया सही मॉडल की ओर ले जाती है: । हमने कारण तंत्र के बारे में क्या सीखा है? हम बस जानते हैं कि वाई और एक्स के बीच एक अच्छी तरह से परिभाषित सहसंबंध है , जो कारण संबंधी दावों के बारे में बहुत कुछ नहीं कहता है। एक पारंपरिक दृष्टिकोण से, आपको कारण-संबंधी दावे करने के लिए नियंत्रण / हेरफेर के तंत्र के साथ प्रयोगात्मक डिजाइन में लाने की आवश्यकता है। यहूदिया पर्ल के ढाँचे के परिप्रेक्ष्य से, आप एक संरचनात्मक मॉडल में कारण धारणाओं को सेंक सकते हैं और कुछ दावों को प्राप्त करने के लिए काउंटरफ़ैक्टुअल की संभावना आधारित गणना का उपयोग कर सकते हैं, लेकिन आपको कुछ गुणों को संतुष्ट करने की आवश्यकता होगी । Y=βX+eYX

शायद आप कह सकते हैं कि सीवी सही मॉडल की पहचान करके कारण के साथ मदद कर सकता है (बशर्ते आप संगतता मानदंडों को पूरा कर सकते हैं)। लेकिन यह केवल आपको अभी तक मिलता है; सीवी अपने आप में कार्य का कोई भी कार्य नहीं कर रहा है।

यदि आप क्रॉस-वैलिडेशन के साथ हम जो कह सकते हैं, उसमें आगे रुचि रखते हैं, तो मैं 1993 के पेपर का हवाला देते हुए शाओ 1997 की सिफारिश करूंगा:

आप प्रमुख परिणामों के माध्यम से स्किम कर सकते हैं, लेकिन इसके बाद होने वाली चर्चा को पढ़ना दिलचस्प है। मुझे लगा कि राव और टिबशिरानी और स्टोन की टिप्पणी विशेष रूप से आनंददायक थी। लेकिन ध्यान दें कि जब वे निरंतरता पर चर्चा करते हैं, तो कार्य-कारण के बारे में कोई दावा नहीं किया जाता है।


सभी संदर्भों के लिए धन्यवाद, विशेष रूप से यहूदिया पर्ल प्रतिक्रियाओं (मुझे उन छोटी प्रतिक्रिया निबंधों में सभी अद्भुत जानकारी के आधार पर पुस्तक खरीदने की आवश्यकता होगी।)
एंडी डब्ल्यू

1
चढ़ाव के लिए टिप्पणियाँ हमेशा स्वागत है!
chl

18

यह वास्तव में एक दिलचस्प सवाल है और मैं किसी भी विशिष्ट उद्धरण की पेशकश नहीं करता हूं। हालाँकि, सामान्य तौर पर, मैं कहूँगा, NO, और, स्वयं, क्रॉस-वैधीकरण कार्य-कारण में कोई अंतर्दृष्टि प्रदान नहीं करता है। डिज़ाइन किए गए प्रयोग के अभाव में, कार्य-कारण का मुद्दा हमेशा अनिश्चित होता है। जैसा कि आप सुझाव देते हैं, क्रॉस-वैलिडेशन भविष्यवाणी की सटीकता में सुधार और सुधार कर सकता है। यह, अकेले, कार्य-कारण के बारे में कुछ नहीं कहता है।

एक डिज़ाइन किए गए प्रयोग से अनुपस्थित, कारण के अनुमान के लिए एक मॉडल की आवश्यकता होती है जिसमें सभी प्रासंगिक भविष्यवक्ता शामिल होते हैं - ऐसा कुछ जिसे हम शायद ही कभी एक अवलोकन अध्ययन में गारंटी दे सकते हैं। इसके अलावा, एक साधारण अंतराल चर, उदाहरण के लिए (या जो कुछ भी परिणाम के साथ अत्यधिक सहसंबद्ध है जो हम भविष्यवाणी करने की कोशिश कर रहे थे) एक अच्छा मॉडल पैदा करेगा और एक जिसे कई नमूनों में मान्य किया जा सकता है। हालांकि, इसका मतलब यह नहीं है कि हम कार्य-कारण का अनुमान लगा सकते हैं। क्रॉस-मान्यता पूर्वानुमानों में पुनरावृत्ति को आश्वस्त करती है और इससे अधिक कुछ नहीं। कारण डिजाइन और तर्क का विषय है।

संपादित करें: यहाँ उदाहरण के लिए एक उदाहरण दिया गया है। मैं एक अच्छी भविष्य कहनेवाला सटीकता के साथ एक मॉडल का निर्माण कर सकता हूं जो शहर की आबादी के आधार पर भविष्यवाणी करता है कि शहर कितना पैसा निकालता है। मैं उस मॉडल की सटीकता के साथ-साथ भविष्यवाणी की सटीकता में सुधार करने और अधिक स्थिर पैरामीटर प्राप्त करने के लिए अन्य तरीकों के परीक्षण के लिए क्रॉस-वैलिडेशन का उपयोग कर सकता हूं। अब, जबकि यह मॉडल भविष्यवाणी के लिए बहुत अच्छा काम करता है, कारण तर्क गलत है - कारण दिशा उलट है। कोई फर्क नहीं पड़ता कि लोक निर्माण विभाग में लोग क्या तर्क दे सकते हैं, कचरा हटाने के लिए अपने बजट को बढ़ाना शहर की आबादी (कारण व्याख्या) को बढ़ाने के लिए एक अच्छी रणनीति नहीं होगी।

एक मॉडल की सटीकता और पुनरावृत्ति के मुद्दे हमारे द्वारा देखे जाने वाले रिश्तों के बारे में कारण निष्कर्ष बनाने की हमारी क्षमता से अलग हैं। क्रॉस-सत्यापन हमें पूर्व के साथ मदद करता है और बाद वाले के साथ नहीं। अब, यदि हम आकस्मिक संबंध निर्दिष्ट करने के संदर्भ में "सही" मॉडल का अनुमान लगा रहे हैं (उदाहरण के लिए, यह निर्धारित करने की कोशिश करना कि हमारा कचरा हटाने का बजट अगले वर्ष हमारी अपेक्षित जनसंख्या के आधार पर क्या होना चाहिए), तो क्रॉस-वैलिडेशन से हमें अधिक से अधिक मदद मिल सकती है। उस प्रभाव के हमारे अनुमान में विश्वास। हालाँकि, क्रॉस-वैरिडेशन कार्य-कारण संबंधों के संबंध में "सही" मॉडल चुनने में हमारी मदद करने के लिए कुछ भी नहीं करता है। फिर, यहां हमें अध्ययन के डिजाइन, हमारी विषय वस्तु विशेषज्ञता, सिद्धांत और तर्क पर भरोसा करने की आवश्यकता है।


1
तो आपको नहीं लगता कि प्रभाव अनुमानों में पुनरावृत्ति उपयोगी हो सकती है? यद्यपि आप अपनी अवधारणा में अकेले नहीं हैं कि कार्य-कारण का प्रमाण क्या है, मुझे लगता है कि यह काफी संकीर्ण है। हम कभी भी एक कारण संबंध को अनिश्चित काल के लिए साबित नहीं कर पाएंगे, यहां तक ​​कि एक प्रयोग के साथ, ब्रह्मांड में सभी साक्ष्य अनुपस्थित हैं। इसलिए मेरी राय में लक्ष्य इस बात का सबूत देना है कि हम जिस भी रिश्ते का अनुमान लगाते हैं, वह उस सच्चाई के करीब है जो हमें दी गई जानकारी से मिलती है। यह देखते हुए कि आपको लगता है कि प्रशिक्षण के सेट से लेकर होल्ड आउट नमूना तक की भविष्यवाणी में पुनरावृत्ति नहीं हो सकती है, क्या इनफ़ॉर्मेशन पर एक उपयोगी जाँच हो सकती है?
एंडी डब्ल्यू

मैं आपकी टिप्पणियों की भी सराहना करता हूं, और मैं पूरी तरह सहमत हूं कि निष्कर्ष तर्क और अनुसंधान डिजाइन पर बहुत निर्भर हैं।
एंडी डब्ल्यू

1
एंडी, मैंने आपकी टिप्पणियों को संबोधित करने के लिए अपनी पोस्ट संपादित की है। इसके अलावा, मुझे यह सुझाव देने का मतलब नहीं है कि डिज़ाइन किए गए प्रयोग के संदर्भ में कारण निष्कर्ष नहीं किया जा सकता है। फिर भी, यह अवलोकन अध्ययनों में अधिक कठिन और कम निश्चित है और हमें उस समस्या से निपटने में मदद करने के लिए मॉडल निर्माण प्रक्रियाओं को नहीं देखना चाहिए। इसके बजाय, हमें उन समस्याओं को बेहतर ढंग से समझने की कोशिश करनी चाहिए जिनके लिए हम कार्य-कारण संबंधों को समझने का प्रयास कर रहे हैं।
ब्रेट

मैं आपके द्वारा कहे गए सभी चीजों से बहुत सहमत हूं, सिवाय इसके कि सटीकता और पुनरावृत्ति के मुद्दे संदेह के सामना में सही निष्कर्ष बनाने के लिए आवश्यक हैं। मैं विशेषज्ञों को इस संदेह का लाभ दे सकता हूं कि वे तार्किक मॉडल का निर्माण कर रहे हैं। जहां मैं चिंतित हूं, कई अवलोकन संबंधी संदर्भों में निष्कर्षों की पुनरावृत्ति है। हालांकि मैं मानता हूं कि पुनरावृत्ति आवश्यक रूप से उन प्रभावों को स्वीकार करने के लिए नहीं है जो प्रयोगात्मक सेटिंग्स में सबसे अच्छे तरीके से निपटाए जाते हैं।
एंडी डब्ल्यू

(+1) मेरी क्षमायाचना। ऐसा लगता है कि मैं आपके बहुत अच्छे उत्तर को भूल गया। पहले से ही आपकी सहायक टिप्पणियों को वोट दिया है।
chl

13

मुझे ऐसा लगता है कि आपका प्रश्न अधिक आम तौर पर एक भविष्य कहनेवाला मॉडल के लिए मान्यता के विभिन्न स्वादों को संबोधित करता है: क्रॉस-मान्यता का कुछ हद तक आंतरिक वैधता , या कम से कम प्रारंभिक मॉडलिंग चरण के साथ क्या करना है , जबकि एक व्यापक आबादी पर कार्य कारण लिंक अधिक संबंधित है करने के लिए बाहरी वैधता। उसके द्वारा (और @ ब्रेट की अच्छी टिप्पणी के बाद एक अद्यतन के रूप में), मेरा मतलब है कि हम आम तौर पर एक काम कर रहे नमूने पर एक मॉडल का निर्माण करते हैं, एक काल्पनिक वैचारिक मॉडल (यानी हम भविष्यवक्ताओं और ब्याज के परिणाम) के बीच संबंधों को निर्दिष्ट करते हैं। और हम न्यूनतम वर्गीकरण त्रुटि दर या न्यूनतम भविष्यवाणी त्रुटि के साथ विश्वसनीय अनुमान प्राप्त करने का प्रयास करते हैं। उम्मीद है, बेहतर मॉडल प्रदर्शन करता है, बेहतर यह हमें अनदेखी डेटा पर परिणाम (नों) की भविष्यवाणी करने की अनुमति देगा; अभी भी, सीवी "वैधता" या हाइपोथिसाइज्ड कारण लिंक की पर्याप्तता के बारे में कुछ नहीं बताता है। हम निश्चित रूप से एक मॉडल के साथ अच्छे परिणाम प्राप्त कर सकते हैं जहां कुछ मॉडरेशन और / या मध्यस्थता प्रभाव उपेक्षित हैं या बस पहले से ज्ञात नहीं हैं।

मेरा कहना है कि जो भी विधि आप अपने मॉडल को मान्य करने के लिए उपयोग करते हैं (और होल्डआउट विधि निश्चित रूप से सबसे अच्छी नहीं है, लेकिन फिर भी यह महामारी विज्ञान के अध्ययन में व्यापक रूप से स्टेपवाइज मॉडल बिल्डिंग से उत्पन्न समस्याओं को कम करने के लिए उपयोग किया जाता है), आप उसी नमूने के साथ काम करते हैं। (जो हम मानते हैं कि एक बड़ी आबादी का प्रतिनिधि है)। इसके विपरीत, परिणामों को सामान्य बनाने और कारण लिंक नए नमूनों के लिए इस तरह से अनुमान लगाते हैं या एक बहुतायत से संबंधित आबादी आमतौर पर प्रतिकृति अध्ययन द्वारा की जाती है । यह सुनिश्चित करता है कि हम "सुपरपॉपुलेशन" में अपने मॉडल की भविष्य कहनेवाला क्षमता का सुरक्षित रूप से परीक्षण कर सकते हैं जो व्यक्तिगत विविधताओं की एक बड़ी रेंज पेश करता है और ब्याज के अन्य संभावित कारकों को प्रदर्शित कर सकता है।

आपका मॉडल आपके काम करने के नमूने के लिए मान्य भविष्यवाणियां प्रदान कर सकता है, और इसमें वे सभी संभावित कन्फ़्यूडर शामिल हैं जिनके बारे में आप सोच सकते हैं; हालांकि, यह संभव है कि यह नए डेटा के साथ भी प्रदर्शन नहीं करेगा, सिर्फ इसलिए कि अन्य कारक हस्तक्षेप करने वाले कारण पथ में दिखाई देते हैं जिन्हें प्रारंभिक मॉडल का निर्माण करते समय पहचाना नहीं गया था। ऐसा तब हो सकता है जब कुछ भविष्यवक्ता और कारण लिंक से संबंधित अनुमान उस विशेष परीक्षण केंद्र पर निर्भर करते हैं जहां रोगियों को भर्ती किया गया था, उदाहरण के लिए।

आनुवांशिक महामारी विज्ञान में, कई जीनोम-वाइड एसोसिएशन अध्ययन केवल इसलिए दोहराने में विफल होते हैं क्योंकि हम डीएनए मार्करों और देखे गए फ़ेनोटाइप के बीच कारण संबंधों पर एक ओवरसाइम्प्लिफ़ाइड दृष्टिकोण के साथ जटिल रोगों को मॉडल करने की कोशिश कर रहे हैं, जबकि यह बहुत संभावना है कि जीन-जीन (एपिस्टासिस), जीन-रोग (प्लियोट्रॉपी), जीन-पर्यावरण, और जनसंख्या सबस्ट्रक्चर सभी खेल में आते हैं, लेकिन उदाहरण के लिए देखें जीनोम-वाइड एसोसिएशन संकेतों को मान्य, संवर्धित और परिष्कृत करना(आयोनिडिस एट अल।, प्रकृति समीक्षा आनुवंशिकी, 2009 10)। तो, हम आनुवंशिक मार्करों के एक सेट (बहुत कम और विरल प्रभाव के आकार) और मनाया phenotypes के एक बहुभिन्नरूपी पैटर्न (उदाहरण के लिए, सफेद या ग्रे पदार्थ की मात्रा) के बीच एक अंतर-पार करने वाले मॉडल का निर्माण कर सकते हैं। मस्तिष्क में स्थानीयकृत गतिविधियाँ जैसा कि fMRI के माध्यम से मनाया जाता है, न्यूरोसाइकोलॉजिकल मूल्यांकन या व्यक्तित्व सूची के लिए प्रतिक्रियाएं), फिर भी यह एक स्वतंत्र नमूने पर अपेक्षित प्रदर्शन नहीं करेगा।

इस विषय पर एक सामान्य संदर्भ के रूप में , ईडब्ल्यू स्टीयरबर्ग (स्प्रिंगर, 2009) से अध्याय 17 और नैदानिक ​​भविष्यवाणी मॉडल के भाग III की सिफारिश कर सकते हैं । मुझे Ioannidis के निम्नलिखित लेख भी पसंद हैं:

Ioannidis, JPA, सर्वाधिक प्रकाशित शोध निष्कर्ष क्यों गलत हैं? PLoS मेड। 2005 2 (8): e124


1
@chl: क्या आप आंतरिक v। बाहरी वैधता पर पहले पैराग्राफ में अपने कथन की व्याख्या कर सकते हैं? उस परंपरा में, जिससे मैं परिचित हूं: आंतरिक वैधता विशेष नमूने के भीतर चर के बीच कारण और प्रभाव संबंधों को मुखर करने की क्षमता को संदर्भित करता है; बाहरी वैधता एक नमूने से दूसरे व्यक्तियों, स्थानों और समय के सामान्यीकरण की क्षमता के बारे में है। परंपरागत रूप से, क्रॉस-वैरिफिकेशन उत्तरार्द्ध के बारे में है और इस प्रकार बाहरी वैधता के बारे में उपरोक्त परिभाषा के अनुसार, जबकि आप कहते हैं कि यह आंतरिक वैधता के बारे में है। क्या मैंने आपके कथन को गलत समझा?
ब्रेट

1
@ ब्रेट मैं सीवी के बारे में सोच रहा था ताकि ओवरफिटिंग से बचने या काम करने वाले नमूने पर भविष्यवाणी सटीकता का एक उपाय प्रदान कर सके (इसलिए आंतरिक वैधता प्रदर्शित करने के लिए समर्पित उपकरण के रूप में आवश्यक नहीं है)। मैं बहुत स्पष्ट, धन्यवाद या इशारा नहीं कर रहा था। मैं मानता हूं कि इसके बाद हाथ पर नमूने को सामान्य बनाने के लिए उपयोग किया जाता है, लेकिन मुझे लगता है कि इसका कार्य-कारण से कोई लेना-देना नहीं है (सीवी कार्य-नमूना पर मॉडल के रूप में कारण लिंक के बारे में कुछ भी साबित नहीं करता है)। मैं बाहरी वैधता पर आपके विचार साझा करता हूं, लेकिन इसे प्रदर्शित करने के लिए हमें अन्य नमूनों की आवश्यकता है, नहीं?
chl

1
आप पहले पैराग्राफ को स्पष्ट कर सकते हैं। मुझे लगता है कि आप यह कहना चाह रहे हैं कि CV आंतरिक वैधता नहीं करता है। यह अन्य प्रक्रियाओं के लिए एक मामला है। लेकिन, अगर हमें अन्य कारणों से अच्छी आंतरिक वैधता मिली है, तो जो कुछ भी हो सकता है, सीवी अनुमान लगाने में मदद करेगा जो कि व्यक्तियों, स्थानों और समय पर अधिक सटीक रूप से प्रभाव डालता है - अर्थात बाहरी वैधता में सुधार। मैं अभी भी किसी भी तरह से नहीं सोच सकता कि सीवी हमें चर के बीच संबंधों के बारे में कारण संबंधी दावे करने में मदद करेगा - आंतरिक वैधता सवाल ही - केवल एक स्थापित कारण संबंध को सामान्य बनाने में मदद करने के लिए।
ब्रेट

1
@ मुझे लगता है कि इस सवाल पर आपकी टिप्पणी बहुत प्रासंगिक है और कुछ मुद्दों को बहुत अच्छी तरह से जोड़ते हैं। मुझे संदेह है कि यह इस बिंदु पर आंतरिक और बाह्य वैधता के बीच किसी भी भ्रम में मदद करेगा, लेकिन chl के आनुवंशिक महामारी विज्ञान उदाहरण वास्तव में आंतरिक वैधता की समस्या है बाहरी वैधता नहीं (सिवाय डाटासेट विषमता (या जनसंख्या बाधा) के, लेकिन IMO के बारे में) इन उदाहरणों में आंतरिक वैधता की तुलना में कम चिंता)।
एंडी डब्ल्यू

2
आंतरिक और बाहरी वैधता के बीच ब्रेट की परिभाषा सटीक है, लेकिन हमारे उद्देश्यों के लिए इसे अलग-अलग शब्दों में परिभाषित करने में मदद मिलेगी। बाहरी वैधता केवल नमूने से संबंधित है और यह कि नमूना अन्य आबादी से कैसे संबंधित है। आंतरिक वैधता उन प्रभावों के बारे में विभिन्न पहलुओं से संबंधित है और उन प्रभावों का अनुमान लगाने के लिए उपयोग किए गए निर्माण।
एंडी डब्ल्यू

12

यह एक अच्छा सवाल है, लेकिन जवाब निश्चित रूप से नहीं है: क्रॉस-वैलिडेशन के कारण अनुमान में सुधार नहीं होगा। यदि आपके पास लक्षणों और बीमारियों के बीच एक मानचित्रण है, तो क्रॉस-मान्यता यह सुनिश्चित करने में मदद करेगी कि आपका मॉडल उनके संयुक्त वितरण से बेहतर मिलान करता है यदि आपने अपने मॉडल को पूरे कच्चे डेटा सेट में फिट किया था, लेकिन यह आपको कभी भी कुछ भी नहीं बता सकता है कार्य-कारण की दिशा।

क्रॉस-वैलिडेशन बहुत महत्वपूर्ण है और अध्ययन के लायक है, लेकिन यह आपके डेटा सेट में शोर से बचने के लिए आपको रोकने के अलावा और कुछ नहीं करता है। यदि आप इसे और अधिक समझना चाहते हैं, तो मैं ESL के अध्याय 7 का सुझाव दूंगा: http://www-stat.stanford.edu/~hastie/Papers/ESLII.pdf


संदर्भ के लिए धन्यवाद। तो कहते हैं कि आप मॉडल चयन के बारे में चिंतित नहीं हैं, क्या डेटा को बाहर रखने के लिए सेट किए गए प्रशिक्षण डेटा के प्रभाव अनुमानों को मान्य करने से पार किया जा सकता है?
एंडी डब्ल्यू

यह हो सकता है, लेकिन मैं कहूंगा कि आप मूल रूप से उस समय बूटस्ट्रैपिंग (या कुछ भिन्नता) कर रहे हैं।
जॉन माइल्स व्हाइट

मैं सहमत हूं, मुझे लगता है कि नियमित रूप से किए गए अन्य चीजें हैं जो इस तरह के तर्क को दर्शाती हैं (जैसे कि सब्सेट विशिष्टता परीक्षण या गैर-समकक्ष निर्भर चर)। मैंने केवल इस सवाल का जवाब दिया क्योंकि मैंने कल्पना की थी कि अधिक औपचारिक उपचार मौजूद हैं।
एंडी डब्ल्यू

चढ़ाव के लिए टिप्पणियाँ हमेशा स्वागत है!
11:15

यह पुस्तक वह उपहार है जो देती रहती है!
हाईड

6

अनुवर्ती के रूप में अनुवर्ती @Andy को यहां उत्तर देने के लिए ...

हालांकि मैं यह नहीं कह सकता था कि कौन सा अनुमान सही है और कौन सा गलत है, क्या असॉल्ट कन्वेंशन में असंगति नहीं है और गन कॉन्फिडेंस अनुमान दो मॉडल के बीच संदेह करता है कि या तो वाक्य की लंबाई पर सही कारण प्रभाव है?

मुझे लगता है कि आप क्या मतलब है कि पैरामीटर अनुमानों में विसंगति हमें विश्वास करने का कारण देती है कि न तो पैरामीटर अनुमान सही कारण प्रभाव का प्रतिनिधित्व करता है। मैं इससे सहमत हूं, हालांकि हमारे पास पहले से ही संदेह के बहुत सारे कारण थे कि ऐसा मॉडल सही कारण प्रभाव प्रदान करेगा।

यहाँ मेरा लेना है: ओवर-फिटिंग डेटा पक्षपाती पैरामीटर अनुमानों का एक स्रोत है, और यह मानने के लिए कोई कारण नहीं है कि यह पूर्वाग्रह किसी विशेष कारण प्रभाव का अनुमान लगाने में पूर्वाग्रह के अन्य स्रोतों को बंद कर देता है, यह तब बेहतर होना चाहिए, औसतन, कारणगत प्रभाव का अनुमान लगाने के लिए डेटा को ओवर-फिटिंग किए बिना। क्रॉस-वैलिडेशन ओवर-फिटिंग को रोकता है, इस प्रकार, यह औसतन, कारण प्रभाव के अनुमानों में सुधार करना चाहिए।

लेकिन अगर कोई मुझे अवलोकन संबंधी डेटा के कारण प्रभाव के उनके अनुमान पर विश्वास करने के लिए मनाने की कोशिश कर रहा है, तो यह साबित करना कि वे अपने डेटा को ओवर-फिट नहीं करते हैं, यह एक कम प्राथमिकता है जब तक कि मेरे पास उनकी मॉडलिंग रणनीति पर संदेह करने के लिए मजबूत कारण होने की संभावना है ओवर-फिट।

सामाजिक विज्ञान अनुप्रयोगों में मैं साथ काम करता हूं, मैं बहुत अधिक चिंतित मुद्दों, माप के मुद्दों और संवेदनशीलता की जांच करता हूं। संवेदनशीलता की जांच से मेरा मतलब है कि मॉडल पर भिन्नता का आकलन करना जहां शर्तें जोड़ी जाती हैं या हटा दी जाती हैं, और इंटरेक्शन के साथ मॉडल का आकलन करने से ब्याज के प्रभाव को उप-समूहों में भिन्न होने की अनुमति मिलती है। सांख्यिकीय मॉडल के इन परिवर्तनों से पैरामीटर का अनुमान प्रभावित होता है जिसे हम यथोचित व्याख्या करना चाहते हैं? क्या इस पैरामीटर की विसंगतियों का अनुमान मॉडल विनिर्देशों या उप-समूहों में लगाया गया है, जो उस कारण कहानी के संदर्भ में समझ में आता है जिसे आप बताने की कोशिश कर रहे हैं, या क्या वे इसके द्वारा संचालित प्रभाव पर संकेत देते हैं, जैसे चयन।

वास्तव में, इससे पहले कि आप इन वैकल्पिक विनिर्देशों को चलाएं। लिखिए कि आपको कैसे लगता है कि आपका पैरामीटर अनुमान बदल जाएगा। यदि आपका ब्याज का पैरामीटर अनुमान उप-समूहों, या विशिष्टताओं में भिन्न नहीं है - मेरे काम के संदर्भ में, जो कि क्रॉस-सत्यापन से अधिक महत्वपूर्ण है। लेकिन मेरी व्याख्या को प्रभावित करने वाले अन्य महत्वपूर्ण मुद्दे अभी भी अधिक महत्वपूर्ण हैं।


वजन करने के लिए बहुत बहुत धन्यवाद! आपका दृष्टिकोण निश्चित रूप से कारण मॉडल में क्रॉस-सत्यापन के लिए एक बहुत ही सीधा प्रेरणा देता है जो मैंने कभी भी खुद को औपचारिक रूप से तैयार नहीं किया था। IMO ओवर-फिटिंग के लेबल का उपयोग करके अपने आप को थोड़ा कम बेच रहा है। उदाहरण के लिए, प्रारंभिक खोजकर्ता सेट में, मैं शुरुआती पैमाने पर एक स्वतंत्र चर का उपयोग करके समीकरणों के बीच मॉडल को देख सकता हूं। मैं तय करता हूं कि लॉग स्केल वाला मॉडल बेहतर है, और फिर होल्ड आउट मॉडल में इसका उपयोग करें। यह आमतौर पर ओवर-फिटिंग (एक या दूसरे के बीच चयन करना) नहीं माना जाएगा, कॉन ...
एंडी डब्ल्यू

लेकिन फिर भी आप अपने यहाँ मेरे पैराग्राफ में सुझाए गए प्रतिमान के अनुसार फिट बैठते हैं।
एंडी डब्ल्यू

5

मैं सभी को उनके उत्तर के लिए धन्यवाद देता हूं, लेकिन सवाल कुछ ऐसा हो गया है जिसका मैंने इरादा नहीं किया था, मुख्य रूप से बिना किसी सही उत्तर के कारण कारण की सामान्य धारणा पर निबंध।

मैंने शुरू में इस सवाल का इरादा किया था कि कारण-निर्धारण के लिए क्रॉस सत्यापन के उपयोग के उदाहरणों के लिए दर्शकों की जाँच करें। मैंने मान लिया था कि इस तरह के तरीके मौजूद थे, क्योंकि परीक्षण के नमूने का उपयोग करने की धारणा और प्रभाव अनुमानों की पुनरावृत्ति का आकलन करने के लिए नमूना पकड़ना मेरे लिए तर्कसंगत लग रहा था। जैसे जॉन ने नोट किया, मैं जो सुझाव दे रहा था वह बूटस्ट्रैपिंग के प्रति असहमति नहीं है, और मैं कहूंगा कि यह अन्य तरीकों से मिलता-जुलता है, जिसका उपयोग हम परिणामों को मान्य करने के लिए करते हैं जैसे कि सब्मिट विशिष्टता परीक्षण या गैर-समकक्ष आश्रित चर (बूटस्ट्रैपिंग मॉडल की पैरामीट्रिक मान्यताओं को आराम देता है, और सबसेट अधिक सामान्य तरीके से परीक्षणों का उपयोग एक जांच के रूप में किया जाता है कि परिणाम विभिन्न स्थितियों में तार्किक हैं)। इन विधियों में से कोई भी कार्य-कारण निष्कर्ष के लिए प्रमाण के अन्य उत्तर मानकों में से कोई भी पूरा नहीं करता है, लेकिन मेरा मानना ​​है कि वे अभी भी कारण-निर्धारण के लिए उपयोगी हैं।

chl की टिप्पणी सही है कि क्रॉस वैलिडेशन का उपयोग करने के लिए मेरा दावा कार्य-कारण में सहायता के लिए आंतरिक वैधता पर एक जाँच है। लेकिन मैं पूछता हूं कि हम आंतरिक और बाह्य वैधता के बीच के अंतर को अभी के लिए फेंक देते हैं, क्योंकि यह बहस को आगे बढ़ाने के लिए कुछ नहीं करता है। महामारी विज्ञान में जीनोम के व्यापक अध्ययन का उदाहरण मैं खराब आंतरिक वैधता का एक प्रमुख उदाहरण मानता हूं, जिससे मजबूत अंतर्ज्ञान स्वाभाविक रूप से संदिग्ध हो जाते हैं। मुझे लगता है कि जीनोम एसोसिएशन के अध्ययन वास्तव में मेरे द्वारा पूछे गए उदाहरण हैं। क्या आपको लगता है कि क्रॉस-वेलिडेशन के उपयोग के माध्यम से जीन और बीमारी के बीच के इंफ़ॉर्मेशन में सुधार किया जाता है (जैसा कि सभी मार्करों को एक मॉडल में फेंकने और तदनुसार पी-मानों को समायोजित करने के लिए उत्पीड़ित किया जाता है?)

नीचे मैंने अपने प्रश्न में उद्धृत बर्क लेख में एक तालिका की एक प्रति चिपकाई है। इन तालिकाओं एक ही मॉडल पर कदम के लिहाज से चयन मानदंड और कारण अनुमान का उपयोग कर के झूठे तर्क प्रदर्शित करने के लिए दिखाया गया है, की सुविधा देता है कोई मॉडल चयन मानदंड का उपयोग किया गया है, और दोनों प्रशिक्षण में मानकों का नाटक और नमूना बाहर पकड़ निर्धारित किया गया है एक प्रायोरी। यह मुझे अवास्तविक परिणाम के रूप में हड़ताल नहीं करता है। हालांकि मैं यह नहीं कह सकता था कि कौन सा अनुमान सही है और कौन सा गलत है, क्या असॉल्ट कन्वेंशन में असंगति नहीं है और गन कॉन्फिडेंस अनुमान दो मॉडल के बीच संदेह करता है कि या तो वाक्य की लंबाई पर सही कारण प्रभाव है? क्या यह जानना उपयोगी नहीं है? यदि हम अपने मॉडल का परीक्षण करने के लिए होल्ड आउट नमूना होने से कुछ भी नहीं खोते हैं, तो हम कारण-निर्धारण में सुधार के लिए क्रॉस-वेलिडेशन का उपयोग क्यों नहीं कर सकते हैं (या मैं एक होल्ड आउट नमूना का उपयोग करके क्या खो रहा हूं?) वैकल्पिक शब्द


1
इस बात पर ध्यान देने की आवश्यकता है कि यह क्यों सराहा गया।
एंडी डब्ल्यू

2
मैं दूसरी बार आऊंगा और डाउनवॉट करते समय एक टिप्पणी छोड़ने का सुझाव देता हूं: यह हमेशा सीखने में मददगार है कि क्या गलत है, यदि कोई है। विशेष रूप से इस मामले में: एंडी डब्ल्यू सीडब्ल्यू विस्तारित टिप्पणियों के साथ वापस आए, जो मेरी राय में, मूल प्रश्न के लिए और समर्थन जोड़ते हैं। यहाँ कुछ भी downvote करने की कोई आवश्यकता नहीं है!
chl

1
क्या मानक त्रुटि / विश्वास अंतराल पहले से ही आपको परिवर्तनशीलता का संकेत नहीं देता है? आपके परीक्षण सेट के अनुमान आपके प्रशिक्षण सेट से आपके मानक आत्मविश्वास अंतराल के अंदर निहित हैं। मैंने सोचा होगा कि छोटे मानक त्रुटियां और संकीर्ण CI कार्य-कारण के लिए महत्वपूर्ण हैं।
प्रायोरिसोलॉजिक

हां @probabilityislogic आप सही हैं। मेरा मानना ​​है कि जब मैंने इस बिंदु को बनाया था तो यह ऐसी स्थिति के लिए नहीं था, जिसमें आप पहले से ही उपलब्ध डेटासेट में सीवी लागू करते हों, लेकिन किसी समय किसी डेटासेट पर एकत्रित हो। मैंने सोचा कि सीवी यहाँ उपयोगी बयान देने के लिए उपयोगी हो सकता है, लेकिन यह अभी भी मेरे लिए स्पष्ट नहीं है अगर ऐसा है। मैंने केवल मॉडल चयन के संदर्भ में इसे यकीनन उपयोगी माना है, मॉडल को किसी भी तरह से मान्य नहीं किया है (जैसे कि इस नए डेटा पर मेरा मॉडल बहुत करीब फिट पैदा करता है)।
एंडी डब्ल्यू


1

मुझे लगता है कि यह सीवी और कारण निष्कर्ष के बीच के संबंध के बारे में सोचने का एक सहज तरीका है: (कृपया गलत होने पर मुझे सही करें)

मैं हमेशा CV के बारे में भविष्यवाणियों में एक मॉडल के प्रदर्शन का मूल्यांकन करने के तरीके के बारे में सोचता हूं। हालाँकि, कार्य-कारण में हम ओकैम के रेजर (पार्सिमनी) के समतुल्य कुछ अधिक चिंतित हैं, इसलिए CV मदद नहीं करेगा।

धन्यवाद।


कारण यह है कि मैंने सवाल उठाया है क्योंकि हमें क्रॉस वैधीकरण के बारे में सोचने की ज़रूरत नहीं है क्योंकि केवल एक मॉडल की अनुमानित क्षमता का मूल्यांकन करने का एक तरीका है। यह चिंतित होना असामान्य नहीं है कि कई संभावित कारणों के लिए एक मॉडल परिणाम (और इसलिए किए गए इनफेक्शन) कलाकृतियों हैं। इसलिए हम निष्कर्षों की मजबूती की जांच करना चाहते हैं, और मुझे लगा कि क्रॉस वेलिडेशन परिणामों की मजबूती की जांच करने के लिए एक उपयोगी संदर्भ हो सकता है।
एंडी डब्ल्यू

गलत व्याख्या के लिए खेद है।
सनकूलसु

माफी की कोई जरूरत नहीं। मैं एक कुछ स्पष्ट रूप से फ्रिंज का सुझाव दे रहा हूं, और क्रॉस सत्यापन स्पष्ट रूप से हमेशा आपके द्वारा सुझाए गए संदर्भ में उपयोग किया जाता है।
एंडी डब्ल्यू

@suncoolsu, जब मैं औचित्य के बारे में सोच रहा हूं, तो मुझे कभी ओटम के रेजर ऑर्परसिमनी के बारे में चिंता नहीं है, क्या आप मुझे कनेक्शन समझा सकते हैं?
माइकल बिशप
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.