क्या जर्नल साइंस ने गार्डन ऑफ फोर्किंग पाथ्स एनालिसिस का समर्थन किया है?


29

अनुकूली डेटा विश्लेषण का विचार का है कि आप लिए अपनी योजना को बदल दें क्योंकि आप इसके बारे में अधिक सीखते हैं। खोजपूर्ण डेटा विश्लेषण (EDA) के मामले में, यह आम तौर पर एक अच्छा विचार है (आप अक्सर डेटा में अप्रत्याशित पैटर्न की तलाश कर रहे हैं), लेकिन एक पुष्टिकरण अध्ययन के लिए, यह व्यापक रूप से विश्लेषण की एक बहुत ही त्रुटिपूर्ण विधि के रूप में स्वीकार किया जाता है (जब तक कि सभी कदम स्पष्ट रूप से परिभाषित और ठीक से उन्नत में योजनाबद्ध हैं)।

यही कारण है कि किया जा रहा है ने कहा, अनुकूली डेटा विश्लेषण है कि कितने शोधकर्ताओं वास्तव में बहुत सांख्यिकीविदों की बेचैनी को, उनके विश्लेषण करने में आम तौर पर। जैसे, यदि कोई सांख्यिकीय वैध तरीके से ऐसा कर सकता है, तो यह सांख्यिकीय अभ्यास में क्रांतिकारी बदलाव लाएगा।

निम्नलिखित विज्ञान लेख में दावा किया गया है कि ऐसा करने के लिए एक विधि मिल गई है (मैं भुगतानकर्ता के लिए माफी माँगता हूँ, लेकिन यदि आप किसी विश्वविद्यालय में हैं, तो आपके पास पहुँच है): DERT et al, 2015, पुन: प्रयोज्य पकड़: अनुकूली डेटा विश्लेषण में वैधता का संरक्षण

व्यक्तिगत रूप से, मुझे विज्ञान में प्रकाशित होने वाले सांख्यिकी लेखों पर हमेशा संदेह रहा है , और यह कोई अलग नहीं है। वास्तव में, पूरक सामग्री सहित दो बार लेख के माध्यम से पढ़ने के बाद, मुझे समझ में नहीं आ रहा है (आखिरकार) कि लेखक क्यों दावा करते हैं कि उनकी विधि अधिक-फिटिंग को रोकती है।

मेरी समझ यह है कि उनके पास एक होल्डआउट डेटासेट है, जिसका वे पुनः उपयोग करेंगे। वे होल्डआउट डेटासेट पर पुष्टिकरण विश्लेषण के आउटपुट "फ़ज़िंग" द्वारा दावा करते हैं, ओवर-फिटिंग को रोका जाएगा (यह ध्यान देने योग्य है कि फ़ज़िंग सिर्फ शोर जोड़ रहा है यदि प्रशिक्षण डेटा पर गणना की गई आँकड़ा पर्याप्त रूप से दूर है होल्डआउट डेटा पर गणना की गई आँकड़ा से )। जहां तक ​​मैं बता सकता हूं, कोई वास्तविक कारण नहीं है कि इससे ओवर-फिटिंग को रोका जाए।

क्या मैं गलती कर रहा हूं कि लेखक क्या प्रस्ताव दे रहे हैं? वहाँ कुछ सूक्ष्म प्रभाव है कि मैं देख रहा हूँ? या विज्ञान ने आज तक की सबसे खराब सांख्यिकीय प्रथा का समर्थन किया है?


2
बिना विज्ञान पहुंच वाले लोग इस हाल के विज्ञान समाचार लेख से परामर्श करना चाहते हैं कि कोई भुगतान किए गए कागजात तक कैसे पहुंच सकता है।
अमीबा का कहना है कि मोनिका

1
क्या यह संभवतः एक प्रीप्रिंट है: arxiv.org/pdf/1411.2664.pdf ?
टिम

1
@ समय: विज्ञान लेख आपके द्वारा पोस्ट किए गए प्रिफर को उद्धृत करता है। इसके अलावा, लाप्लासियन शोर जोड़ अनुभाग बहुत समान लगता है, लेकिन प्रकाशित लेख के तरीकों के समान नहीं है।
क्लिफ एबी

1
); @CliffAB तो वे संभवतः अंतर गोपनीयता इस्तेमाल किया उन्हें अलग बनाने के लिए
टिम

4
यह विषय वास्तव में पिछले महीने आईसीएमएल में एक ट्यूटोरियल है। "कठोर डेटा ड्रेजिंग: थ्योरी एंड टूल्स फॉर अडेप्टिव डेटा एनालिसिस" कुछ साथी गूगल पर। icml.cc/2016/?page_id=97
horaceT

जवाबों:


7

लेखकों द्वारा एक ब्लॉग पोस्टिंग है जो उच्च स्तर पर इसका वर्णन करता है।

उस पोस्टिंग में जल्दी से उद्धृत करने के लिए:

चर की संख्या को कम करने और अपने कार्य को सरल बनाने के लिए, हम सबसे पहले कुछ आशाजनक दिखने वाले चर का चयन करते हैं, उदाहरण के लिए, जिनके पास प्रतिक्रिया चर (सिस्टोलिक रक्तचाप) के साथ सकारात्मक सहसंबंध है। हम चयनित चर पर एक रेखीय प्रतिगमन मॉडल फिट करते हैं। हमारे मॉडल फिट की अच्छाई को मापने के लिए, हम अपने पसंदीदा आँकड़ों की पाठ्यपुस्तक से एक मानक एफ-टेस्ट को क्रैंक करते हैं और परिणामी पी-मूल्य की रिपोर्ट करते हैं।

फ्रीडमैन ने दिखाया कि सूचित पी-मूल्य अत्यधिक भ्रामक है - भले ही प्रतिक्रिया चर और डेटा बिंदुओं के बीच कोई सहसंबंध न होने के साथ डेटा पूरी तरह से यादृच्छिक था, हम संभवतः एक महत्वपूर्ण पी-मूल्य का निरीक्षण करेंगे! पूर्वाग्रह इस तथ्य से उपजा है कि हमने डेटा के आधार पर चर के एक उपसमूह को अनुकूल रूप से चुना है, लेकिन हम इस तथ्य के लिए कभी भी ध्यान नहीं देते हैं। चरों के संभावित सबसे बड़े उपसमुच्चय हैं जिन्हें हमने चुना है। मात्र तथ्य यह है कि हमने डेटा पर झांककर एक के बाद एक परीक्षण को चुना है, एक चयन पूर्वाग्रह बनाता है जो एफ-परीक्षण के आधार पर मान्यताओं को अमान्य करता है।

फ्रीडमैन का विरोधाभास एक महत्वपूर्ण सबक है। मानक प्रक्रियाओं का महत्वपूर्ण स्तर विश्लेषणों की विशाल संख्या को कैप्चर नहीं करता है जिसे कोई भी चुन सकता है। इस कारण से, अनुकूलनशीलता प्राथमिक स्पष्टीकरणों में से एक है कि क्यों शोध निष्कर्ष अक्सर झूठे होते हैं जैसा कि गेलमैन और लोकेन द्वारा तर्क दिया गया था जो उपयुक्तता को "पथ के पथ के बगीचे" के रूप में अनुकूलता का उल्लेख करते हैं।

मैं यह नहीं देख सकता कि उनकी तकनीक इस मुद्दे को कैसे संबोधित करती है। तो आपके प्रश्न के उत्तर में मेरा मानना ​​है कि वे गार्डन ऑफ़ फोर्किंग पाथ को संबोधित नहीं करते हैं, और इस अर्थ में उनकी तकनीक लोगों को सुरक्षा के झूठे अर्थ में ले जाएगी। सुरक्षा के झूठे अर्थों में "मैंने गैर-नेस्टेड सीवी का उपयोग किया है" - बहुत से कहने पर "मैंने क्रॉस-वैलिडेशन का उपयोग किया है" बहुत से अलग नहीं हैं।

यह मुझे लगता है कि ब्लॉग पोस्टिंग का बड़ा हिस्सा उनकी तकनीक को एक बेहतर उत्तर के रूप में इंगित करता है कि प्रतिभागियों को टेस्ट सेट ढाल पर चढ़ने से कागले-शैली प्रतियोगिता में कैसे रखा जाए। जो उपयोगी है, लेकिन फोर्किंग पथ को सीधे संबोधित नहीं करता है। ऐसा महसूस होता है कि इसमें वुल्फराम और गूगल के न्यू साइंस का स्वाद है जहां भारी मात्रा में डेटा लगेगा। उस कथा का एक मिश्रित रिकॉर्ड है, और मुझे हमेशा स्वचालित जादू पर संदेह है।


3

मुझे यकीन है कि मैं इस अंतर गोपनीयता तकनीक को यहाँ सरल कर रहा हूँ, लेकिन विचार उच्च स्तर पर समझ में आता है।

जब आप अच्छे परिणाम के लिए थूकने के लिए एक एल्गोरिथ्म प्राप्त करते हैं (वाह, मेरे परीक्षण सेट पर सटीकता में वास्तव में सुधार हुआ है), तो आप तुरंत निष्कर्ष निकालने के लिए कूदना नहीं चाहते हैं। आप इसे तभी स्वीकार करना चाहते हैं जब सुधार पिछले एल्गोरिथम से काफी बड़ा हो। यही कारण है कि शोर को जोड़ने का कारण है।

EDIT: इस ब्लॉग में शोर व्याख्याक की प्रभावशीलता को प्रदर्शित करने के लिए अच्छी व्याख्या और आर कोड हैं, http://www.win-vector.com/blog/2015/10/a-simpler-explanation-of-differential-privacy/


>τ

1
@ क्लिफ़ैब मुझे वही सता रहा है कि यह सिर्फ एक साधारण सीमा से बेहतर क्यों काम करता है। लेकिन उनके पास सबूत हैं!
कुंडली

>τ

@ क्लिफब क्या आप विस्तृत कर सकते हैं? कहा पे? यही कारण है कि एक पेचीदा संभावना ....
भयावह

अपने पहले लिंक ( icml.cc/2016/?page_id=97 ) से स्लाइड्स का उपयोग करके, 72 और 73 स्लाइड्स पर, "थ्रेशोल्डआउट" पद्धति का उपयोग करते हुए भी, होल्डआउट सटीकता हर एक सिमुलेशन पर ताजा डेटा से अधिक है, हालांकि यह "मानक होल्डआउट" (जो वास्तव में "सत्यापन डेटासेट का मानक दुरुपयोग है" से बेहतर है, वास्तविक वैध सांख्यिकीय प्रक्रिया नहीं)। FYI करें, प्लॉट स्लाइड्स पर विज्ञान के पेपर में एक ही होता है (यदि आपके पास पहुंच नहीं है)।
क्लिफ एबी

3

दावा है कि शोर को जोड़ने से वास्तव में पानी को रोकने में मदद मिलती है, क्योंकि वे वास्तव में जो कर रहे हैं, वह सीमित है कि होल्डआउट का पुन: उपयोग कैसे किया जाता है । उनकी विधि वास्तव में दो चीजें करती है: यह उन प्रश्नों की संख्या को सीमित करता है जो होल्डआउट से पूछे जा सकते हैं, और प्रत्येक उत्तर में होल्डआउट डेटा के बारे में कितना पता चलता है।

kknn/k

n/kk

उनकी पद्धति का दिल एल्गोरिदमिक स्थिरता और ओवरफिटिंग के बीच का संबंध है, जो 1970 के दशक के अंत में (डेवरोई और वैगनर 1978) का है। मोटे तौर पर, यह कहता है

AXq=A(X)AXPqxqP

A()f(A())fqAA

वहाँ अब काफी कुछ कागजात का विश्लेषण कर रहे हैं कि विभिन्न शोर जोड़ प्रक्रियाएं ओवरफिटिंग को कैसे नियंत्रित करती हैं। एक अपेक्षाकृत पठनीय रुसो और ज़ो ( https://arxiv.org/abs/1511.05219 ) है। Dwork et al के प्रारंभिक कार्य पर कुछ और हालिया अनुवर्ती कागजात। देखने में भी सहायक हो सकता है। (डिस्क्लेमर: मेरे पास विषय पर दो पेपर हैं, हाल ही में एक अनुकूली परिकल्पना परीक्षण के लिए एक कनेक्शन की व्याख्या करते हुए: https://arxiv.org/abs/1604.03924 )।

आशा है कि सभी मदद करता है।


0

मुझे आपके दूसरे वाक्य पर आपत्ति है। डेटा विश्लेषण की पूरी योजना को पहले से निर्धारित किया जाना चाहिए यह विचार अनुचित है, यहां तक ​​कि एक सेटिंग में जहां आप एक वैज्ञानिक वैज्ञानिक परिकल्पना की पुष्टि करने की कोशिश कर रहे हैं। इसके विपरीत, किसी भी सभ्य डेटा विश्लेषण को हासिल किए गए वास्तविक डेटा पर कुछ ध्यान देने की आवश्यकता होगी। जो शोधकर्ता मानते हैं, वे आमतौर पर ऐसे शोधकर्ता होते हैं जो मानते हैं कि महत्त्वपूर्ण परीक्षण डेटा विश्लेषण की शुरुआत और अंत है, जिसमें वर्णनात्मक आँकड़े, भूखंड, अनुमान, भविष्यवाणी, मॉडल चयन, आदि के लिए कोई भूमिका नहीं है। अग्रिम में किसी की विश्लेषणात्मक योजनाओं को ठीक करें और अधिक समझ में आता है क्योंकि पारंपरिक तरीके जिसमें पी-एवल्यूशंस की गणना की आवश्यकता है कि नमूना आकार और आयोजित किए जाने वाले परीक्षण किसी भी डेटा को देखने से पहले तय किए जाते हैं। यह आवश्यकता विश्लेषक को परेशान करती है, और इसलिए कई अच्छे कारणों में से एक है जो महत्व परीक्षणों का उपयोग नहीं करता है।

आपको इस बात पर आपत्ति हो सकती है कि डेटा को ओवरफिटिंग की अनुमति देने के बाद विश्लेषक को यह चुनने की अनुमति देता है कि क्या करना है। यह करता है, लेकिन एक अच्छा विश्लेषक उन सभी विश्लेषणों को दिखाएगा जो उन्होंने आयोजित किए थे, स्पष्ट रूप से कहेंगे कि विश्लेषणात्मक निर्णय लेने के लिए डेटा में कौन सी जानकारी का उपयोग किया गया था, और उचित रूप से क्रॉस-मान्यता जैसे तरीकों का उपयोग करें। उदाहरण के लिए, आम तौर पर प्राप्त मूल्यों के वितरण के आधार पर चर को फिर से ठीक करना ठीक है, लेकिन कुछ विश्लेषणों के लिए 100 में से 3 भविष्यवाणियों का चयन करना, जो कि आश्रित चर के निकटतम निकटतम संगति का अर्थ है, एसोसिएशन के अनुमान सकारात्मक रूप से होने जा रहे हैं। पक्षपाती, मतलब के प्रतिगमन के सिद्धांत द्वारा। यदि आप एक पूर्वानुमान के संदर्भ में चर चयन करना चाहते हैं, तो आपको अपने क्रॉस-वैलिडेशन फोल्ड के अंदर चर का चयन करना होगा, या केवल प्रशिक्षण डेटा का उपयोग करना होगा।


2
मेरा मानना ​​है कि आप जो सुझाव दे रहे हैं, वह खोजपूर्ण डेटा विश्लेषण (ईडीए) के दायरे में फिट बैठता है, जिसके लिए मैंने अनुकूली डेटा विश्लेषण विधियों का समर्थन किया। मुझे भी लगता है कि EDA कमतर है और इसे अधिक श्रेय दिया जाना चाहिए। लेकिन यह सब उस सवाल के लिए रूढ़िवादी है, जो "क्या इन लेखकों ने हमें सांख्यिकीय मान्य पद्धति में मॉडल चयन के लिए सत्यापन डेटा को बार-बार पुन: उपयोग करने की अनुमति दी है?" आपके अंतिम वाक्य से पता चलता है कि आप खुद की तरह, इस तरह के निष्कर्षों से कुछ हद तक उलझन में हैं।
क्लिफ एबी

मुझे नहीं लगता कि जैसे अनुमान स्वाभाविक रूप से खोजपूर्ण है, नहीं। यदि आपके पास एक वैज्ञानिक परिकल्पना है जो कहती है कि एक मगरमच्छ की अधिकतम लंबाई 12 फीट होनी चाहिए और आप इसे जांचने के लिए एक मगरमच्छ की अधिकतम लंबाई का अनुमान लगाने की कोशिश करते हैं, तो आप एक पुष्टिकरण विश्लेषण कर रहे हैं।
कोडियोलॉजिस्ट

2
तीन मौजूदा डाउनवोट के बावजूद +1। मैं इस उत्तर (आपका दूसरा वाक्य) के मुख्य बिंदु से सहमत हूं, भले ही मैं पूरी तरह से अवगत हूं कि यह काफी विवादास्पद है। सामान्य तौर पर मुझे लगता है कि खोजकर्ता और पुष्टिकरण विश्लेषण के बीच का अंतर अधिक है; वास्तविक जीवन का विश्लेषण अक्सर बीच में कहीं होता है। उस ने कहा, मुझे नहीं लगता कि आपने उत्तर दिया (या उत्तर देने का प्रयास भी किया) ओपी के सवाल जो कि Dwork et al के बारे में था। कागज।
अमीबा का कहना है कि मोनिका

@amoeba "मुझे नहीं लगता कि आपने उत्तर दिया (या उत्तर देने का प्रयास भी किया है) ओपी का प्रश्न जो कि Dwork et al। paper के बारे में था" - यह सच है, हालाँकि यह अभी भी उत्तर के रूप में पोस्ट करने लायक लग रहा था क्योंकि यह संदेह करता है कि क्या प्रतीत होता है। प्रश्न का आधार।
कोडियालॉजिस्ट

2
+1 से @ अमीबा की टिप्पणी यह प्रश्न के लिए एक महान टिप्पणी होगी, लेकिन यह एक जवाब नहीं है।
एस। कोलासा - मोनिका से
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.