डेटा - डेटा ड्रेजिंग की कल्पना करने के बाद एक सांख्यिकीय परीक्षण करना?


31

मैं इस प्रश्न को एक उदाहरण के माध्यम से प्रस्तावित करूंगा।

मान लीजिए कि मेरे पास एक डेटा सेट है, जैसे कि बॉस्टन हाउसिंग प्राइस डेटा सेट, जिसमें मेरे पास निरंतर और श्रेणीबद्ध चर हैं। यहां, हमारे पास "गुणवत्ता" चर है, 1 से 10 तक, और बिक्री मूल्य। मैं डेटा को "निम्न", "मध्यम" और "उच्च" गुणवत्ता वाले घरों में (मनमाने ढंग से) गुणवत्ता के लिए कटऑफ बनाकर अलग कर सकता हूं। फिर, इन समूहों का उपयोग करते हुए, मैं एक दूसरे के खिलाफ बिक्री मूल्य के हिस्टोग्राम को प्लॉट कर सकता हूं। इस तरह:

आवास की गुणवत्ता और बिक्री मूल्य

यहां, " गुणवत्ता" स्कोर पर "निम्न" , और "उच्च" । अब हमारे पास तीन समूहों में से प्रत्येक के लिए बिक्री मूल्य का वितरण है। यह स्पष्ट है कि मध्यम और उच्च गुणवत्ता वाले घरों के लिए स्थान के केंद्र में अंतर है। अब, यह सब करने के बाद, मुझे लगता है कि "हम्म। स्थान के केंद्र में अंतर प्रतीत होता है! मैं साधनों पर टी-टेस्ट क्यों नहीं करता?"। फिर, मुझे एक पी-मान मिलता है जो शून्य परिकल्पना को सही ढंग से अस्वीकार करने के लिए प्रकट होता है कि साधनों में कोई अंतर नहीं है।3>7

अब, मान लीजिए कि इस परिकल्पना के परीक्षण के लिए मेरे पास कुछ भी नहीं था जब तक कि मैंने डेटा को प्लॉट नहीं किया।

क्या यह डेटा ड्रेजिंग है?

क्या यह अभी भी डेटा ड्रेजिंग है अगर मैंने सोचा: "एचएम, मैंने उच्च गुणवत्ता वाले घरों की कीमत अधिक लगाई है, क्योंकि मैं एक ऐसा इंसान हूं जो पहले एक घर में रह चुका है। मैं डेटा को प्लॉट करने जा रहा हूं। आह हा! अलग लग रहा है! समय टी-टेस्ट करने के लिए! "

स्वाभाविक रूप से, यह डेटा-ड्रेजिंग नहीं है यदि डेटा सेट को गेट-गो से इस परिकल्पना का परीक्षण करने के उद्देश्य से एकत्र किया गया था। लेकिन अक्सर किसी को हमें दिए गए डेटा सेट के साथ काम करना पड़ता है, और "पैटर्न की तलाश" करने के लिए कहा जाता है। कोई व्यक्ति इस अस्पष्ट कार्य को ध्यान में रखते हुए डेटा ड्रेजिंग से कैसे बचता है? डेटा के परीक्षण के लिए सेट आउट बनाएं? क्या विज़ुअलाइज़ेशन डेटा द्वारा सुझाई गई परिकल्पना का परीक्षण करने के अवसर के लिए स्नूपिंग के रूप में "गिनती" करता है?

जवाबों:


27

संक्षेप में @ ingolifs के उत्तर का प्रतिवाद देने / देने से असहमत: हाँ, आपके डेटा की कल्पना करना आवश्यक है। लेकिन विश्लेषण पर निर्णय लेने से पहले विज़ुअलाइज़ करना आपको जेलमैन और लोकेन के मार्ग के किनारे के मार्ग में ले जाता है । यह डेटा-ड्रेजिंग या पी-हैकिंग के समान नहीं है, आंशिक रूप से इरादे के माध्यम से (GoFP आमतौर पर अच्छी तरह से अर्थ है) और आंशिक रूप से क्योंकि आप एक से अधिक विश्लेषण नहीं चला सकते हैं। लेकिन यह स्नूपिंग का एक रूप है: क्योंकि आपका विश्लेषण डेटा-निर्भर है, यह आपको गलत या अति-आत्मविश्वास के निष्कर्ष तक ले जा सकता है।

आपको किसी तरह से यह निर्धारित करना चाहिए कि आपका इच्छित विश्लेषण क्या है (उदाहरण के लिए ("उच्च गुणवत्ता वाले घरों की कीमत अधिक होनी चाहिए") और अपने डेटा को देखने से पहले इसे लिख लें (या आधिकारिक तौर पर इसे पहले से ही लिख लें) (यह आपके भविष्यवक्ता चर में देखने के लिए ठीक है) अग्रिम, बस प्रतिक्रिया चर (ओं) को नहीं, लेकिन यदि आपके पास वास्तव में कोई प्राथमिकता वाले विचार नहीं हैं, तो आप यह भी नहीं जानते कि कौन से चर भविष्यवाणियां हो सकते हैं और जो प्रतिक्रियाएं हो सकती हैं); यदि आपका डेटा कुछ अलग या अतिरिक्त विश्लेषणों का सुझाव देता है, तो आपका राइट-अप यह बता सकता है कि आप शुरू में क्या करना चाहते थे और आप क्या कर रहे थे (और क्यों)।

यदि आप वास्तव में शुद्ध अन्वेषण कर रहे हैं (यानी, आपके पास कोई प्राथमिकता परिकल्पना नहीं है, तो आप केवल यह देखना चाहते हैं कि डेटा में क्या है:

  • पुष्टि के लिए एक नमूना रखने के बारे में आपके विचार अच्छे हैं।
    • मेरी दुनिया में (मैं विशाल डेटा सेट के साथ काम नहीं करता) कम नमूना आकार होने के कारण रिज़ॉल्यूशन का नुकसान होने से पीड़ा होती
    • यदि आपका डेटा किसी भी तरह से संरचित है (भौगोलिक रूप से, समय श्रृंखला, आदि) तो आपको अपने होल्डअप नमूने का चयन करने में थोड़ा सावधान रहने की आवश्यकता है। जैसे कि डेटा की ग्राहकी आईआईडी होती है अति आत्मविश्वास ( पारिस्थितिकी और विकास 2012 में वेंगर और पुराने तरीकों को देखें ), इसलिए आप भौगोलिक इकाइयों को चुनना चाह सकते हैं ( उदाहरण के लिए पारिस्थितिकी और विकास 2015 में डीजे हैरिस तरीके देखें )
  • आप स्वीकार कर सकते हैं कि आप विशुद्ध रूप से खोजपूर्ण हैं। आदर्श रूप से आप इस मामले में पूरी तरह से पी-मानों को छोड़ देंगे, लेकिन कम से कम अपने दर्शकों को बता रहे हैं कि आप गोएफपी में भटक रहे हैं, जिससे उन्हें पता चल सके कि वे नमक के भारी अनाज के साथ पी-मान ले सकते हैं।

"सुरक्षित सांख्यिकीय प्रथाओं" के लिए मेरा पसंदीदा संदर्भ है हार्लेल रिग्रेशन मॉडलिंग रणनीतियाँ (स्प्रिंगर); वह कठोर बनाम व्यावहारिक तरीके से अनुमान बनाम भविष्यवाणी बनाम अन्वेषण के लिए सर्वोत्तम प्रथाओं का पालन करता है।


4
बहुत अच्छी तरह से डाल दिया! मैं भविष्य में इस उत्तर के लिए लोगों को संदर्भित करने की अपेक्षा करता हूं।
ग्रेट38

वास्तव में जिस तरह की प्रतिक्रिया की मुझे तलाश थी, धन्यवाद। मैंने इस जवाब को एक जवाब के रूप में श्रेय दिया है। क्या आप किसी भी संसाधन के बारे में जानते हैं जो सुरक्षित सांख्यिकीय प्रथाओं को सिखाता है? शायद आपके द्वारा पोस्ट किए गए (उत्कृष्ट) लेखों की तुलना में थोड़ा व्यापक दायरे में हो
Marcel

महान उत्तर (+1), लेकिन मैं असहमत हूं कि यह डेटा-ड्रेजिंग के लिए अलग है; आशय अप्रासंगिक है - प्रभाव समान है।
मोनिका

मुझे वास्तव में लगता है कि यह स्नूपिंग के विभिन्न रूपों के बीच अंतर को बनाए रखने के लायक है। ड्रेजिंग यकीनन अधिक गंभीर है क्योंकि इसमें कई निहित परीक्षणों और (2) सशर्त / जारी परीक्षण के बजाय p <0.05 (या जो भी) हासिल किया जाता है, उसमें (1) कई स्पष्ट परीक्षण शामिल होते हैं । गुणात्मक प्रभाव निश्चित रूप से समान है।
बेन बोल्कर

11

डेटा को विज़ुअलाइज़ करना विश्लेषण का एक अनिवार्य हिस्सा है और आपको अपरिचित डेटा सेट के साथ पहली चीज़ों में से एक होना चाहिए। डेटा का एक त्वरित नेत्रगोलक अगले कदम उठाने के लिए सूचित कर सकता है। वास्तव में, यह ग्राफ़ को देखकर स्पष्ट रूप से स्पष्ट होना चाहिए कि साधन अलग हैं, और मुझे यकीन नहीं है कि इस बात की पुष्टि करने के लिए एक टी-परीक्षण क्यों आवश्यक था - साधन पर्याप्त रूप से अलग हो गए हैं कि ग्राफ ही सभी सबूत हैं I आवश्यकता होती है।

आर2

मुझे लगता है कि हालांकि यहां एक गहरा सवाल है। वैज्ञानिक तरीके से डेटा से निपटने के दौरान आप ज़ेन जैसी तटस्थता कैसे बनाए रखते हैं और पूर्वाग्रह से बचते हैं? जवाब है, आप नहीं। या यों कहें, आपके पास नहीं है। हंच और परिकल्पना का निर्माण करना और डेटा के अर्थ की एक मानसिक कथा का निर्माण करना, यह सब पूरी तरह से प्राकृतिक और स्वीकार्य है, बशर्ते कि आप ऐसा कर रहे हैं, और परस्पर विरोधी डेटा के साथ सामना करने पर इन सभी परिकल्पनाओं पर पुनर्विचार करने के लिए मानसिक रूप से तैयार हैं।


7
परीक्षण चलाने से पहले डेटा विज़ुअलाइज़ करना इस विशिष्ट मामले में सहज नहीं हो सकता है। हालांकि, एक अगले आयाम की कल्पना करेगा ... और एक और ... और बिखराव को देखें ... और जल्द ही, एक ऐसा कुछ मिलेगा जो "स्पष्ट रूप से पर्याप्त" दिखता है ताकि एक औपचारिक परीक्षण और एक कथा स्वाभाविक रूप से आए। अरे हाँ, डेटा ड्रेजिंग निश्चित रूप से कुछ ऐसा है जिसे आप आसानी से दुर्घटना से कर सकते हैं। गेलमैन का "गार्डन ऑफ़ फोर्किंग पाथ्स" देखें ।
एस। कोलासा -
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.