मैं इस प्रश्न को एक उदाहरण के माध्यम से प्रस्तावित करूंगा।
मान लीजिए कि मेरे पास एक डेटा सेट है, जैसे कि बॉस्टन हाउसिंग प्राइस डेटा सेट, जिसमें मेरे पास निरंतर और श्रेणीबद्ध चर हैं। यहां, हमारे पास "गुणवत्ता" चर है, 1 से 10 तक, और बिक्री मूल्य। मैं डेटा को "निम्न", "मध्यम" और "उच्च" गुणवत्ता वाले घरों में (मनमाने ढंग से) गुणवत्ता के लिए कटऑफ बनाकर अलग कर सकता हूं। फिर, इन समूहों का उपयोग करते हुए, मैं एक दूसरे के खिलाफ बिक्री मूल्य के हिस्टोग्राम को प्लॉट कर सकता हूं। इस तरह:
यहां, " गुणवत्ता" स्कोर पर "निम्न" , और "उच्च" । अब हमारे पास तीन समूहों में से प्रत्येक के लिए बिक्री मूल्य का वितरण है। यह स्पष्ट है कि मध्यम और उच्च गुणवत्ता वाले घरों के लिए स्थान के केंद्र में अंतर है। अब, यह सब करने के बाद, मुझे लगता है कि "हम्म। स्थान के केंद्र में अंतर प्रतीत होता है! मैं साधनों पर टी-टेस्ट क्यों नहीं करता?"। फिर, मुझे एक पी-मान मिलता है जो शून्य परिकल्पना को सही ढंग से अस्वीकार करने के लिए प्रकट होता है कि साधनों में कोई अंतर नहीं है।
अब, मान लीजिए कि इस परिकल्पना के परीक्षण के लिए मेरे पास कुछ भी नहीं था जब तक कि मैंने डेटा को प्लॉट नहीं किया।
क्या यह डेटा ड्रेजिंग है?
क्या यह अभी भी डेटा ड्रेजिंग है अगर मैंने सोचा: "एचएम, मैंने उच्च गुणवत्ता वाले घरों की कीमत अधिक लगाई है, क्योंकि मैं एक ऐसा इंसान हूं जो पहले एक घर में रह चुका है। मैं डेटा को प्लॉट करने जा रहा हूं। आह हा! अलग लग रहा है! समय टी-टेस्ट करने के लिए! "
स्वाभाविक रूप से, यह डेटा-ड्रेजिंग नहीं है यदि डेटा सेट को गेट-गो से इस परिकल्पना का परीक्षण करने के उद्देश्य से एकत्र किया गया था। लेकिन अक्सर किसी को हमें दिए गए डेटा सेट के साथ काम करना पड़ता है, और "पैटर्न की तलाश" करने के लिए कहा जाता है। कोई व्यक्ति इस अस्पष्ट कार्य को ध्यान में रखते हुए डेटा ड्रेजिंग से कैसे बचता है? डेटा के परीक्षण के लिए सेट आउट बनाएं? क्या विज़ुअलाइज़ेशन डेटा द्वारा सुझाई गई परिकल्पना का परीक्षण करने के अवसर के लिए स्नूपिंग के रूप में "गिनती" करता है?