डेटा माइनिंग की तरह सांख्यिकी में, आप डेटा और एक लक्ष्य के साथ शुरू करते हैं। आँकड़ों में बहुत हद तक ध्यान केंद्रित किया जाता है, अर्थात्, एक नमूना का उपयोग करके जनसंख्या-स्तर के सवालों का जवाब देना। डेटा माइनिंग में फोकस आमतौर पर भविष्यवाणी है: आप परीक्षण डेटा की भविष्यवाणी करने के लिए अपने नमूने (प्रशिक्षण डेटा) से एक मॉडल बनाते हैं।
आंकड़ों में प्रक्रिया तब है:
सारांश और ग्राफ़ का उपयोग करके डेटा का अन्वेषण करें - डेटा-संचालित सांख्यिकीविद् के आधार पर, कुछ अधिक खुले दिमाग वाले होंगे, सभी कोणों से डेटा को देखते हुए, जबकि अन्य (विशेषकर सामाजिक वैज्ञानिक) लेंस के माध्यम से डेटा को देखेंगे ब्याज का सवाल (उदाहरण के लिए, विशेष रूप से ब्याज के चर और अन्य नहीं)
एक उपयुक्त सांख्यिकीय मॉडल परिवार चुनें (उदाहरण के लिए, निरंतर Y के लिए रैखिक प्रतिगमन, बाइनरी Y के लिए लॉजिस्टिक प्रतिगमन, या डेटा की गणना के लिए पॉइसन), और मॉडल चयन करें
अंतिम मॉडल का अनुमान लगाएं
यह सुनिश्चित करने के लिए कि वे उचित रूप से मिले हुए हैं, मॉडल मॉडल की परीक्षाएं (डेटा माइनिंग में पूर्वानुमेय सटीकता के लिए परीक्षण से अलग)
अनुमान के लिए मॉडल का उपयोग करें - यह मुख्य कदम है जो डेटा माइनिंग से अलग है। शब्द "पी-मूल्य" यहां आता है ...
किसी भी मूल आँकड़े पाठ्यपुस्तक पर एक नज़र डालें और आपको कुछ वितरणों के बाद खोजपूर्ण डेटा विश्लेषण पर एक अध्याय मिलेगा (जो उचित अनुमान मॉडल का चयन करने में मदद करेगा), फिर अनुमान (आत्मविश्वास अंतराल और परिकल्पना परीक्षण) और प्रतिगमन मॉडल।
मैंने आपको क्लासिक सांख्यिकीय प्रक्रिया का वर्णन किया है। हालाँकि, मेरे पास इसके कई मुद्दे हैं। अनुमान पर ध्यान पूरी तरह से क्षेत्रों पर हावी हो गया है, जबकि भविष्यवाणी (जो अत्यंत महत्वपूर्ण और उपयोगी है) लगभग उपेक्षित रही है। इसके अलावा, यदि आप देखते हैं कि सामाजिक वैज्ञानिक किस तरह से अनुमान लगाने के लिए आँकड़ों का उपयोग करते हैं, तो आप पाएंगे कि वे इसका उपयोग बहुत अलग तरीके से करते हैं! आप इसके बारे में अधिक जानकारी यहां देख सकते हैं