सांख्यिकीय मॉडलिंग के साथ आरंभ करने के लिए टिप्स और ट्रिक्स?


10

मैं डेटा माइनिंग के क्षेत्र में काम करता हूं और आंकड़ों में बहुत कम औपचारिक स्कूली शिक्षा मिली है। हाल ही में मैंने बहुत से काम पढ़े हैं जो सीखने और खनन के लिए बायेसियन प्रतिमानों पर केंद्रित हैं, जो मुझे बहुत दिलचस्प लगते हैं।

मेरा सवाल है (कई हिस्सों में), एक समस्या यह है कि क्या एक सामान्य ढांचा है जिसके द्वारा एक सांख्यिकीय मॉडल का निर्माण संभव है? जब आप एक अंतर्निहित प्रक्रिया को मॉडल करना चाहते हैं, तो एक डेटासेट को दिए जाने के दौरान आप क्या करते हैं? क्या वहाँ अच्छी किताबें / ट्यूटोरियल हैं जो इस प्रक्रिया को समझाते हैं या यह अनुभव का विषय है? अपने मॉडल का निर्माण करते समय आपके दिमाग में सबसे आगे है या क्या आप पहली बार डेटा का वर्णन करना चाहते हैं, इससे पहले कि आप इसका उपयोग करें कि यह कैसे गणना करें?

किसी भी जानकारी की काफी सराहना की जाएगी! धन्यवाद।


4
हाय निक - CV में आपका स्वागत है। आपका प्रश्न बहुत व्यापक है; यदि आपके पास छोटे प्रश्नों में टूट गए (और एक बार जब आप ऐसा कर लेंगे, तो आपको अच्छे उत्तर मिलने में बेहतर किस्मत मिल सकती है, आप पा सकते हैं कि उनमें से कुछ का जवाब पहले ही यहाँ दिया जा चुका है)। कम से कम, हालांकि, आपको अपने प्रश्न को "समुदाय विकि" के रूप में चिह्नित करना चाहिए। मूल रूप से इसका मतलब है कि यहां सामान्य प्रतिस्पर्धा-उत्तर प्रारूप के बजाय, सभी उत्तर के रूप में सभी को उत्तर माना जाएगा।
मैट पार्कर

1
@ मैट सीडब्ल्यू चेक बॉक्स अब एक प्रश्न के लिए प्रकट नहीं होता है। एक मॉड को आवश्यकतानुसार सीडब्ल्यू के रूप में एक प्रश्न चिह्नित करना होगा।

@ निक..मैं भी नया हूँ। मुझे लगता है कि एक सामान्य बात और सबसे महत्वपूर्ण बात यह है कि एक चीज को रखने की आवश्यकता है कि आप अपने आउटपुट चर का वर्णन कैसे करना चाहते हैं..जिसमें यह निरंतर है, क्या यह द्विआधारी है? क्योंकि दिन के अंत में आप आउटपुट वेरिएबल का अवलोकन / मॉडल करना चाहते हैं। अगली बात मुझे लगता है कि आवश्यक चर को मॉडल करने के तरीके क्या हैं..यह तो तब आएगा कि यदि चर द्विगुणित हो, तो प्रक्रिया लॉगिट मॉडल है..अगले विचार तब डेटा होगा, इसकी नाइटी किरकिरा और विभिन्न मुद्दों पर एक का सामना होता है..इसका कोई मतलब नहीं है।
आयुष बियानी

जवाबों:


6

डेटा माइनिंग की तरह सांख्यिकी में, आप डेटा और एक लक्ष्य के साथ शुरू करते हैं। आँकड़ों में बहुत हद तक ध्यान केंद्रित किया जाता है, अर्थात्, एक नमूना का उपयोग करके जनसंख्या-स्तर के सवालों का जवाब देना। डेटा माइनिंग में फोकस आमतौर पर भविष्यवाणी है: आप परीक्षण डेटा की भविष्यवाणी करने के लिए अपने नमूने (प्रशिक्षण डेटा) से एक मॉडल बनाते हैं।

आंकड़ों में प्रक्रिया तब है:

  1. सारांश और ग्राफ़ का उपयोग करके डेटा का अन्वेषण करें - डेटा-संचालित सांख्यिकीविद् के आधार पर, कुछ अधिक खुले दिमाग वाले होंगे, सभी कोणों से डेटा को देखते हुए, जबकि अन्य (विशेषकर सामाजिक वैज्ञानिक) लेंस के माध्यम से डेटा को देखेंगे ब्याज का सवाल (उदाहरण के लिए, विशेष रूप से ब्याज के चर और अन्य नहीं)

    1. एक उपयुक्त सांख्यिकीय मॉडल परिवार चुनें (उदाहरण के लिए, निरंतर Y के लिए रैखिक प्रतिगमन, बाइनरी Y के लिए लॉजिस्टिक प्रतिगमन, या डेटा की गणना के लिए पॉइसन), और मॉडल चयन करें

    2. अंतिम मॉडल का अनुमान लगाएं

    3. यह सुनिश्चित करने के लिए कि वे उचित रूप से मिले हुए हैं, मॉडल मॉडल की परीक्षाएं (डेटा माइनिंग में पूर्वानुमेय सटीकता के लिए परीक्षण से अलग)

    4. अनुमान के लिए मॉडल का उपयोग करें - यह मुख्य कदम है जो डेटा माइनिंग से अलग है। शब्द "पी-मूल्य" यहां आता है ...

किसी भी मूल आँकड़े पाठ्यपुस्तक पर एक नज़र डालें और आपको कुछ वितरणों के बाद खोजपूर्ण डेटा विश्लेषण पर एक अध्याय मिलेगा (जो उचित अनुमान मॉडल का चयन करने में मदद करेगा), फिर अनुमान (आत्मविश्वास अंतराल और परिकल्पना परीक्षण) और प्रतिगमन मॉडल।

मैंने आपको क्लासिक सांख्यिकीय प्रक्रिया का वर्णन किया है। हालाँकि, मेरे पास इसके कई मुद्दे हैं। अनुमान पर ध्यान पूरी तरह से क्षेत्रों पर हावी हो गया है, जबकि भविष्यवाणी (जो अत्यंत महत्वपूर्ण और उपयोगी है) लगभग उपेक्षित रही है। इसके अलावा, यदि आप देखते हैं कि सामाजिक वैज्ञानिक किस तरह से अनुमान लगाने के लिए आँकड़ों का उपयोग करते हैं, तो आप पाएंगे कि वे इसका उपयोग बहुत अलग तरीके से करते हैं! आप इसके बारे में अधिक जानकारी यहां देख सकते हैं


2

हस्ती, टिब्शिरानी और फ्रीडमैन की किताबों में "द एलिमेंट्स ऑफ स्टैटिस्टिकल लर्निंग" बहुत अच्छी है।

पूर्ण पुस्तक लेखकों की वेब साइट पर उपलब्ध है ; आप यह देखना चाहते हैं कि यह आपकी आवश्यकताओं के लिए उपयुक्त है या नहीं।


2

(ऑन-लाइन) संदर्भों के लिए, मैं सांख्यिकीय डेटा खनन पर एंड्रयू मूर के ट्यूटोरियल स्लाइड्स को देखने की सलाह दूंगा

डेटा माइनिंग और मशीन लर्निंग पर कई पाठ्यपुस्तकें हैं; शायद एक अच्छा प्रारंभिक बिंदु है हैंड माइनिंग अल। द्वारा, और अल्पाइन द्वारा मशीन लर्निंग का परिचय , डाटा माइनिंग का सिद्धांत है


हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.