अच्छे जवाब पहले ही सामने आ चुके हैं। इसलिए मैं सिर्फ व्यक्तिगत अनुभव के आधार पर कुछ विचार साझा करूंगा: प्रासंगिक लोगों को आवश्यकतानुसार अपनी स्थिति में ढालें।
के लिए पृष्ठभूमि और संदर्भ-तो आप इस संदेश में रेंगने वाले किसी भी व्यक्तिगत पूर्वाग्रह के लिए जिम्मेदार हो सकते हैं - मेरा बहुत काम अपेक्षाकृत छोटे डेटासेट पर आधारित महत्वपूर्ण निर्णय लेने में लोगों की मदद करने में रहा है। वे छोटे हैं क्योंकि डेटा इकट्ठा करना महंगा हो सकता है (अच्छी तरह से भूजल निगरानी के पहले नमूने के लिए 10K डॉलर, उदाहरण के लिए, या असामान्य रसायनों के विश्लेषण के लिए कई हजार डॉलर)। मैं किसी भी डेटा से जितना संभव हो उतना बाहर निकलने के लिए, उन्हें मौत की खोज करने के लिए, और यदि आवश्यक हो तो विश्लेषण करने के लिए नए तरीकों का आविष्कार करने के लिए उपयोग किया जाता हूं। हालाँकि, पिछले कुछ वर्षों में मैं कुछ काफी बड़े डेटाबेस पर काम करने के लिए लगा हुआ हूं, जैसे कि सामाजिक आर्थिक और इंजीनियरिंग डेटा में से एक जनगणना ब्लॉक स्तर पर पूरे अमेरिका को कवर करता है (8.5 मिलियन रिकॉर्ड,
बहुत बड़े डेटासेट के साथ संपूर्ण दृष्टिकोण और मानसिकता बदल जाती है । अब विश्लेषण करने के लिए बहुत अधिक डेटा हैं। कुछ तत्काल (और, पूर्वव्यापी में) स्पष्ट प्रभाव (प्रतिगमन मॉडलिंग पर जोर देने के साथ) शामिल हैं
आपके द्वारा किए जाने वाले किसी भी विश्लेषण में बहुत समय और गणना हो सकती है। आपको संपूर्ण डेटासेट के साथ गणना करते समय, आंशिक डेटासेट पर काम करने और आंशिक डेटासेट विकसित करने की आवश्यकता होगी । (सदस्यता को जटिल किया जा सकता है, क्योंकि आपको उस डेटा के प्रतिनिधि उपसमुच्चय की आवश्यकता होती है जो संपूर्ण डेटासेट की तरह समृद्ध हो। और आयोजित किए गए डेटा के साथ अपने मॉडल को क्रॉस-मान्य करने के बारे में मत भूलना ।)
इस वजह से, आप जो कुछ भी करते हैं उस पर दस्तावेजीकरण करने में अधिक समय व्यतीत करते हैं और हर चीज की स्क्रिप्टिंग करते हैं (ताकि इसे दोहराया जा सके)।
जैसा कि @dsimcha ने अभी उल्लेख किया है, अच्छे प्रोग्रामिंग कौशल उपयोगी हैं। वास्तव में, आपको प्रोग्रामिंग वातावरण के साथ अनुभव के रास्ते में बहुत ज़रूरत नहीं है, लेकिन आपको प्रोग्राम करने की इच्छा, पहचानने की क्षमता की आवश्यकता है जब प्रोग्रामिंग मदद करेगा (बस हर कदम के बारे में, वास्तव में) और बुनियादी तत्वों की एक अच्छी समझ कंप्यूटर विज्ञान, जैसे कि उपयुक्त डेटा संरचनाओं का डिज़ाइन और एल्गोरिदम की कम्प्यूटेशनल जटिलता का विश्लेषण कैसे करें। अग्रिम में यह जानने के लिए उपयोगी है कि क्या आप जिस कोड को लिखने की योजना बना रहे हैं, वह पूर्ण डेटासेट तक ले जाएगा।
कुछ डेटासेट बड़े होते हैं क्योंकि उनके कई चर (हजारों या दसियों हज़ारों, सभी अलग-अलग होते हैं) होते हैं। डेटा को संक्षेप में समझने और समझने में बहुत समय बिताने की अपेक्षा करें । एक कोडबुक या डेटा शब्दकोश , और मेटाडेटा के अन्य रूप , आवश्यक हो जाते हैं।
आपका अधिकांश समय बस डेटा को इधर-उधर घूमने और उन्हें सुधारने में व्यतीत होता है। आपको बड़े डेटाबेस को संसाधित करने और बड़ी मात्रा में डेटा को सारांशित और रेखांकन के साथ कौशल की आवश्यकता होती है। ( टफ्टे के स्मॉल मल्टीपल यहां सामने आए हैं।)
आपके कुछ पसंदीदा सॉफ्टवेयर टूल विफल हो जाएंगे। उदाहरण के लिए स्प्रेडशीट को भूल जाइए। बहुत सारे ओपन सोर्स और अकादमिक सॉफ्टवेयर सिर्फ बड़े डेटासेट को संभालने के लिए नहीं होंगे: प्रोसेसिंग हमेशा के लिए हो जाएगी या सॉफ्टवेयर क्रैश हो जाएगा। यह अपेक्षा करें और सुनिश्चित करें कि आपके पास अपने प्रमुख कार्यों को पूरा करने के कई तरीके हैं।
आपके द्वारा चलाए जाने वाले लगभग कोई भी सांख्यिकीय परीक्षण इतना शक्तिशाली होगा कि "महत्वपूर्ण" प्रभाव की पहचान करना लगभग सुनिश्चित हो जाएगा। आपको महत्व के बजाय सांख्यिकीय महत्व , जैसे प्रभाव आकार, पर अधिक ध्यान केंद्रित करना होगा ।
इसी तरह, मॉडल का चयन परेशानी भरा है क्योंकि लगभग किसी भी चर और किसी भी इंटरैक्शन पर जो आपको लगता है कि महत्वपूर्ण हो सकता है। आपको उन चरों की सार्थकता पर अधिक ध्यान केंद्रित करना होगा जिन्हें आप विश्लेषण करने के लिए चुनते हैं।
चर के उपयुक्त अरेखीय परिवर्तनों की पहचान करने के लिए पर्याप्त जानकारी से अधिक होगा । जानिए ऐसा कैसे करना है।
आपके पास नॉनलाइन रिलेशनशिप, ट्रेंड में बदलाव, गैरबराबरी, विषमलैंगिकता आदि का पता लगाने के लिए पर्याप्त डेटा होगा ।
आप कभी भी समाप्त नहीं होंगे । बहुत सारे डेटा हैं जो आप उन्हें हमेशा के लिए अध्ययन कर सकते हैं। इसलिए, यह महत्वपूर्ण है कि आप अपने विश्लेषणात्मक उद्देश्यों की शुरुआत करें और उन्हें लगातार ध्यान में रखें।
मैं एक छोटे उपाख्यान के साथ समाप्त होता हूं जो छोटे के मुकाबले बड़े डेटासेट के साथ प्रतिगमन मॉडलिंग के बीच एक अप्रत्याशित अंतर को दिखाता है। उस परियोजना के अंत में जनगणना के आंकड़ों के साथ, एक प्रतिगमन मॉडल जिसे मैंने विकसित किया था, ग्राहक के कंप्यूटिंग सिस्टम में लागू करने की आवश्यकता थी, जिसका अर्थ था रिलेशनल डेटाबेस में SQL कोड लिखना। यह एक नियमित कदम है लेकिन डेटाबेस प्रोग्रामर द्वारा उत्पन्न कोड में SQL की हजारों लाइनें शामिल हैं। इससे यह गारंटी देना लगभग असंभव हो गया था कि यह बग मुक्त था - हालांकि हम बग का पता लगा सकते हैं (यह परीक्षण डेटा पर अलग-अलग परिणाम देता है), उन्हें ढूंढना एक और बात थी। (आप सभी की जरूरत है एक गुणांक में एक टाइपोग्राफिक त्रुटि है ...) समाधान का हिस्सा एक प्रोग्राम लिखना था जो मॉडल अनुमानों से सीधे SQL कमांड उत्पन्न करता था। इसने आश्वस्त किया कि आँकड़ों के पैकेज से जो निकला वही आरडीबीएमएस में चला गया। एक बोनस के रूप में, इस स्क्रिप्ट को लिखने में बिताए गए कुछ घंटों ने संभवतः कई हफ्तों के SQL कोडिंग और परीक्षण को बदल दिया। यह एक छोटा सा हिस्सा है, जिसका अर्थ है कि सांख्यिकीविद् अपने परिणामों को संप्रेषित करने में सक्षम होते हैं।