प्रत्येक सांख्यिकीविद् को क्या सिद्धांत जानना चाहिए?


30

मैं यह बहुत ही बुनियादी, न्यूनतम आवश्यकताओं के परिप्रेक्ष्य से सोच रहा हूं। एक उद्योग के लिए प्रमुख सिद्धांत क्या हैं (अकादमिक नहीं) सांख्यिकीविद को नियमित आधार पर जानना, समझना और उसका उपयोग करना चाहिए?

एक बड़ा जो दिमाग में आता है वह है बड़ी संख्या का कानून । डेटा विश्लेषण के लिए सांख्यिकीय सिद्धांत लागू करने के लिए सबसे आवश्यक क्या हैं?

जवाबों:


41

सच कहूँ तो, मुझे नहीं लगता कि बड़ी संख्या के कानून की उद्योग में बहुत बड़ी भूमिका है। यह सामान्य प्रक्रियाओं के स्पर्शोन्मुख औचित्य को समझने में मददगार है, जैसे कि अधिकतम संभावना अनुमान और परीक्षण (विशेष रूप से सर्वव्यापी GLM और लॉजिस्टिक प्रतिगमन सहित), बूटस्ट्रैप, लेकिन ये खराब नमूना मुद्दों को मारने की संभावना के बजाय वितरण संबंधी समस्याएं हैं। ।

पहले से बताए गए विषयों (जीएलएम, इंट्रेंस, बूटस्ट्रैप) से परे, सबसे आम सांख्यिकीय मॉडल रैखिक प्रतिगमन है, इसलिए रैखिक मॉडल की पूरी समझ होना आवश्यक है। आप अपने उद्योग जीवन में एनोवा को कभी नहीं चला सकते हैं, लेकिन यदि आप इसे नहीं समझते हैं, तो आपको सांख्यिकीविद् नहीं कहा जाना चाहिए।

विभिन्न प्रकार के उद्योग हैं। फार्मा में, आप यादृच्छिक परीक्षण और लॉजिस्टिक प्रतिगमन के बिना जीवन नहीं बना सकते हैं। सर्वेक्षण के आँकड़ों में, आप हॉर्विट्ज़-थॉम्पसन अनुमानक और गैर-प्रतिक्रिया समायोजन के बिना जीवन नहीं बना सकते। कंप्यूटर विज्ञान से संबंधित आँकड़ों में, आप सांख्यिकीय शिक्षा और डेटा खनन के बिना जीवन नहीं बना सकते। सार्वजनिक नीति में टैंक (और, तेजी से, शिक्षा के आँकड़े), आप बिना कारण और उपचार प्रभाव के अनुमानकों के बिना जीवन नहीं बना सकते (जो, तेजी से, यादृच्छिक परीक्षणों को शामिल करते हैं)। विपणन अनुसंधान में, आपको साइकोमेट्रिक माप सिद्धांत के साथ अर्थशास्त्र की पृष्ठभूमि का मिश्रण करने की आवश्यकता है (और आप एक विशिष्ट सांख्यिकी विभाग प्रसाद में उनमें से कोई भी नहीं सीख सकते हैं)। औद्योगिक आँकड़े अपने स्वयं के अजीबोगरीब छह सिग्मा प्रतिमानों के साथ संचालित होते हैं जो मुख्यधारा के आँकड़ों से दूर से जुड़े होते हैं; प्रयोगों सामग्री के डिजाइन में एक मजबूत बंधन पाया जा सकता है। वॉल स्ट्रीट सामग्री वित्तीय अर्थमिति होगी, जो स्टोचस्टिक कैलकुलस तक सभी तरह की होगी। ये बहुत कम कौशल हैं, और "उद्योग" शब्द "अकादमिक" की तुलना में अधिक खराब रूप से परिभाषित है। मुझे नहीं लगता कि कोई भी एक ही समय में उपरोक्त में से दो या तीन से अधिक जानने का दावा कर सकता है।

हालांकि, शीर्ष कौशल, जिसे "उद्योग" में सार्वभौमिक रूप से आवश्यक होगा (जो भी आपके लिए इसका मतलब हो सकता है) समय प्रबंधन, परियोजना प्रबंधन और कम सांख्यिकीय-प्रेमी ग्राहकों के साथ संचार होगा। इसलिए यदि आप खुद को उद्योग लगाने के लिए तैयार करना चाहते हैं, तो इन विषयों पर बिजनेस स्कूल में कक्षाएं लें।

अद्यतन: मूल पोस्ट फरवरी 2012 में लिखा गया था; इन दिनों (मार्च 2014), आपको शायद खुद को उद्योग में एक गर्म नौकरी खोजने के लिए "एक सांख्यिकीविद्" के बजाय "एक डेटा वैज्ञानिक" कहना चाहिए ... और उस आत्म-घोषणा के साथ पालन करने के लिए कुछ Hadoop सीखना बेहतर होगा।


1
बहुत बढ़िया जवाब। उद्योग के भीतर सांख्यिकीविदों के बीच कुछ बड़े अंतरों को उजागर करने के लिए धन्यवाद। यह मेरे प्रश्न को प्रेरित करने में मदद करता है क्योंकि मेरा मानना ​​है कि बहुत से लोगों का एक अलग विचार है कि एक सांख्यिकीविद् / क्या करता है। मुझे लगता है कि मैं यह पता लगाने की कोशिश कर रहा था कि ये सभी एक बुनियादी समझ से अलग कहां हैं। इसके अलावा, मैं वास्तव में व्यावसायिक विषयों के बारे में आपके अंतिम पैराग्राफ की सराहना करता हूं और वे कितने आवश्यक हैं। महान बिंदु लेकिन मैं अभी भी देखना चाहूंगा कि क्या कोई भी स्वीकार करने से पहले बातचीत में जोड़ सकता है।
bnjmn

मैं इन "अजीब छह सिग्मा प्रतिमानों" से हैरान हूं, "आप मुख्य रूप से मुख्यधारा के सांख्यिकी से जुड़े हुए हैं" जिसके साथ आप कहते हैं कि औद्योगिक सांख्यिकी संचालित होती है। यह मुझे पूरी तरह से रूढ़िवादी लगता है, इन सभी उप-क्षेत्रों के बीच पाए जाने वाले शब्दावली में अंतर को अलग करता है।
Scortchi - को पुनः स्थापित मोनिका

4
10-9

पर्याप्त रूप से: मैंने कहा है कि माप प्रणाली विश्लेषण (अंतर-रेटर समझौता, गेज प्रजनन और पुनरावृत्ति अध्ययन), सांख्यिकीय प्रक्रिया नियंत्रण, विश्वसनीयता विश्लेषण (उर्फ उत्तरजीविता विश्लेषण), और प्रायोगिक डिजाइन ((आंशिक) तथ्यात्मक डिजाइन, प्रतिक्रिया-सतह कार्यप्रणाली) ) औद्योगिक आँकड़ों की विशेषता थी।
Scortchi - को पुनः स्थापित मोनिका

12

मुझे लगता है कि पूर्वाग्रह-विचरण व्यापार से संबंधित मुद्दों की अच्छी समझ है । अधिकांश सांख्यिकीविद किसी बिंदु पर, एक डेटासेट का विश्लेषण करेंगे जो एक अनुमानक के विचरण या मॉडल के मापदंडों के पर्याप्त रूप से छोटा होने के लिए पर्याप्त है कि पूर्वाग्रह एक माध्यमिक विचार है।


11

सुपर स्पष्ट एक को इंगित करने के लिए:

केंद्रीय सीमा प्रमेय

पीपी

बूटस्ट्रैपिंग


8

मैं यह नहीं कहूंगा कि यह बहुत बड़ी संख्या या केंद्रीय सीमा प्रमेय के कानून के समान है, लेकिन क्योंकि कार्य-कारण के बारे में अनुमान लगाना अक्सर केंद्रीय होता है, यहूदिया पर्ल के काम को मॉडल के कारण संरचित ग्राफ़ का उपयोग करने से समझना कुछ ऐसे लोगों से परिचित होना चाहिए। साथ में। यह समझने का एक तरीका प्रदान करता है कि प्रयोगात्मक और अवलोकन संबंधी अध्ययन उनके द्वारा किए गए कारण के संदर्भ में भिन्न होते हैं, और अवलोकन डेटा से निपटने के तरीके प्रदान करते हैं। एक अच्छे अवलोकन के लिए, उनकी पुस्तक यहाँ है


2
रुबिन के काउंटरफैक्टुअल फ्रेमवर्क भी हैं; वहाँ भी संरचनात्मक समीकरण मॉडलिंग और अर्थमितीय वाद्य चर तकनीक हैं ... जिनमें से कुछ का वर्णन सबसे अधिक हानिरहित अर्थमिति में किया गया है जो गैर सांख्यिकीविदों द्वारा लिखी गई सर्वश्रेष्ठ सांख्यिकी पुस्तकों में से हैं।
StasK

7

संबोधित की जाने वाली समस्या की ठोस समझ किसी विशेष सांख्यिकीय दृष्टिकोण के रूप में महत्वपूर्ण है। उद्योग में एक अच्छा वैज्ञानिक एक सांख्यिकीविद् की तुलना में इस तरह की जानकारी के बिना उनकी समस्या का उचित समाधान करने की अधिक संभावना है। मूल ज्ञान के साथ एक सांख्यिकीविद मदद कर सकता है।


6

डेल्टा-विधि, विचित्र आँकड़ों के विचरण की गणना कैसे करें और चर के परिवर्तनों की सिफारिश करने और "सही बात का अनुमान लगाने" द्वारा दक्षता बढ़ाने की व्याख्या करने के लिए उनकी असममित सापेक्ष दक्षता पाएं। उस के साथ संयोजन के रूप में, जेएनएन की विषमता जीएलएम और अजीब प्रकार के पूर्वाग्रह को समझने के लिए जो ऊपर की तरह परिवर्तनों में उत्पन्न होती है। और, अब जब पूर्वाग्रह और भिन्नता का उल्लेख किया जाता है, पूर्वाग्रह-व्यापार और ऑफ-एमएसई की अवधारणा भविष्य कहनेवाला सटीकता के उद्देश्य माप के रूप में।


6

मेरे विचार में, एक चिकित्सक के लिए सांख्यिकीय निष्कर्ष सबसे महत्वपूर्ण है। अनुमान के दो भाग हैं: 1) अनुमान और 2) परिकल्पना परीक्षण। परिकल्पना परीक्षण महत्वपूर्ण है। चूंकि अनुमान में ज्यादातर एक अनूठी प्रक्रिया है, अधिकतम संभावना का अनुमान, पीछा किया गया और यह सबसे सांख्यिकीय पैकेज उपलब्ध है (इसलिए कोई भ्रम नहीं है)।

बार-बार अभ्यास करने वाले प्रश्न अंतर या कारण विश्लेषण के महत्वपूर्ण परीक्षण के आसपास होते हैं। महत्वपूर्ण परिकल्पना परीक्षण इस लिंक में मिल सकते हैं ।

रैखिक मॉडल के बारे में जानना, जीएलएम या सामान्य सांख्यिकीय मॉडलिंग में कारण व्याख्या के लिए आवश्यक है। मुझे लगता है कि डेटा विश्लेषण के भविष्य में बायेसियन इंट्रेंस शामिल हैं।


0

आकस्मिक आक्षेप करना होगा। और यह कैसे मौलिक समस्या है, इस पर ध्यान दें, आप समय पर वापस नहीं जा सकते हैं और न ही किसी को उपचार दे सकते हैं। माणिक, फिशर, आधुनिक सांख्यिकी छात्र के संस्थापक के बारे में लेख पढ़ें।) .... इस समस्या का समाधान करने के लिए क्या सीखें, उचित यादृच्छिककरण और बड़ी संख्या के कानून कैसे कहते हैं कि चीजें ठीक से यादृच्छिक हैं, परिकल्पना परीक्षण, संभावित परिणाम (विषमलैंगिकता के विरुद्ध धारण) और लापता होने के साथ महान है), मिलान (लापता होने के लिए महान है लेकिन संभावित परिणाम बेहतर है क्योंकि यह अधिक सामान्यीकृत है, मेरा मतलब है कि जटिल चीजों का एक टन क्यों सीखें जब आप केवल एक जटिल चीज सीख सकते हैं), बूटस्ट्रैप, कोर्स के बायेसियन आँकड़े (बायेसियन प्रतिगमन) , भोले बायेसियन रिग्रेशन, बायेसियन कारक), और नॉन पैमेट्रिक विकल्प।

आम तौर पर व्यवहार में इन सामान्य चरणों का पालन करें,

पिछली टिप्पणी के संबंध में, आपको पहले एक एनोवा (यादृच्छिक प्रभाव या निश्चित प्रभाव, और निरंतर प्रकारों को डिब्बे में बदलना) से शुरू करना चाहिए, फिर एक प्रतिगमन का उपयोग करें (यदि आप बदलते हैं और बदल सकते हैं तो कभी-कभी एनोवा के रूप में अच्छा हो सकता है, लेकिन कभी नहीं) यह देखने के लिए कि कौन से विशिष्ट उपचार महत्वपूर्ण हैं, (कई टी परीक्षण करने और होल्म मेथिड जैसे कुछ सुधार का उपयोग करने के लिए एप्लाइड) एक प्रतिगमन का उपयोग करते हैं।

उन मामलों में जहां आपको चीजों की भविष्यवाणी करनी होती है, वे बेयसियन रिग्रेशन का उपयोग करते हैं।

5% से अधिक की अनुपलब्धता संभावित परिणामों का उपयोग करती है

डेटा एनालिटिक्स की एक और शाखा मशीन लर्निंग की देखरेख है जिसका उल्लेख किया जाना चाहिए

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.