क्या "सामान्य वितरण" का मतलब = मध्य = मोड होना चाहिए?


17

मैं "सामान्य वितरण" के बारे में अपने स्नातक-स्तरीय सांख्यिकी प्रोफेसर के साथ एक बहस में रहा हूं। मेरा तर्क है कि वास्तव में एक सामान्य वितरण प्राप्त करने के लिए एक का मतलब होना चाहिए = माध्य = मोड, सभी डेटा को घंटी वक्र के नीचे और पूरी तरह सममित रूप से समाहित होना चाहिए। इसलिए, तकनीकी रूप से, वास्तविक अध्ययनों में लगभग कोई सामान्य वितरण नहीं हैं, और हमें उन्हें कुछ और कहना चाहिए, शायद "निकट-सामान्य"।

वह कहती है कि मैं बहुत चुस्त हूं, और अगर तिरछा / कुर्तोसिस 1.0 से कम है तो यह एक सामान्य वितरण है और एक परीक्षा में अंक ले लिया है। डेटासेट 52 नर्सिंग होम के यादृच्छिक नमूने में गिरावट / वर्ष की कुल संख्या है जो एक बड़ी आबादी का यादृच्छिक नमूना है। कोई अंतर्दृष्टि?

मुसीबत:

प्रश्न: 3. इस डेटा के लिए तिरछापन और कुर्तोसिस के कम्प्यूटरीकृत उपाय। एक सामान्य वक्र के साथ एक हिस्टोग्राम शामिल करें। अपने निष्कर्षों पर चर्चा करें। क्या डेटा सामान्य रूप से वितरित किया जाता है?

Statistics 
Number of falls  
N  Valid    52
   Missing   0
Mean        11.23
Median      11.50
Mode         4a

ए। कई मोड मौजूद हैं। सबसे छोटा मान दिखाया गया है

Number of falls  
N  Valid    52
   Missing   0
Skewness      .114
Std. Error of Skewness    .330
Kurtosis  -.961
Std. Error of Kurtosis    .650

मेरा जवाब:

डेटा प्लैटीक्यूरेटिक है और इसमें केवल थोड़ा सकारात्मक तिरछा है, और यह एक सामान्य वितरण नहीं है क्योंकि माध्य और माध्यिका और मोड समान नहीं हैं और डेटा समान रूप से माध्य के आसपास वितरित नहीं किया गया है। वास्तव में वास्तव में कोई भी डेटा कभी भी पूर्ण सामान्य वितरण नहीं होता है, हालांकि हम बड़े जनसंख्या समूहों में "लगभग सामान्य वितरण" जैसे कि ऊंचाई, वजन, तापमान या वयस्क रिंग फिंगर की लंबाई पर चर्चा कर सकते हैं।

प्रोफेसर का जवाब:

आप सही हैं कि पूरी तरह से सामान्य वितरण नहीं है। लेकिन, हम पूर्णता की तलाश में नहीं हैं। हमें हिस्टोग्राम और केंद्रीय प्रवृत्ति के उपायों के अलावा डेटा को देखने की जरूरत है। वितरण के बारे में आपको तिरछापन और कुर्तोसिस के आंकड़े क्या बताते हैं? क्योंकि वे दोनों -1 और +1 के महत्वपूर्ण मूल्यों के बीच हैं, इस डेटा को सामान्य रूप से वितरित माना जाता है।


3
मैं आपके प्रोफेसर के सटीक शब्द जानना चाहूंगा। सिद्धांत रूप में एक सामान्य वितरण का मतलब है, माध्य और मोड समान (लेकिन ऐसा कई अन्य वितरण करते हैं) और इसमें तिरछा 0 और (तथाकथित अतिरिक्त) कर्टोसिस 0 होता है (और इसलिए कुछ अन्य वितरण करते हैं)। सबसे कम वितरण के साथ (जैसे) मामूली तिरछापन या कुर्तोसिस लगभग सामान्य है। ध्यान दें कि लगभग सभी वास्तविक डेटा सैद्धांतिक menagerie में नामित वितरण के लिए सबसे अच्छे सन्निकटन हैं।
निक कॉक्स

22
मैं @ user2974951 के साथ सहमत नहीं हूँ, हर अच्छे पाठ के साथ कंपनी में मुझे पता है कि मैं यह सोचकर पूरी तरह से खुश हूँ कि सामान्य वितरण में एक माध्य और विधा है। और यह व्यापक रूप से निरंतर वितरण पर लागू होता है, हालांकि मुझे संदेह नहीं है कि पैथोलॉजिकल काउंटर-उदाहरणों की पहचान की जा सकती है।
निक कॉक्स

4
विशिष्ट विवरण के लिए धन्यवाद, जो दोनों पक्षों में योग्यता दिखाता है, लेकिन मैं आप में से किसी को भी ग्रेड नहीं कर रहा हूं। हालांकि, मैं अवधि के समय से ही असंतोष महत्वपूर्ण मानों के रूप में अपने प्रोफेसर द्वारा इस्तेमाल किया, सीमा के रूप में तिरछापन के लिए और कुकुदता नहीं होने के बजाए जो भी खड़ा है अंगूठे का नियम है कि इस्तेमाल किया जा सकता है। क्या आप डेटा के साथ क्या कर रहे हैं पर निर्भर करता है, एक तिरछापन < 1 डेटा और की एक तिरछापन को बदलने के लिए इच्छुक के साथ जाने सकता है > 1 कुकुदता के लिए डेटा छोड़ने के साथ जा सकते हैं वे कर रहे हैं कर रहे हैं, और इसी तरह। ±1<1>1
निक कॉक्स

6
यदि हम गंभीरता से खुद को नाइटपैकिंग की कला को अपनाने देते हैं, तो हमें यह देखना चाहिए कि कोई नकारात्मक गिरावट नहीं है, और यह गिरावट असतत है, इसलिए वितरण डी तथ्य सामान्य नहीं हो सकता है। यह प्रश्न को पहले स्थान पर प्रस्तुत करता है। अधिक गंभीर नोट पर, प्रश्न स्पष्ट रूप से एक मनगढ़ंत उदाहरण है जिसका लक्ष्य अंगूठे के विशिष्ट नियमों की जांच करना है। वास्तव में, हमारे अध्ययन के उद्देश्य के आधार पर, यह सामान्य वितरण मानने के लिए उचित या नहीं हो सकता है। सच में हम कभी नहीं जान पाएंगे, क्योंकि हमारे पास केवल एक नमूना है।
आयोनिस

5
@ user2974951 आपको अपनी पहली टिप्पणी को हटाने पर विचार करना चाहिए, तब, जब आप इससे असहमत हैं। अब तक इसने तीन पाठकों को बेवकूफ बनाया है कि वे इससे सहमत हैं!
whuber

जवाबों:


25

प्रोफेसर के साथ आपकी चर्चा की समस्या शब्दावली में से एक है, एक गलतफहमी है जो एक संभावित उपयोगी विचार को व्यक्त करने के रास्ते में हो रही है। विभिन्न स्थानों पर, आप दोनों त्रुटियां करते हैं।

तो पहली बात यह है कि पता होना जरूरी है कि वितरण क्या है इसके बारे में बहुत स्पष्ट होना चाहिए ।

एक सामान्य वितरण एक विशिष्ट गणितीय वस्तु है, जिसे आप मूल्यों की अनंत आबादी के लिए एक मॉडल के रूप में मान सकते हैं। (कोई परिमित जनसंख्या वास्तव में एक सतत वितरण नहीं हो सकती है।)

संभवतः, यह वितरण क्या करता है (एक बार जब आप मापदंडों को निर्दिष्ट करते हैं) को परिभाषित किया जाता है (एक बीजीय अभिव्यक्ति के माध्यम से) जनसंख्या मानों का अनुपात जो वास्तविक रेखा पर किसी भी दिए गए अंतराल के भीतर होता है। थोड़ा कम शिथिल, यह संभावना को परिभाषित करता है कि किसी भी अंतराल में उस आबादी से एक भी मूल्य झूठ होगा।

एक मनाया नमूना वास्तव में एक सामान्य वितरण नहीं है; यदि कोई मौजूद था, तो एक नमूना एक सामान्य वितरण से तैयार किया जा सकता है। यदि आप नमूने के अनुभवजन्य cdf को देखते हैं, तो यह असतत है। यदि आप इसे (हिस्टोग्राम के रूप में) करते हैं तो नमूने में "आवृत्ति वितरण" होता है, लेकिन वे सामान्य वितरण नहीं होते हैं। वितरण हमें आबादी से यादृच्छिक नमूने के बारे में कुछ चीजें (एक संभाव्य अर्थ में) बता सकता है, और एक नमूना हमें आबादी के बारे में कुछ चीजें भी बता सकता है।

"सामान्य रूप से वितरित नमूना" * जैसे वाक्यांश की एक उचित व्याख्या "सामान्य रूप से वितरित जनसंख्या से एक यादृच्छिक नमूना" है।

* (मैं आमतौर पर इसे स्वयं कहने से बचने की कोशिश करता हूं, उन कारणों के लिए जो यहां स्पष्ट रूप से पर्याप्त रूप से स्पष्ट किए जाते हैं; आमतौर पर मैं खुद को दूसरे प्रकार की अभिव्यक्ति तक सीमित करने का प्रबंधन करता हूं।)

परिभाषित शब्द होने पर (यदि अभी भी थोड़ी शिथिलता है), आइए अब विस्तार से प्रश्न देखें। मैं प्रश्न के विशिष्ट टुकड़ों को संबोधित करूंगा।

सामान्य वितरण का मतलब = मध्य = मोड होना चाहिए

यह निश्चित रूप से सामान्य संभावना वितरण पर एक शर्त है, हालांकि सामान्य वितरण से तैयार किए गए नमूने पर आवश्यकता नहीं है; नमूने असममित हो सकते हैं, माध्यिका से भिन्न हो सकते हैं। [हालांकि, हम यह अंदाजा लगा सकते हैं कि अगर हम वास्तव में एक सामान्य आबादी से नमूना लेकर आए हैं तो हम उनसे कितना अलग हो सकते हैं।

सभी डेटा को घंटी वक्र के नीचे होना चाहिए

मुझे यकीन नहीं है कि इस अर्थ में "निहित" क्या है।

और पूरी तरह से सममित माध्य के आसपास।

नहीं; आप यहां डेटा के बारे में बात कर रहे हैं, और (निश्चित रूप से सममित) सामान्य आबादी से एक नमूना खुद पूरी तरह से सममित नहीं होगा।

इसलिए, तकनीकी रूप से, वास्तविक अध्ययनों में लगभग कोई सामान्य वितरण नहीं हैं,

मैं आपके निष्कर्ष से सहमत हूं लेकिन तर्क सही नहीं है; यह इस तथ्य का परिणाम नहीं है कि डेटा पूरी तरह से सममित (आदि) नहीं हैं; यह तथ्य है कि आबादी खुद पूरी तरह से सामान्य नहीं है

यदि तिरछा / कुर्तोसिस 1.0 से कम है तो यह एक सामान्य वितरण है

अगर उसने ऐसा सिर्फ इस तरह से कहा, तो वह निश्चित रूप से गलत है।

एक नमूना तिरछापन 0 से अधिक के करीब हो सकता है ("कम से कम लेना" का मतलब पूर्ण परिमाण में वास्तविक मूल्य नहीं है), और नमूना अतिरिक्त कुर्तोसिस भी 0 से बहुत करीब हो सकता है (वे भी हो सकता है, चाहे वह संयोग से या निर्माण, संभावित रूप से लगभग शून्य), और फिर भी जिस नमूने से नमूना खींचा गया था, वह आसानी से विशिष्ट गैर-सामान्य हो सकता है।

हम आगे भी जा सकते हैं - भले ही हम जादुई रूप से जानते थे कि जनसंख्या की विषमता और कुरूपता बिल्कुल एक सामान्य बात थी, यह अभी भी खुद को नहीं बताएगा कि जनसंख्या सामान्य थी, और न ही सामान्य के करीब भी कुछ।

डेटासेट 52 नर्सिंग होम के यादृच्छिक नमूने में गिरावट / वर्ष की कुल संख्या है जो एक बड़ी आबादी का यादृच्छिक नमूना है।

गणना का जनसंख्या वितरण कभी भी सामान्य नहीं होता है। गणना असतत और गैर-नकारात्मक हैं, सामान्य वितरण निरंतर और संपूर्ण वास्तविक रेखा पर हैं।

लेकिन हम वास्तव में यहां गलत मुद्दे पर केंद्रित हैं। प्रायिकता मॉडल हैं बस, मॉडल । आइए हम अपने मॉडल को वास्तविक चीज़ के साथ भ्रमित न करें ।

मुद्दा यह नहीं है "क्या डेटा स्वयं सामान्य हैं?" (वे नहीं हो सकते), और न ही "जनसंख्या वह है जिससे डेटा सामान्य रूप से खींचा गया था?" (यह लगभग कभी नहीं होने वाला है)।

चर्चा करने के लिए एक अधिक उपयोगी सवाल यह है कि "अगर मैं जनसंख्या को सामान्य रूप से वितरित करता हूं, तो मेरे अनुमान का कितना बुरा असर पड़ेगा?"

यह भी अच्छी तरह से जवाब देने के लिए एक बहुत कठिन सवाल है, और कुछ सरल निदान पर glancing की तुलना में काफी अधिक काम की आवश्यकता हो सकती है।

आपके द्वारा दिखाए गए नमूने के आँकड़े सामान्यता के साथ विशेष रूप से असंगत नहीं हैं (आप आँकड़ों को इस तरह से देख सकते हैं या "बदतर" बहुत कम नहीं है यदि आपके पास सामान्य आबादी से उस आकार के यादृच्छिक नमूने थे), लेकिन इसका मतलब यह नहीं है कि वास्तविक जनसंख्या जिसमें से नमूना खींचा गया था, किसी विशेष उद्देश्य के लिए सामान्य रूप से स्वचालित रूप से "करीब पर्याप्त" है। उद्देश्य पर विचार करना महत्वपूर्ण होगा (आप कौन से सवालों का जवाब दे रहे हैं), और इसके लिए नियोजित तरीकों की मजबूती, और फिर भी हमें अभी भी यकीन नहीं हो रहा है कि यह "काफी अच्छा" है; कभी-कभी यह आसान नहीं हो सकता है कि एक प्राथमिकता को मानने के लिए हमारे पास क्या अच्छा कारण नहीं है (उदाहरण के लिए समान डेटा सेट के साथ अनुभव के आधार पर)।

यह एक सामान्य वितरण नहीं है

डेटा - यहां तक ​​कि एक सामान्य आबादी से खींचा गया डेटा - कभी भी आबादी के गुण नहीं होते हैं; उन संख्याओं में से आपके पास यह निष्कर्ष निकालने के लिए एक अच्छा आधार नहीं है कि यहाँ जनसंख्या सामान्य नहीं है।

दूसरी ओर न तो हमारे पास यह कहने के लिए कोई ठोस आधार है कि यह सामान्य रूप से "पर्याप्त रूप से करीब" है - हमने इसे सामान्यता मानने का उद्देश्य भी नहीं माना है, इसलिए हम नहीं जानते हैं कि यह किस वितरण सुविधाओं के प्रति संवेदनशील हो सकता है।

उदाहरण के लिए, यदि मेरे पास एक माप के लिए दो नमूने थे जो कि बंधे हुए थे, तो मुझे पता था कि यह बहुत अधिक असतत नहीं होगा (न केवल ज्यादातर कुछ विशिष्ट मान ले रहा है) और यथोचित रूप से सममित के पास, मैं दो-नमूना का उपयोग करने में अपेक्षाकृत खुश हो सकता हूं कुछ गैर-छोटे नमूना आकार में टी-परीक्षण; यह मामूली विचलन से मजबूत है मान्यताओं से (कुछ हद तक मजबूत, इतनी शक्ति-मजबूत नहीं)। उदाहरण के लिए, प्रसार की समानता का परीक्षण करते समय मैं सामान्य रूप से सामान्य मान लेने के बारे में अधिक सतर्क होऊंगा, क्योंकि उस धारणा के तहत सबसे अच्छा परीक्षण धारणा के प्रति काफी संवेदनशील है।

क्योंकि वे दोनों -1 और +1 के महत्वपूर्ण मूल्यों के बीच हैं, इस डेटा को सामान्य रूप से वितरित माना जाता है। "

यदि वास्तव में वह मानदंड है जिसके द्वारा कोई सामान्य वितरण मॉडल का उपयोग करने का निर्णय लेता है, तो यह कभी-कभी आपको काफी खराब विश्लेषण में ले जाएगा।

उन आँकड़ों के मूल्य हमें उस जनसंख्या के बारे में कुछ सुराग देते हैं जिससे नमूना लिया गया था, लेकिन यह बिल्कुल भी नहीं है कि यह सुझाव दिया जाए कि उनका मान किसी भी तरह से विश्लेषण चुनने के लिए एक 'सुरक्षित मार्गदर्शिका' है।


अब इस तरह के एक प्रश्न का एक बेहतर संक्षिप्त संस्करण के साथ अंतर्निहित मुद्दे को संबोधित करने के लिए जैसा कि आपके पास था:

एक मॉडल को चुनने के लिए एक नमूना देखने की पूरी प्रक्रिया समस्याओं से भरा है - ऐसा करने से विश्लेषण के किसी भी बाद के विकल्पों के गुणों को बदल दिया जाता है जो आपने देखा था! एक परिकल्पना परीक्षण के लिए उदाहरण के लिए, आपके महत्व स्तर, पी-मान और शक्ति वे सब हैं जो आप उन्हें चुनने के लिए / गणना नहीं करेंगे , क्योंकि उन गणनाओं का विश्लेषण डेटा पर आधारित नहीं होने के आधार पर किया जाता है।

उदाहरण के लिए देखें, गेलमैन और लोकेन (2014), " साइंटिफिक क्राइसिस इन साइंस ," अमेरिकन साइंटिस्ट , वॉल्यूम 102, नंबर 6, पी 460 (डीओआई: 10.1511 / 2014.111.460) जो इस तरह के डेटा-निर्भर विश्लेषण के साथ मुद्दों पर चर्चा करता है।


हाय पीटर, माफ करना, मैंने वहां आपकी पोस्ट भी नहीं देखी।
Glen_b -Reinstate Monica

इस वार्तालाप को बातचीत में स्थानांतरित कर दिया गया है ।
Glen_b -Reinstate मोनिका

41

आप इस बिंदु को याद कर रहे हैं और शायद "मुश्किल" भी हो रहे हैं, जिसे उद्योग में सराहना नहीं मिल रही है। वह आपको एक खिलौना उदाहरण दिखा रहा है, आपको डेटा सेट की सामान्यता के आकलन में प्रशिक्षित करने के लिए, जो यह कहना है कि क्या डेटा सेट एक सामान्य वितरण से आता है । वितरण क्षणों को देखते हुए सामान्यता की जांच करने का एक तरीका है, जैसे जर्क बेरा परीक्षण इस तरह के मूल्यांकन पर आधारित है।

हां, सामान्य वितरण पूरी तरह से सममित है। हालांकि, यदि आप एक सच्चे सामान्य वितरण से एक नमूना बनाते हैं, तो वह नमूना सबसे अधिक संभावना सममित नहीं होगा। यह वह बिंदु है जो आप पूरी तरह से गायब हैं। इसका परीक्षण आप स्वयं बहुत आसानी से कर सकते हैं। बस गाऊसी वितरण से एक नमूना उत्पन्न करें, और उसके पल की जांच करें। असली वितरण के बावजूद वे पूरी तरह से "सामान्य" नहीं होंगे ।

यहाँ एक मूर्खतापूर्ण पायथन उदाहरण है। मैं 100 यादृच्छिक संख्याओं के 100 नमूने उत्पन्न कर रहा हूं, फिर उनके साधन और मध्यस्थ प्राप्त कर रहा हूं। मैं यह दिखाने के लिए पहला नमूना छापता हूं कि माध्य और माध्य अलग-अलग हैं, फिर माध्य और माध्यिका के बीच के अंतर का हिस्टोग्राम दिखाएं। आप देख सकते हैं कि यह बल्कि संकीर्ण है, लेकिन अंतर मूल रूप से कभी शून्य नहीं है। ध्यान दें, कि नंबर हैं सही मायने में एक सामान्य वितरण से आ

कोड:

import numpy as np
import matplotlib.pyplot as plt

np.random.seed(1)
s = np.random.normal(0, 1, (100,100))
print('sample 0 mean:',np.mean(s[:,0]),'median:',np.median(s[:,0]))

plt.hist(np.mean(s,0)-np.median(s,0))
plt.show()
print('avg mean-median:',np.mean(np.mean(s,0)-np.median(s,0)))

आउटपुट: यहाँ छवि विवरण दर्ज करें

पुनश्च

अब, आपके प्रश्न से उदाहरण को सामान्य माना जाना चाहिए या नहीं यह संदर्भ पर निर्भर करता है। आपके क्लास रूम में जो सिखाया गया था, उसके संदर्भ में आप गलत हैं, क्योंकि आपका प्रोफेसर यह देखना चाहता है कि क्या आपको पता है कि अंगूठे के परीक्षण का नियम जो उसने आपको दिया है, जो कि तिरछा और अतिरिक्त कुर्तोसिस -1 से 1 में होना चाहिए रेंज।

मैंने व्यक्तिगत रूप से अंगूठे के इस विशेष नियम का उपयोग नहीं किया (मैं इसे परीक्षण नहीं कह सकता), और यह भी नहीं पता था कि यह अस्तित्व में है। जाहिर है, कुछ क्षेत्रों में कुछ लोग हालांकि इसका इस्तेमाल करते हैं। यदि आप अपने डेटा सेट के विवरणों को जेबी परीक्षण में प्लग करते हैं, तो यह सामान्यता को खारिज कर देता । इसलिए, यह सुझाव देना गलत नहीं है कि डेटा सेट सामान्य नहीं है, लेकिन आप इस अर्थ में गलत हैं कि आप उस नियम को लागू करने में विफल रहे जो कक्षा में पढ़ाए गए आधार पर आपसे अपेक्षित था।

अगर मैं ऐसा होता तो मैं आपके प्रोफेसर के पास जाता और खुद को समझाता, साथ ही जेबी टेस्ट आउटपुट दिखाता। मैं स्वीकार करता हूं कि उसके परीक्षण के आधार पर मेरा उत्तर गलत था, निश्चित रूप से। यदि आप उसके तर्क के तरीके के साथ बहस करने का प्रयास करते हैं, तो परीक्षण में बिंदु वापस पाने के लिए आपकी संभावना बहुत कम है, क्योंकि आपका तर्क मंझला और साधन और नमूनों के बारे में कमजोर है, यह नमूनों बनाम आबादी की समझ की कमी दर्शाता है। यदि आप अपनी धुन बदलते हैं, तो आपके पास एक मामला होगा।


23
(+1) बिल्कुल सही बात। रैंडम वैरिएबल और उस रैंडम वैरिएबल से अहसास का एक नमूना।
शीआन

15
टी

क्या यह कहना उचित होगा कि यदि आपके नमूने पूरी तरह से सामान्य रूप से वितरित किए गए थे, तो यह कड़े सबूत हैं कि नमूने यादृच्छिक नहीं हैं?
जिम्मीजम्स

@ जिमीजम्स, 4 साल पहले विज्ञान में एक पेपर था जिसमें दावा किया गया था कि एक समलैंगिक कैन्सर के साथ 20 मिनट की बातचीत समलैंगिक लोगों के प्रति आपकी भावनाओं को बदल सकती है। यह पता चला है कि लेखकों ने अपना सर्वेक्षण डेटा बनाया था। वे भी सुस्त थे और पूरी तरह से गाऊसी शोर उत्पन्न, और कहा कि के वे कैसे कर रहे थे पकड़ा - देख Lacour (2014) में अनियमितताएं Broockman एट अल द्वारा
Aksakal

@ अक्षल मुझे यकीन नहीं है कि मैं जो पूछ रहा हूं, बिल्कुल वही है। उस मामले में मुझे लगता है कि उस मामले में तर्क यह था कि वास्तविक डेटा कभी भी पूरी तरह से सामान्य नहीं है। मैं आपके बयान से शुरू कर रहा हूं "हालांकि, यदि आप एक सच्चे सामान्य वितरण से एक नमूना लेते हैं, तो वह नमूना सबसे अधिक संभावना पूरी तरह सममित नहीं होगा।" यदि मैं एक सामान्य सामान्य वितरण से बेतरतीब ढंग से नमूना ले रहा हूं, तो मैं यह उम्मीद नहीं करूंगा कि प्रत्येक क्रमिक डेटा बिंदु उस स्थान पर सही तरीके से गिरेगा जहां इसे एक सामान्य सामान्य वक्र में भरने की आवश्यकता होती है। यह मेरे लिए एक गैर-यादृच्छिक चयन प्रक्रिया के समान होगा।
जिम्मीजम्स

6

शिक्षक स्पष्ट रूप से अपने तत्व से बाहर है, और शायद शिक्षण आँकड़े नहीं होना चाहिए। मुझे यह गलत लगता है कि कुछ गलत सिखाना बिल्कुल भी नहीं सिखाता।

इन मुद्दों को आसानी से साफ किया जा सकता है अगर "डेटा" और "प्रक्रिया जो डेटा का उत्पादन करती है" के बीच अंतर अधिक स्पष्ट रूप से किया गया था। डेटा उस प्रक्रिया को लक्षित करता है जिसने डेटा का उत्पादन किया। सामान्य वितरण इस प्रक्रिया के लिए एक मॉडल है।

यह बात करने के लिए कोई मतलब नहीं है कि क्या डेटा सामान्य रूप से वितरित किया जाता है। एक कारण से, डेटा हमेशा असतत होता है। एक अन्य कारण के लिए, सामान्य वितरण संभावित अवलोकन मात्राओं के एक अनंत का वर्णन करता है, विशिष्ट अवलोकन मात्राओं का एक निश्चित सेट नहीं।

इसके अलावा, प्रश्न का उत्तर "वह प्रक्रिया है जो डेटा को सामान्य रूप से वितरित प्रक्रिया का उत्पादन करती है " हमेशा डेटा की परवाह किए बिना "नहीं," भी होती है। दो सरल कारण: (i) हम जो भी माप लेते हैं, वे आवश्यक रूप से असतत होते हैं, कुछ स्तर तक गोल होते हैं। (ii) सही समरूपता, एक पूर्ण चक्र की तरह, अवलोकनीय प्रकृति में मौजूद नहीं है। हमेशा खामियां होती हैं।

सबसे अच्छे रूप में, इस सवाल का जवाब "ये डेटा आपको डेटा-जनरेट करने की प्रक्रिया की सामान्यता के बारे में क्या बताते हैं" इस प्रकार दिया जा सकता है: "ये डेटा हम जो देखने की उम्मीद करेंगे उसके अनुरूप हैं, क्या डेटा वास्तव में एक से आया था सामान्य रूप से वितरित प्रक्रिया। " यह उत्तर सही ढंग से निष्कर्ष नहीं निकालता है कि वितरण सामान्य है।

सिमुलेशन का उपयोग करके इन मुद्दों को बहुत आसानी से समझा जाता है। बस एक सामान्य वितरण से डेटा का अनुकरण करें और उन मौजूदा डेटा की तुलना करें। यदि डेटा मायने रखता है (0,1,2,3, ...), तो जाहिर है कि सामान्य मॉडल गलत है क्योंकि यह 0,1,2,3, ... जैसी संख्याओं का उत्पादन नहीं करता है; इसके बजाय, यह दशमलव के साथ संख्याओं का उत्पादन करता है जो हमेशा के लिए चलते हैं (या कम से कम जहां तक ​​कंप्यूटर अनुमति देगा।) इस तरह का अनुकरण आपको सामान्य प्रश्न के बारे में सीखते समय सबसे पहले करना चाहिए। फिर आप ग्राफ़ और सारांश आँकड़ों की सही व्याख्या कर सकते हैं।


10
मैंने आपके उत्तर को गलत नहीं किया, लेकिन विचार करें कि आप एक छात्र के शब्दों से एक ग्रेड प्रोफेसर को पहचान रहे हैं। यह कैसे संभव है कि एक छात्र सही है और एक शिक्षक गलत है? क्या यह अधिक संभावना नहीं है कि छात्र अपने प्रोफेसर और बातचीत के संदर्भ को गलत तरीके से प्रस्तुत कर रहा है?
अक्कल

मेरे अनुभव के आधार पर, और छात्रों के शब्दों पर, मैं कहूंगा कि यह अधिक संभावना है कि शिक्षक गलत है। विश्वविद्यालयों में हर जगह पाठ्यक्रमों को पढ़ाने वाले थोड़े औपचारिक प्रशिक्षण वाले शिक्षक होते हैं। यदि मान्यता प्राप्त एजेंसियां ​​केवल सच्चाई जानती थीं!
पीटर वेस्टफॉल

6
@ Possum- पाई, मैं अनुमान लगा सकता हूं कि आपसे क्या उम्मीद की जाती है। यह आँकड़ों में शायद 101-ईश पाठ्यक्रम है, इसलिए आपको तिरछा और कुर्तो को देखना होगा। यदि वे 0 और 3 के करीब नहीं हैं, तो आप कहते हैं कि यह सामान्य नहीं है। बस इतना ही। वास्तव में यही जेबी टेस्ट अधिक औपचारिक तरीके से करता है। व्यायाम का बिंदु आपको यह याद रखना है कि गाऊसी के पास तिरछा 0 और कुर्तोसिस 3 है। आप इस मूर्खतापूर्ण लेकिन आवश्यक व्यायाम को दार्शनिक चर्चा में बदल रहे हैं।
अक्कल

2
शिक्षक की टिप्पणी "क्योंकि वे दोनों -1 और +1 के महत्वपूर्ण मूल्यों के बीच हैं, यह डेटा सामान्य रूप से वितरित माना जाता है" निश्चित रूप से या तो दिखाता है (i) समझ की कमी या (ii) यह सिखाने की इच्छा गलत होना। मुझे नहीं लगता कि यह शिक्षक की तैयारी या शैक्षणिक तरीकों पर सवाल उठाने के लिए एक दार्शनिक चर्चा है।
पीटर वेस्टफॉल

3
"संगति" भाषा अच्छी है। लेकिन जैसा कि पोसुम-पाई ने कहा, शिक्षक छात्रों को बताते हैं, "इस परीक्षण / निदान के आधार पर, डेटा सामान्य हैं," जो कई मामलों में गलत है। शिक्षकों (मानसिक और अन्यथा) को (i) डेटा से डेटा बनाने की प्रक्रिया को अलग करने की आवश्यकता है, (ii) छात्रों को बताएं कि सामान्य और अन्य मॉडल डेटा-जनरेट करने की प्रक्रिया के लिए मॉडल हैं, (iii) उन्हें बताएं कि सामान्य वितरण हमेशा होता है एक मॉडल के रूप में गलत, डायग्नॉस्टिक्स की परवाह किए बिना, और (iv) उन्हें बताएं कि व्यायाम का बिंदु गैर-सामान्यता की डिग्री का निदान करना है, हां / नहीं का जवाब नहीं। फिर समझाएं कि यह क्यों मायने रखता है।
पीटर वेस्टफॉल

4

मैं एक इंजीनियर हूं, इसलिए मेरी दुनिया में, लागू सांख्यिकीविद वही है जो मैं सबसे अधिक देखता हूं, और सबसे ठोस मूल्य प्राप्त करता हूं। यदि आप लागू में काम करने जा रहे हैं, तो आपको सिद्धांत पर व्यवहार में ठोस होने की आवश्यकता है: यह सुरुचिपूर्ण है या नहीं, विमान को उड़ना है और दुर्घटना नहीं।

जब मैं इस प्रश्न के बारे में सोचता हूं, तो मैं इसे जिस तरह से देखता हूं, जैसा कि यहां मेरे कई तकनीकी बेटर्स ने भी किया है, "शोर की उपस्थिति के साथ वास्तविक दुनिया में ऐसा क्या दिखता है" इस बारे में सोचना है।

दूसरी चीज जो मैं करता हूं, अक्सर, एक सिमुलेशन बनाने के लिए जो मुझे सवाल के आसपास अपने हाथों को प्राप्त करने की अनुमति देता है।

यहाँ एक बहुत ही संक्षिप्त अन्वेषण है:

#show how the mean and the median  differ with respect to sample size

#libraries
library(reshape2)
library(ggplot2)

#sample sizes
ssizes <- 10^(seq(from=1, to=3, by=0.25))
ssizes <- round(ssizes)

#loops per sample
n_loops <- 5000

#pre-declare, prep for loop
my_store <- matrix(0, 
                   ncol = 3, 
                   nrow = n_loops*length(ssizes))

count <- 1

for(i in 1:length(ssizes)){

  #how many samples
  n_samp <- ssizes[i]

  for(j in 1:n_loops){

    #draw samples
    y <- 0
    y <- rnorm(n = n_samp,mean = 0, sd = 1)

    #compute mean, median, mode
    my_store[count,1] <- n_samp
    my_store[count,2] <- median(y)
    my_store[count,3] <- mean(y)


    #update
    count = count + 1
  }
}


#make data into ggplot friendly form
df <- data.frame(my_store)
names(df) <- c("n_samp", "median","mean")

df <- melt(df, id.vars = 1, measure.vars = c("median","mean"))


#make ggplot
ggplot(df, aes(x=as.factor(n_samp), 
               y = value, 
               fill = variable)) + geom_boxplot() + 
  labs(title = "Contrast Median and Mean estimate variation vs. Sample Size",
       x = "Number of Samples",
       y = "Estimated value")

यह इसे आउटपुट के रूप में देता है: यहाँ छवि विवरण दर्ज करें

नोट: x- अक्ष के बारे में सावधान रहें, क्योंकि यह लॉग-स्केल किया गया है, यूनिफ़ॉर्म-स्केल नहीं किया गया है।

मुझे पता है कि माध्य और माध्य एक समान हैं। कोड इसे कहते हैं। अनुभवजन्य अहसास नमूना आकार के लिए बहुत संवेदनशील है, और अगर वास्तव में अनंत नमूने नहीं हैं, तो वे कभी भी सिद्धांत के साथ पूरी तरह से मेल नहीं खा सकते हैं।

आप इस बारे में सोच सकते हैं कि क्या माध्यिका में अनिश्चितता अनुमानित माध्य को दर्शाती है या इसके विपरीत। यदि माध्य का सबसे अच्छा अनुमान मंझले के लिए अनुमान के 95% सीआई के भीतर है, तो डेटा अंतर नहीं बता सकता है। डेटा कहता है कि वे सिद्धांत में समान हैं। यदि आपको अधिक डेटा मिलता है, तो देखें कि यह क्या कहता है।


1
दिलचस्प ग्राफ। मुझे लगता है कि माध्य सामान्य तौर पर औसत से बड़ा होता होगा जब पहली बार पीछा करने वाले मतदाताओं पर विचार किया जाता है ... दूसरे शब्दों में लाल पट्टियों का मतलब होगा और हरे रंग के मीडियन। मुझे किसकी याद आ रही है?
पोसुम-पाई

1
@ पोसुम-पाई याद रखें कि आउटलेर या तो दिशा में हो सकते हैं ... सामान्य वितरण में एक बाईं पूंछ और एक दाएं पूंछ होती है!
सिल्वरफिश

2
@Will यह एक बॉक्सप्लॉट का एक सुंदर मानक कार्यान्वयन है।
Glen_b -Reinstate Monica

1
@Glen_b मैंने बहुत सारी पाठ्यपुस्तकें देखी हैं जो आउटलेर्स के लिए डॉट्स का उपयोग नहीं सिखाती हैं, इसलिए किसी को उनके उपयोग नहीं करने के बारे में समझ सकते हैं। लेकिन हैडली के अनुसार , डॉट्स तब भी रहे हैं, जब 1970 में टुकी ने अपनी "योजनाबद्ध साजिश" पेश की।
सिल्वरफिश

1
हाँ, इसमें आउटलेयर के बिना एक संस्करण (सिर्फ 5 नंबर सारांश पर आधारित) अनिवार्य रूप से मैरी स्पीयर की रेंज प्लॉट (1952) होगा। (एनबी कि पेपर कुछ महत्वपूर्ण ऐतिहासिक बॉक्सप्लेट अग्रदूतों को याद करता है, पूर्व 1952)
Glen_b -Reinstate Monica

4

चिकित्सा आंकड़ों में, हम केवल वितरण के आकार और प्रतीत होने पर टिप्पणी करते हैं। तथ्य यह है कि कोई असतत परिमित नमूना कभी भी सामान्य नहीं हो सकता अप्रासंगिक और पांडित्य है। मैं आपको इसके लिए गलत चिह्नित करूंगा।

यदि कोई वितरण "सामान्य" दिखता है, तो हम इसे सामान्य कहने में सहज हैं। जब मैं एक गैर-सांख्यिकीय दर्शकों के लिए वितरण का वर्णन करता हूं, तो मुझे कुछ सामान्य कहने पर भी बहुत आराम होता है, जब मुझे पता है कि सामान्य वितरण अंतर्निहित संभावना मॉडल नहीं है, मुझे लगता है कि मैं आपके शिक्षक के साथ यहां काम करूंगा ... लेकिन हम सत्यापित करने के लिए कोई हिस्टोग्राम या डेटासेट नहीं है।

एक टिप के रूप में, मैं बहुत बारीकी से निम्नलिखित निरीक्षणों के माध्यम से जाना होगा:

  • आउटलेयर कौन हैं, कितने हैं और उनके मूल्य क्या हैं?
  • क्या डेटा बिमोडल हैं?
  • क्या डेटा एक तिरछी आकृति ले रहा है ताकि कुछ परिवर्तन (एक लॉग की तरह) टिप्पणियों के बीच "दूरी" को बेहतर ढंग से निर्धारित कर सकें?
  • क्या स्पष्ट ट्रंकेशन या हीपिंग है ताकि assays या लैब निश्चित रूप से मूल्यों की एक निश्चित सीमा का पता लगाने में विफल हो रहे हैं?

ऐसा लगता है कि बहुत गणित के साथ एक क्षेत्र में, लोग "सामान्य वितरण" कहने के बीच अधिक सख्त होंगे, जिसमें कुछ बहुत ही सख्त अनुमान हैं, और यह कहना "लगभग सामान्य" है। मैं यह कभी नहीं कहूंगा कि 1.932 2. है, लेकिन मैं कह सकता हूं कि यह लगभग 2 है।
पोसुम-पाई

1
"अप्रासंगिक और पांडित्य"? गंभीरता से? मैं पोसुम-पाई से सहमत हूं। मैं यह भी कभी नहीं कहूंगा कि 1.932 2.0 के समान है। यह कहना कि डेटा "सामान्य" है, सामान्य वितरण के अर्थ से , डेटा को उत्पन्न करने वाली प्रक्रिया के लिए एक वास्तविक वस्तु के रूप में, वास्तविक तथ्य यह है कि सामान्य वितरण कभी हमारी प्रक्रियाओं को ठीक से मॉडल नहीं करता है, सब कुछ भ्रमित करता है। सभी को सिखाया जाना चाहिए कि जब वे सामान्य वितरण सीखते हैं तो वे मूर्खतापूर्ण बयान नहीं देते हैं।
पीटर वेस्टफॉल

2
@PeterWestfall मुझे लगता है कि इस मुद्दे का एक हिस्सा यह है कि "डेटा एक सामान्य वितरण से आता है" लगभग कभी सच नहीं होता है, और यहां तक ​​कि अगर यह सच था, तो इसे निर्णायक रूप से साबित करना असंभव होगा। तो चूंकि वाक्यांश शायद ही कभी सच होगा, इसलिए लोग "डेटा सामान्य है" के बजाय एक सुविधाजनक शॉर्ट-हैंड का उपयोग करेंगे, जिसका अर्थ है "डेटा व्यावहारिक उद्देश्यों के लिए सामान्यता के करीब पर्याप्त प्रतीत होता है" या "सामान्य वितरण एक अच्छा है- हमारे DGP के लिए पर्याप्त मॉडल ”।
सिल्वरफिश

तो क्यों सिखाएँ जो गलत है जब यह सिखाने के लिए इतना सरल है कि क्या सही है?
पीटर वेस्टफॉल

3
@PeterW भाषाई बिंदु सिर्फ शिक्षण के बारे में नहीं है, यह उस तरह से है जिसके बारे में वाक्यांश का उपयोग किया जाता है (और इरादा किया जाता है) रोजमर्रा की जिंदगी में: "डेटा सामान्य है" लगभग कभी भी इसका मतलब नहीं होता है "मुझे निश्चित रूप से पता है जिस जनसंख्या से डेटा का नमूना लिया गया वह सामान्य है ", क्योंकि यह शायद ही कभी इसका मतलब हो सकता है। यह अच्छा होगा यदि लोगों ने कहा कि "डेटा सामान्य लगता है" या यहां तक ​​कि "डेटा सामान्य दिखता है " (यानी सामान्य से काफी करीब लगता है कि हम सामान्यता से इसके विचलन के बारे में परवाह नहीं करते हैं) लेकिन विशेष रूप से एक लागू सेटिंग में लोग अक्सर कहेंगे इस तरह बातें।
सिल्वरफिश

2

मुझे लगता है कि आप और आपके प्रोफेसर अलग-अलग संदर्भों में बात कर रहे हैं। माध्य = माध्य = मोड की समानता सैद्धांतिक वितरण की विशेषता है और यह एकमात्र विशेषता नहीं है। आप यह नहीं कह सकते हैं कि यदि संपत्ति के ऊपर किसी भी वितरण के लिए पकड़ है तो वितरण सामान्य है। टी-वितरण भी सममित है लेकिन यह सामान्य नहीं है। तो, आप सामान्य वितरण के सैद्धांतिक गुणों के बारे में बात कर रहे हैं जो सामान्य वितरण के लिए हमेशा सही होते हैं।

आप प्रोफेसर नमूना डेटा के वितरण के बारे में बात कर रहे हैं। वह सही है, आपको वास्तविक जीवन में डेटा कभी नहीं मिलेगा, जहां आपको माध्य = माध्य = मोड मिलेगा। यह केवल सैंपलिंग त्रुटि के कारण है । इसी तरह, यह बहुत संभावना नहीं है, आपको नमूना डेटा और शून्य अतिरिक्त कर्टोसिस के लिए तिरछापन का शून्य गुणांक मिलेगा। आपका प्रोफेसर सिर्फ आपको नमूना आंकड़ों से वितरण के बारे में एक विचार प्राप्त करने के लिए सरल नियम दे रहा है। जो सामान्य रूप से सही नहीं है (आगे की जानकारी प्राप्त किए बिना)।


3
प्रोफेसर को फेमाई जाती है।
निक कॉक्स

आप मतलब क्यों नहीं प्राप्त करते हैं = माध्य = विधा ज्यादातर इसलिए है क्योंकि कई वितरण वास्तव में तिरछे होते हैं! (स्पष्ट रूप से, माध्य = माध्य = मोड तिरछे वितरण के साथ भी संभव है, इसके बावजूद कि कई पाठ्यपुस्तकें क्या कहती हैं।)
निक कॉक्स

1
मैं इस बात से असहमत हूं कि माध्य / माध्य / विधा की समानता की कमी = त्रुटि का नमूना है। मान लें कि आप गिरते दरों के लिए यादृच्छिक रूप से 52 नर्सिंग होम का नमूना ले चुके हैं। घरों में 27, 34, और 52 पुराने रूप से छोटे कर्मचारी हैं और इनमें हमेशा औसत से अधिक संख्या में गिरावट आती है। उन घरों में पूंछ की ओर मतलब होता है और यह नमूने की त्रुटि के कारण नहीं होता है।
पोसुम-पाई

1
@Possum पाई क्या डेटा यहाँ माध्यमिक है, लेकिन आप विभिन्न स्थानों में अलग संकेत दे रहे हैं। यहां आप कई नर्सिंग होम के बारे में बात कर रहे हैं - लेकिन आपके प्रश्न में आप "नर्सिंग होम में" कहते हैं। आकस्मिक विवरण के बारे में अस्पष्ट होने से भी मदद नहीं मिलती है।
निक कॉक्स

@ निक कॉक्स सॉरी, मैंने इसे स्पष्ट किया। 52 नर्सिंग होम के नमूने में फॉल्स / वर्ष की संख्या
-पाई

1

व्यावहारिक उद्देश्यों के लिए, इस तरह के रूप में अंतर्निहित प्रक्रियाओं को आमतौर पर किसी भी भौं को उठाए बिना सामान्य वितरण द्वारा बारीक रूप से लगाया जाता है।

हालाँकि, यदि आप इस मामले में अंतर्निहित प्रक्रिया को पांडित्यपूर्ण बनाना चाहते हैं, तो इसे सामान्य रूप से वितरित नहीं किया जा सकता है, क्योंकि यह नकारात्मक मान उत्पन्न नहीं कर सकता (फॉल्स की संख्या नकारात्मक नहीं हो सकती)। मुझे आश्चर्य नहीं होगा अगर यह वास्तव में कम से कम शून्य के करीब दूसरी चोटी के साथ एक द्वि-मोडल वितरण था।


यह 4 फॉल और 13 फॉल्स पर मोड के साथ बिमोडल है। कोई शून्य गिरावट की सूचना नहीं है।
-पाई
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.