प्रोफेसर के साथ आपकी चर्चा की समस्या शब्दावली में से एक है, एक गलतफहमी है जो एक संभावित उपयोगी विचार को व्यक्त करने के रास्ते में हो रही है। विभिन्न स्थानों पर, आप दोनों त्रुटियां करते हैं।
तो पहली बात यह है कि पता होना जरूरी है कि वितरण क्या है इसके बारे में बहुत स्पष्ट होना चाहिए ।
एक सामान्य वितरण एक विशिष्ट गणितीय वस्तु है, जिसे आप मूल्यों की अनंत आबादी के लिए एक मॉडल के रूप में मान सकते हैं। (कोई परिमित जनसंख्या वास्तव में एक सतत वितरण नहीं हो सकती है।)
संभवतः, यह वितरण क्या करता है (एक बार जब आप मापदंडों को निर्दिष्ट करते हैं) को परिभाषित किया जाता है (एक बीजीय अभिव्यक्ति के माध्यम से) जनसंख्या मानों का अनुपात जो वास्तविक रेखा पर किसी भी दिए गए अंतराल के भीतर होता है। थोड़ा कम शिथिल, यह संभावना को परिभाषित करता है कि किसी भी अंतराल में उस आबादी से एक भी मूल्य झूठ होगा।
एक मनाया नमूना वास्तव में एक सामान्य वितरण नहीं है; यदि कोई मौजूद था, तो एक नमूना एक सामान्य वितरण से तैयार किया जा सकता है। यदि आप नमूने के अनुभवजन्य cdf को देखते हैं, तो यह असतत है। यदि आप इसे (हिस्टोग्राम के रूप में) करते हैं तो नमूने में "आवृत्ति वितरण" होता है, लेकिन वे सामान्य वितरण नहीं होते हैं। वितरण हमें आबादी से यादृच्छिक नमूने के बारे में कुछ चीजें (एक संभाव्य अर्थ में) बता सकता है, और एक नमूना हमें आबादी के बारे में कुछ चीजें भी बता सकता है।
"सामान्य रूप से वितरित नमूना" * जैसे वाक्यांश की एक उचित व्याख्या "सामान्य रूप से वितरित जनसंख्या से एक यादृच्छिक नमूना" है।
* (मैं आमतौर पर इसे स्वयं कहने से बचने की कोशिश करता हूं, उन कारणों के लिए जो यहां स्पष्ट रूप से पर्याप्त रूप से स्पष्ट किए जाते हैं; आमतौर पर मैं खुद को दूसरे प्रकार की अभिव्यक्ति तक सीमित करने का प्रबंधन करता हूं।)
परिभाषित शब्द होने पर (यदि अभी भी थोड़ी शिथिलता है), आइए अब विस्तार से प्रश्न देखें। मैं प्रश्न के विशिष्ट टुकड़ों को संबोधित करूंगा।
सामान्य वितरण का मतलब = मध्य = मोड होना चाहिए
यह निश्चित रूप से सामान्य संभावना वितरण पर एक शर्त है, हालांकि सामान्य वितरण से तैयार किए गए नमूने पर आवश्यकता नहीं है; नमूने असममित हो सकते हैं, माध्यिका से भिन्न हो सकते हैं। [हालांकि, हम यह अंदाजा लगा सकते हैं कि अगर हम वास्तव में एक सामान्य आबादी से नमूना लेकर आए हैं तो हम उनसे कितना अलग हो सकते हैं।
सभी डेटा को घंटी वक्र के नीचे होना चाहिए
मुझे यकीन नहीं है कि इस अर्थ में "निहित" क्या है।
और पूरी तरह से सममित माध्य के आसपास।
नहीं; आप यहां डेटा के बारे में बात कर रहे हैं, और (निश्चित रूप से सममित) सामान्य आबादी से एक नमूना खुद पूरी तरह से सममित नहीं होगा।
इसलिए, तकनीकी रूप से, वास्तविक अध्ययनों में लगभग कोई सामान्य वितरण नहीं हैं,
मैं आपके निष्कर्ष से सहमत हूं लेकिन तर्क सही नहीं है; यह इस तथ्य का परिणाम नहीं है कि डेटा पूरी तरह से सममित (आदि) नहीं हैं; यह तथ्य है कि आबादी खुद पूरी तरह से सामान्य नहीं है ।
यदि तिरछा / कुर्तोसिस 1.0 से कम है तो यह एक सामान्य वितरण है
अगर उसने ऐसा सिर्फ इस तरह से कहा, तो वह निश्चित रूप से गलत है।
एक नमूना तिरछापन 0 से अधिक के करीब हो सकता है ("कम से कम लेना" का मतलब पूर्ण परिमाण में वास्तविक मूल्य नहीं है), और नमूना अतिरिक्त कुर्तोसिस भी 0 से बहुत करीब हो सकता है (वे भी हो सकता है, चाहे वह संयोग से या निर्माण, संभावित रूप से लगभग शून्य), और फिर भी जिस नमूने से नमूना खींचा गया था, वह आसानी से विशिष्ट गैर-सामान्य हो सकता है।
हम आगे भी जा सकते हैं - भले ही हम जादुई रूप से जानते थे कि जनसंख्या की विषमता और कुरूपता बिल्कुल एक सामान्य बात थी, यह अभी भी खुद को नहीं बताएगा कि जनसंख्या सामान्य थी, और न ही सामान्य के करीब भी कुछ।
डेटासेट 52 नर्सिंग होम के यादृच्छिक नमूने में गिरावट / वर्ष की कुल संख्या है जो एक बड़ी आबादी का यादृच्छिक नमूना है।
गणना का जनसंख्या वितरण कभी भी सामान्य नहीं होता है। गणना असतत और गैर-नकारात्मक हैं, सामान्य वितरण निरंतर और संपूर्ण वास्तविक रेखा पर हैं।
लेकिन हम वास्तव में यहां गलत मुद्दे पर केंद्रित हैं। प्रायिकता मॉडल हैं बस, मॉडल । आइए हम अपने मॉडल को वास्तविक चीज़ के साथ भ्रमित न करें ।
मुद्दा यह नहीं है "क्या डेटा स्वयं सामान्य हैं?" (वे नहीं हो सकते), और न ही "जनसंख्या वह है जिससे डेटा सामान्य रूप से खींचा गया था?" (यह लगभग कभी नहीं होने वाला है)।
चर्चा करने के लिए एक अधिक उपयोगी सवाल यह है कि "अगर मैं जनसंख्या को सामान्य रूप से वितरित करता हूं, तो मेरे अनुमान का कितना बुरा असर पड़ेगा?"
यह भी अच्छी तरह से जवाब देने के लिए एक बहुत कठिन सवाल है, और कुछ सरल निदान पर glancing की तुलना में काफी अधिक काम की आवश्यकता हो सकती है।
आपके द्वारा दिखाए गए नमूने के आँकड़े सामान्यता के साथ विशेष रूप से असंगत नहीं हैं (आप आँकड़ों को इस तरह से देख सकते हैं या "बदतर" बहुत कम नहीं है यदि आपके पास सामान्य आबादी से उस आकार के यादृच्छिक नमूने थे), लेकिन इसका मतलब यह नहीं है कि वास्तविक जनसंख्या जिसमें से नमूना खींचा गया था, किसी विशेष उद्देश्य के लिए सामान्य रूप से स्वचालित रूप से "करीब पर्याप्त" है। उद्देश्य पर विचार करना महत्वपूर्ण होगा (आप कौन से सवालों का जवाब दे रहे हैं), और इसके लिए नियोजित तरीकों की मजबूती, और फिर भी हमें अभी भी यकीन नहीं हो रहा है कि यह "काफी अच्छा" है; कभी-कभी यह आसान नहीं हो सकता है कि एक प्राथमिकता को मानने के लिए हमारे पास क्या अच्छा कारण नहीं है (उदाहरण के लिए समान डेटा सेट के साथ अनुभव के आधार पर)।
यह एक सामान्य वितरण नहीं है
डेटा - यहां तक कि एक सामान्य आबादी से खींचा गया डेटा - कभी भी आबादी के गुण नहीं होते हैं; उन संख्याओं में से आपके पास यह निष्कर्ष निकालने के लिए एक अच्छा आधार नहीं है कि यहाँ जनसंख्या सामान्य नहीं है।
दूसरी ओर न तो हमारे पास यह कहने के लिए कोई ठोस आधार है कि यह सामान्य रूप से "पर्याप्त रूप से करीब" है - हमने इसे सामान्यता मानने का उद्देश्य भी नहीं माना है, इसलिए हम नहीं जानते हैं कि यह किस वितरण सुविधाओं के प्रति संवेदनशील हो सकता है।
उदाहरण के लिए, यदि मेरे पास एक माप के लिए दो नमूने थे जो कि बंधे हुए थे, तो मुझे पता था कि यह बहुत अधिक असतत नहीं होगा (न केवल ज्यादातर कुछ विशिष्ट मान ले रहा है) और यथोचित रूप से सममित के पास, मैं दो-नमूना का उपयोग करने में अपेक्षाकृत खुश हो सकता हूं कुछ गैर-छोटे नमूना आकार में टी-परीक्षण; यह मामूली विचलन से मजबूत है मान्यताओं से (कुछ हद तक मजबूत, इतनी शक्ति-मजबूत नहीं)। उदाहरण के लिए, प्रसार की समानता का परीक्षण करते समय मैं सामान्य रूप से सामान्य मान लेने के बारे में अधिक सतर्क होऊंगा, क्योंकि उस धारणा के तहत सबसे अच्छा परीक्षण धारणा के प्रति काफी संवेदनशील है।
क्योंकि वे दोनों -1 और +1 के महत्वपूर्ण मूल्यों के बीच हैं, इस डेटा को सामान्य रूप से वितरित माना जाता है। "
यदि वास्तव में वह मानदंड है जिसके द्वारा कोई सामान्य वितरण मॉडल का उपयोग करने का निर्णय लेता है, तो यह कभी-कभी आपको काफी खराब विश्लेषण में ले जाएगा।
उन आँकड़ों के मूल्य हमें उस जनसंख्या के बारे में कुछ सुराग देते हैं जिससे नमूना लिया गया था, लेकिन यह बिल्कुल भी नहीं है कि यह सुझाव दिया जाए कि उनका मान किसी भी तरह से विश्लेषण चुनने के लिए एक 'सुरक्षित मार्गदर्शिका' है।
अब इस तरह के एक प्रश्न का एक बेहतर संक्षिप्त संस्करण के साथ अंतर्निहित मुद्दे को संबोधित करने के लिए जैसा कि आपके पास था:
एक मॉडल को चुनने के लिए एक नमूना देखने की पूरी प्रक्रिया समस्याओं से भरा है - ऐसा करने से विश्लेषण के किसी भी बाद के विकल्पों के गुणों को बदल दिया जाता है जो आपने देखा था! एक परिकल्पना परीक्षण के लिए उदाहरण के लिए, आपके महत्व स्तर, पी-मान और शक्ति वे सब हैं जो आप उन्हें चुनने के लिए / गणना नहीं करेंगे , क्योंकि उन गणनाओं का विश्लेषण डेटा पर आधारित नहीं होने के आधार पर किया जाता है।
उदाहरण के लिए देखें, गेलमैन और लोकेन (2014), " द साइंटिफिक क्राइसिस इन साइंस ," अमेरिकन साइंटिस्ट , वॉल्यूम 102, नंबर 6, पी 460 (डीओआई: 10.1511 / 2014.111.460) जो इस तरह के डेटा-निर्भर विश्लेषण के साथ मुद्दों पर चर्चा करता है।