"क्या उस वितरण के लिए एक बेहतर शब्द है?"
वितरण के गुणों का वर्णन करने के लिए शब्दों का उपयोग करने के बीच यहां एक सार्थक अंतर है , बनाम वितरण के लिए "नाम" खोजने की कोशिश कर रहा है ताकि आप इसे (लगभग) एक विशेष मानक वितरण के उदाहरण के रूप में पहचान सकें: जिसके लिए एक सूत्र या सांख्यिकीय तालिकाएँ इसके वितरण फ़ंक्शन के लिए मौजूद हो सकती हैं, और जिसके लिए आप इसके मापदंडों का अनुमान लगा सकते हैं। इस बाद के मामले में, आप नामांकित वितरण का उपयोग करने की संभावना रखते हैं, उदाहरण के लिए "सामान्य / गॉसियन" (दो शब्द आमतौर पर समानार्थी हैं), एक मॉडल के रूप में जो आपके डेटा की कुछ प्रमुख विशेषताओं को कैप्चर करता है, बजाय आपके डेटा का दावा करने के। से तैयार वास्तव में है कि सैद्धांतिक वितरण इस प्रकार है। जॉर्ज बॉक्स को थोड़ा गलत ठहराने के लिए,सभी मॉडल "गलत" हैं, लेकिन कुछ उपयोगी हैं। यदि आप मॉडलिंग के दृष्टिकोण के बारे में सोच रहे हैं, तो यह विचार करने योग्य है कि आप किन विशेषताओं को शामिल करना चाहते हैं और आप अपने मॉडल को कितना जटिल या पारसी बनाना चाहते हैं।
होने के नाते सकारात्मक विषम वितरण है से संबंधित, लेकिन जो ऑफ-द-शेल्फ वितरण है "" उचित मॉडल के करीब आते हैं यह नहीं है कि एक संपत्ति का वर्णन करने का एक उदाहरण है। यह कुछ उम्मीदवारों के लिए नियम बनाता है, उदाहरण के लिए गॉसियन (यानी सामान्य) वितरण में शून्य तिरछा होता है इसलिए आपके डेटा को मॉडल करना उचित नहीं होगा यदि तिरछा एक महत्वपूर्ण विशेषता है। डेटा के अन्य गुण भी हो सकते हैं जो आपके लिए भी महत्वपूर्ण हैं, उदाहरण के लिए कि यह अनिमॉडल (सिर्फ एक चोटी है) या यह 0 और 24 घंटे (या 0 और 1 के बीच, यदि आप इसे एक अंश के रूप में लिख रहे हैं, के बीच बँधा हुआ है) दिन), या यह कि शून्य पर केंद्रित एक संभावना द्रव्यमान है (क्योंकि ऐसे लोग हैं जो किसी निश्चित दिन पर youtube नहीं देखते हैं)।कर्टोसिस । और यह ध्यान में रखने योग्य है कि भले ही आपके वितरण में "कूबड़" या "घंटी-वक्र" आकृति हो और शून्य या निकट-शून्य तिरछा हो, यह स्वचालित रूप से इसका पालन नहीं करता है कि सामान्य वितरण इसके लिए "सही" है! दूसरी ओर, भले ही आपका डेटा खींची गई जनसंख्या वास्तव में एक विशेष वितरण का सटीक रूप से नमूनाकरण त्रुटि के कारण होहो सकता है कि आपका डेटासेट बहुत समान न हो। छोटे डेटा सेट "शोर" होने की संभावना है, और यह स्पष्ट नहीं हो सकता है कि क्या कुछ विशेषताएं आप देख सकते हैं, जैसे कि अतिरिक्त छोटे कूबड़ या असममित पूंछ, अंतर्निहित आबादी के गुण हैं जो डेटा से खींचा गया था (और शायद इसलिए इसे शामिल किया जाना चाहिए। आपके मॉडल में) या क्या वे आपके विशेष नमूने से सिर्फ कलाकृतियाँ हैं (और मॉडलिंग के उद्देश्यों की अनदेखी की जानी चाहिए)। यदि आपके पास एक छोटा डेटा सेट है और तिरछा शून्य के करीब है, तो यह और भी प्रशंसनीय है कि अंतर्निहित वितरण वास्तव में सममित है। आपका डेटा सेट जितना बड़ा और तिरछा होता है, उतना कम प्रशंसनीय होता है - लेकिन जब आप यह देखने के लिए एक महत्त्वपूर्ण परीक्षण कर सकते हैं कि आपके डेटा को उस आबादी में तिरछापन के लिए प्रदान किए जाने वाले सबूत कितना ठोस हैं।, यह इस बात को याद कर सकता है कि क्या एक सामान्य (या अन्य शून्य तिरछा) वितरण एक मॉडल के रूप में उपयुक्त है ...
डेटा के कौन से गुण वास्तव में उन उद्देश्यों के लिए मायने रखते हैं जिन्हें आप इसे मॉडल बनाना चाहते हैं? ध्यान दें कि यदि तिरछा बहुत छोटा है और आप इसके बारे में बहुत परवाह नहीं करते हैं, भले ही अंतर्निहित आबादी वास्तव में तिरछी हो , तो आप अभी भी सामान्य वितरण को देखने के समय के इस सच्चे वितरण को अनुमानित करने के लिए एक उपयोगी मॉडल पा सकते हैं । लेकिन आपको यह देखना चाहिए कि यह मूर्खतापूर्ण भविष्यवाणियां नहीं करता है। क्योंकि एक सामान्य वितरण का कोई उच्चतम या निम्नतम संभव मूल्य नहीं है, फिर यद्यपि अत्यधिक उच्च या निम्न मानों की संभावना कम हो जाती है, आप हमेशा पाएंगे कि आपका मॉडल कुछ भविष्यवाणी करता हैप्रति दिन घंटों की नकारात्मक संख्या, या 24 घंटे से अधिक देखने की संभावना। यह आपके लिए और अधिक समस्याग्रस्त हो जाता है यदि ऐसी असंभव घटनाओं की अनुमानित संभावना अधिक हो जाती है। सामान्य की तरह एक सममित वितरण यह अनुमान लगाएगा कि जितने लोग औसत से ऊपर 50% से अधिक समय तक देखेंगे, औसत से 50% से कम समय के लिए देखेंगे। अगर बार-बार देखना बहुत ही टेढ़ी खीर है, तो इस तरह की भविष्यवाणी भी इतनी असंगत हो सकती है कि आप मूर्खतापूर्ण हों, और यदि आप अपने मॉडल के परिणाम ले रहे हैं और उन्हें किसी अन्य उद्देश्य के लिए इनपुट के रूप में उपयोग कर रहे हैं, तो आपको भ्रामक परिणाम देगा। 'इष्टतम विज्ञापन समय-निर्धारण की गणना के लिए देखने के समय का अनुकरण चल रहा है)। यदि तिरछापन इतना उल्लेखनीय है, तो आप इसे अपने मॉडल के हिस्से के रूप में पकड़ना चाहते हैं, तोतिरछा सामान्य वितरण अधिक उपयुक्त हो सकता है। यदि आप तिरछापन और कुर्तोसिस दोनों पर कब्जा करना चाहते हैं, तो तिरछी टी पर विचार करें । आप शारीरिक रूप से संभव ऊपरी और निचले सीमा को शामिल करना चाहते हैं, तो उपयोग करने पर विचार छोटा कर दिया ये वितरण के संस्करणों। कई अन्य संभावना वितरण मौजूद हैं जो कि तिरछे और अनिमॉडल (उपयुक्त पैरामीटर विकल्पों के लिए) जैसे कि एफ या गामा वितरण के रूप में हो सकते हैं, और फिर से आप इन्हें छोटा कर सकते हैं ताकि वे असंभव रूप से उच्च देखने के समय की भविष्यवाणी न करें। एक बीटा वितरणएक अच्छा विकल्प हो सकता है अगर आप दिन बिताए हुए हिस्से को देख रहे हों, क्योंकि यह हमेशा 0 और 1 के बीच बँधा होता है और बिना आगे के ट्रेंकुलेशन आवश्यक होता है। यदि आप गैर-देखने वालों के कारण बिल्कुल शून्य पर संभाव्यता की एकाग्रता को शामिल करना चाहते हैं, तो बाधा मॉडल में निर्माण पर विचार करें ।
लेकिन जिस बिंदु पर आप अपने डेटा से पहचान कर सकते हैं, हर सुविधा में फेंकने की कोशिश कर रहे हैं, और कभी अधिक परिष्कृत मॉडल का निर्माण कर सकते हैं, शायद आपको खुद से पूछना चाहिए कि आप ऐसा क्यों कर रहे हैं? क्या एक सरल मॉडल का लाभ होगा, उदाहरण के लिए गणितीय रूप से काम करना आसान है या अनुमान लगाने के लिए कम पैरामीटर हैं? यदि आप चिंतित हैं कि इस तरह का सरलीकरण आपको ब्याज की सभी संपत्तियों पर कब्जा करने में असमर्थ बना देगा, तो यह अच्छी तरह से हो सकता है कि कोई "ऑफ-द-शेल्फ" वितरण वह नहीं करता है जो आप चाहते हैं। हालाँकि, हम नामांकित वितरण के साथ काम करने के लिए प्रतिबंधित नहीं हैं, जिनके गणितीय गुणों को पहले ही स्पष्ट कर दिया गया है। इसके बजाय, एक अनुभवजन्य वितरण फ़ंक्शन के निर्माण के लिए अपने डेटा का उपयोग करने पर विचार करें। यह आपके डेटा में मौजूद सभी व्यवहार को पकड़ लेगा, लेकिन आप इसे "सामान्य" या "गामा" जैसा नाम नहीं दे सकते हैं, और न ही आप गणितीय गुणों को लागू कर सकते हैं जो केवल एक विशेष वितरण से संबंधित हैं। उदाहरण के लिए, "95% डेटा माध्य के 1.96 मानक विचलन के भीतर है" नियम सामान्य रूप से वितरित डेटा के लिए है और आपके वितरण पर लागू नहीं हो सकता है; हालांकि ध्यान दें कि कुछ नियम सभी वितरणों पर लागू होते हैं, उदाहरण के लिए चेबीशेव की असमानता कम से कम गारंटी देती हैआपके डेटा का 75% तिरछे की परवाह किए बिना, माध्य के दो मानक विचलन के भीतर होना चाहिए। दुर्भाग्य से अनुभवजन्य वितरण भी आपके डेटा के उन सभी गुणों को प्राप्त करेगा जो पूरी तरह से नमूना त्रुटि द्वारा उत्पन्न होते हैं, न कि केवल अंतर्निहित आबादी के पास होते हैं, इसलिए आप पा सकते हैं कि आपके अनुभवजन्य वितरण का एक हिस्टोग्राम कुछ कूबड़ और डुबकी है, जो जनसंख्या स्वयं नहीं करती है । आप अपने नमूना आकार को बढ़ाते हुए सुचारू अनुभवजन्य वितरण कार्यों की जांच करना चाहते हैं , या बेहतर हो सकते हैं ।
संक्षेप में: हालांकि सामान्य वितरण में शून्य तिरछा है, आपके डेटा को तिरछा करने के तथ्य को सामान्य वितरण को उपयोगी मॉडल के रूप में खारिज नहीं किया जाता है, हालांकि यह सुझाव देता है कि कुछ अन्य वितरण अधिक उपयुक्त हो सकते हैं। आपको अपने मॉडल को चुनते समय डेटा के अन्य गुणों पर विचार करना चाहिए, इसके अलावा तिरछा, और उन उद्देश्यों पर भी विचार करना चाहिए जिनके लिए आप मॉडल का उपयोग करने जा रहे हैं। यह कहना सुरक्षित है कि देखने के समय की आपकी सच्ची आबादी कुछ प्रसिद्ध, नामित वितरण का बिल्कुल पालन नहीं करती है, लेकिन इसका मतलब यह नहीं है कि इस तरह के वितरण को मॉडल के रूप में बेकार होने के लिए बर्बाद किया जाता है। हालाँकि, कुछ उद्देश्यों के लिए आप केवल अनुभवजन्य वितरण का उपयोग करना पसंद कर सकते हैं, बजाय इसके एक मानक वितरण के लिए प्रयास करने के।