हालांकि साइट पर कई पोस्ट कॉची के विभिन्न गुणों को संबोधित करते हैं, मैंने एक का पता लगाने का प्रबंधन नहीं किया जो वास्तव में उन्हें एक साथ रखा था। उम्मीद है कि कुछ इकट्ठा करने के लिए यह एक अच्छी जगह हो सकती है। मैं इसका विस्तार कर सकता हूं।
भारी पूंछ
जबकि कॉची सममित और लगभग घंटी के आकार का है, कुछ हद तक सामान्य वितरण की तरह, इसमें बहुत अधिक भारी पूंछ (और "कंधे" से कम) है। उदाहरण के लिए, एक छोटी लेकिन अलग संभावना है कि एक कॉची रैंडम वैरिएबल माध्यिका से 1000 से अधिक इंटरक्वेर्टाइल रेंज बिछाएगा - लगभग एक ही ऑर्डर के सामान्य रैंडम वैरिएबल से कम से कम 2.67 इंटरक्वेर्टाइल रेंज उसके माध्यिका से होती है।
झगड़ा
कॉची का विचरण अनंत है।
संपादित करें: JG टिप्पणियों में कहता है कि यह अपरिभाषित है। यदि हम भिन्नता को मानों के जोड़े के बीच की आधी वर्ग दूरी के औसत के रूप में लेते हैं - जो कि दोनों के मौजूद होने पर विचरण के समान है, तो यह अनंत होगा। हालाँकि, सामान्य परिभाषा से JG सही है। [फिर भी नमूना साधनों के विपरीत, जो वास्तव में n के रूप में कुछ भी बड़े होने के लिए अभिसरण नहीं करता है, नमूना रूपांतरों का वितरण आकार में बढ़ता रहता है क्योंकि नमूना आकार बढ़ता है; स्केल आनुपातिक रूप से n तक बढ़ता है, या समकक्ष रूप से लॉग विचरण का वितरण नमूना आकार के साथ रैखिक रूप से बढ़ता है। ऐसा लगता है कि वास्तव में विचरण के उस संस्करण पर विचार करने के लिए उत्पादक है जो अनन्तता देता है हमें कुछ बता रहा है।]
नमूना मानक विचलन मौजूद हैं, निश्चित रूप से, लेकिन बड़ा नमूना वे बड़े होते हैं (उदाहरण के लिए n = 10 पर माध्य नमूना मानक विचलन 3.67 गुना पैमाने पैरामीटर (आधे IQR) के आसपास के क्षेत्र में है, लेकिन n = के लिए) 100 यह 11.9 के बारे में है)।
मीन
काउची वितरण का भी सीमित अर्थ नहीं है; मतलब के लिए अभिन्न अभिसरण नहीं करता है। नतीजतन, यहां तक कि बड़ी संख्या के कानून लागू नहीं होते हैं - जैसे कि एन बढ़ता है, नमूना का मतलब कुछ निश्चित मात्रा में परिवर्तित नहीं होता है (वास्तव में उनके लिए अभिसरण करने के लिए कुछ भी नहीं है)।
वास्तव में, कॉची वितरण से माध्य का वितरण एकल अवलोकन (!) के वितरण के समान है। पूंछ इतनी भारी है कि योग में अधिक मूल्यों को जोड़ने से वास्तव में अत्यधिक मूल्य की संभावना होती है, जो कि अर्थ लेते समय एक बड़े हर से विभाजित करने के लिए क्षतिपूर्ति करने के लिए पर्याप्त है।
पूर्वानुमान
आप निश्चित रूप से एक कॉची वितरण से टिप्पणियों के लिए पूरी तरह से समझदार भविष्यवाणी अंतराल उत्पन्न कर सकते हैं; वहाँ सरल, काफी कुशल अनुमानक हैं जो स्थान और पैमाने का अनुमान लगाने के लिए अच्छा प्रदर्शन करते हैं और अनुमानित पूर्वानुमान अंतराल का निर्माण किया जा सकता है - इसलिए इस अर्थ में, कम से कम, काउची संस्करण 'पूर्वानुमान' हैं। हालांकि, पूंछ बहुत दूर तक फैली हुई है, ताकि यदि आप एक उच्च-संभावना अंतराल चाहते हैं, तो यह काफी व्यापक हो सकता है।
यदि आप वितरण के केंद्र की भविष्यवाणी करने की कोशिश कर रहे हैं (जैसे एक प्रतिगमन प्रकार मॉडल में), तो कुछ अर्थों में भविष्यवाणी करना अपेक्षाकृत आसान हो सकता है; कैची काफी चरम पर है (पैमाने के एक विशिष्ट माप के लिए केंद्र में "वितरण" के बहुत करीब है), इसलिए यदि आपके पास एक उपयुक्त अनुमानक है, तो केंद्र अपेक्षाकृत अच्छी तरह से अनुमान लगाया जा सकता है।
यहाँ एक उदाहरण है:
मैंने मानक कैची त्रुटियों (100 अवलोकनों, अवरोधन = 3, ढलान = 1.5) के साथ एक रैखिक संबंध से डेटा उत्पन्न किया, और अनुमानित प्रतिगमन लाइनों को तीन तरीकों से अनुमानित रूप से वाई-आउटलेर्स के लिए मजबूत किया है: टके 3 समूह रेखा (लाल), थिल प्रतिगमन (गहरा हरा) और L1- प्रतिगमन (नीला)। कॉची में कोई भी विशेष रूप से कुशल नहीं हैं - हालांकि वे सभी अधिक कुशल दृष्टिकोण के लिए उत्कृष्ट शुरुआती बिंदु बनाएंगे।
फिर भी तीनों डेटा की नीरवता की तुलना में लगभग संयोग हैं और जहां डेटा चलता है, उसके केंद्र के करीब स्थित है; इस अर्थ में कॉची स्पष्ट रूप से "पूर्वानुमेय" है।
पूर्ण अवशिष्टों का माध्य केवल किसी भी पंक्ति के लिए 1 से थोड़ा बड़ा है (अधिकांश डेटा अनुमानित रेखा के काफी करीब स्थित है); इस अर्थ में, कैची "पूर्वानुमान" है।
बाईं ओर के भूखंड के लिए एक बड़ी रूपरेखा है। डेटा को बेहतर तरीके से देखने के लिए मैंने दाईं ओर y- अक्ष पर स्केल को कम कर दिया।