मेरे पास नमूना टिप्पणियों का एक डेटासेट है, जो सीमा डिब्बे के भीतर मायने रखता है। उदाहरण के लिए:
min/max count
40/44 1
45/49 2
50/54 3
55/59 4
70/74 1
अब, इस से औसत का अनुमान लगाना बहुत सीधा है। बस एक सीमा के रूप में प्रत्येक रेंज बिन के माध्य (या मध्य) का उपयोग करें और एक भार के रूप में गिनें और भारित औसत का पता लगाएं:
मेरे परीक्षण के मामले में, यह मुझे 53.82 देता है।
मेरा सवाल अब यह है कि मानक विचलन (या विचरण) खोजने की सही विधि क्या है?
अपनी खोज के माध्यम से, मुझे कई उत्तर मिले हैं, लेकिन मैं अनिश्चित हूं, यदि कोई है, तो वास्तव में मेरे डेटासेट के लिए उपयुक्त है। मैं निम्नलिखित सूत्र को दूसरे प्रश्न पर यहाँ और एक यादृच्छिक NIST दस्तावेज़ को खोजने में सक्षम था ।
जो मेरे परीक्षण मामले के लिए 8.35 का मानक विचलन देता है। हालांकि, भारित साधनों पर विकिपीडिया लेख दोनों सूत्र देता है:
तथा
जो मेरे परीक्षण के मामले में क्रमशः 8.66 और 7.83 के मानक विचलन देते हैं।
अद्यतन करें
@Whuber का धन्यवाद जिन्होंने शेपर्ड के सुधारों और उनसे जुड़ी आपकी उपयोगी टिप्पणियों को देखने का सुझाव दिया। दुर्भाग्य से, मैं उन संसाधनों को समझने में मुश्किल समय पा रहा हूं, जिनके बारे में मैं पा सकता हूं (और मैं कोई अच्छा उदाहरण नहीं खोज सकता)। हालाँकि, मैं समझता हूँ कि निम्नलिखित विचरण का एक पक्षपाती अनुमान है:
मैं यह भी समझता हूं कि पूर्वाग्रह के लिए अधिकांश मानक सुधार एक सामान्य वितरण के प्रत्यक्ष यादृच्छिक नमूनों के लिए हैं। इसलिए, मुझे मेरे लिए दो संभावित मुद्दे दिखाई देते हैं:
- ये बेन्डम रैंडम सैंपल हैं (जो, मुझे पूरा यकीन है, शेपर्ड के करेक्शन में आते हैं।)
- यह अज्ञात है कि डेटा एक सामान्य वितरण के लिए है या नहीं (इस प्रकार मैं यह नहीं मान रहा हूं, जो, मुझे पूरा यकीन है, शेपर्ड के सुधार को अमान्य करता है।)
तो, मेरा अद्यतन प्रश्न है; गैर-सामान्य वितरण पर "सरल" भारित मानक विचलन / विचरण सूत्र द्वारा लगाए गए पूर्वाग्रह से निपटने के लिए उपयुक्त विधि क्या है? विशेष रूप से द्वैध डेटा के संबंध में।
नोट: मैं निम्नलिखित शब्दों का उपयोग कर रहा हूं:
- भारित विचरण है
- टिप्पणियों की संख्या है। (यानी डिब्बे की संख्या)
- नॉनज़रो वेट की संख्या है। (यानी गिनती के साथ डिब्बे की संख्या)
- वज़न हैं (यानी मायने रखता है)
- अवलोकन हैं। (अर्थात बिन का मतलब है)
- भारित माध्य है।