विविधता का एक मजबूत (गैर-पैरामीट्रिक) उपाय गुणांक की तरह - IQR / मंझला, या वैकल्पिक?


12

डेटा के दिए गए सेट के लिए, प्रसार को अक्सर मानक विचलन के रूप में या IQR (अंतर-चतुर्थक श्रेणी) के रूप में गणना की जाती है।

जबकि एक standard deviationसामान्यीकृत (z- स्कोर, आदि) है और इसलिए इसका उपयोग दो अलग-अलग आबादी से प्रसार की तुलना करने के लिए किया जा सकता है, यह IQR के साथ ऐसा नहीं है क्योंकि दो अलग-अलग आबादी के नमूनों में दो अलग-अलग पैमाने पर मान हो सकते हैं,

 e.g. 
 Pop A:  100, 67, 89, 75, 120, ...
 Pop B:  19, 22, 43, 8, 12, ...

जो मैं कर रहा हूं वह एक मजबूत (गैर-पैरामीट्रिक) उपाय है जिसका उपयोग मैं विभिन्न आबादी के भीतर भिन्नता की तुलना करने के लिए कर सकता हूं।

विकल्प 1: IQR / Median- यह भिन्नता के गुणांक के अनुरूप होगा , अर्थात ।σμ

विकल्प 2: Range / IQR

प्रश्न: आबादी के बीच भिन्नता की तुलना के लिए अधिक सार्थक उपाय कौन सा है? और अगर यह चॉइस 1 है, तो च्वाइस 2 किसी भी चीज़ के लिए उपयोगी है / सार्थक है, या यह एक मौलिक रूप से त्रुटिपूर्ण उपाय है?


बहुत उपयोगी चर्चा के लिए धन्यवाद। कुछ उपयोगी फॉलो-अप - क्वार्टर्टाइल की विभिन्न परिभाषाएं और इसलिए IQR (जॉन), मानक विचलन वास्तव में मानकीकरण नहीं (हार्वे), और QQ प्लॉट दो वितरण (पीटर) की तुलना करने के लिए एक उपकरण के रूप में। (तीनों उत्तरों के लिए +1!)
असद अब्राहिम

जवाबों:


13

प्रश्न का अर्थ है कि मानक विचलन (एसडी) किसी तरह सामान्यीकृत है, इसलिए इसका उपयोग दो अलग-अलग आबादी की परिवर्तनशीलता की तुलना करने के लिए किया जा सकता है। ऐसा नहीं। जैसा कि पीटर और जॉन ने कहा, यह सामान्यीकरण भिन्नता (सीवी) के गुणांक की गणना करते समय किया जाता है , जो एसडी / मीन के बराबर होता है। एसडी मूल डेटा के रूप में एक ही इकाइयों में है। इसके विपरीत, CV एक इकाई रहित अनुपात है।

आपकी पसंद 1 (IQR / मेडियन) CV के अनुरूप है। सीवी की तरह, यह केवल तभी समझ में आएगा जब डेटा अनुपात डेटा हो। इसका मतलब है कि शून्य वास्तव में शून्य है। शून्य का कोई वजन नहीं होता है। शून्य की लंबाई कोई लंबाई नहीं है। एक काउंटर उदाहरण के रूप में, यह सी या एफ में तापमान के लिए कोई मतलब नहीं होगा, क्योंकि शून्य डिग्री तापमान (सी या एफ) का मतलब यह नहीं है कि कोई तापमान नहीं है। बस सी या एफ पैमाने का उपयोग करने के बीच स्विच करने से आपको सीवी के लिए या आईक्यूआर / मेडियन के अनुपात के लिए एक अलग मूल्य मिलेगा, जो उन दोनों अनुपातों को अर्थहीन बनाता है।

मैं पीटर और जॉन से सहमत हूं कि आपका दूसरा विचार (रेंज / आईक्यूआर) आउटलेर्स के लिए बहुत मजबूत नहीं होगा, इसलिए शायद उपयोगी नहीं होगा।


2
हार्वे - धन्यवाद - आप सही कह रहे हैं, एसडी बिल्कुल भी सामान्यीकृत नहीं है ... मैं z-scoresमूल्यों को मानकीकृत करने और इस समस्या के साथ, मानक विचलन के संदर्भ में वितरण के भीतर अपनी स्थिति को सामान्य बनाने की अवधारणा को भ्रमित कर रहा था , जो उनकी परिवर्तनशीलता के क्रम में उत्पादों के समूहों को रैंक करने में सक्षम होने के बारे में है। अपने उत्तर को सही के रूप में चुनना क्योंकि जब पीटर और जॉन दोनों बहुत मददगार थे, तो आपने मुझे वैचारिक मिश्रण के लिए सचेत किया। मंझला 0. के पास सीमित उपयोग के विकल्प 1 पर अच्छा बिंदु। सौभाग्य से, मेरी समस्या में, मुझे इस बारे में चिंता करने की ज़रूरत नहीं है।
असद इब्राहिम

मैं इसे एक पेपर में उपयोग करना चाहता हूं। क्या यह संदर्भित (पुस्तक / कहीं सहकर्मी-समीक्षित) एक अच्छी जगह है?
बेन बोल्कर

15

यह समझना महत्वपूर्ण है कि न्यूनतम और अधिकतम अक्सर उपयोग करने के लिए बहुत अच्छे आँकड़े नहीं हैं (यानी, वे नमूने से नमूने में बहुत उतार-चढ़ाव कर सकते हैं, और सामान्य वितरण का पालन नहीं करते हैं, जैसे कि, केंद्रीय सीमा प्रमेय के कारण इसका मतलब हो सकता है) । नतीजतन, रेंज इस सटीक नमूने की सीमा को बताने के अलावा किसी अन्य चीज के लिए एक अच्छा विकल्प है । परिवर्तनशीलता का प्रतिनिधित्व करने के लिए एक सरल, गैरपारंपरिक सांख्यिकी के लिए, अंतर-चतुर्थक रेंज बहुत बेहतर है। हालाँकि, जब मैं IQR / मंझला और भिन्नता के गुणांक के बीच सादृश्य देखते हैं, मुझे नहीं लगता कि यह सबसे अच्छा विकल्प होने की संभावना है।

आप माध्यिका ( MADM ) से मध्ययुगीन निरपेक्ष विचलन को देखना चाहते हैं । वह है: मुझे संदेह है कि भिन्नता के गुणांक के लिए एक बेहतर गैर-समरूपता MADM / मंझला होगी, बजाय IQR / मंझला।

MADM=median(|ximedian(x)|)

1
दिलचस्प पसंद MADM/median, अनिवार्य रूप से मध्यम मूल्य से मध्यम अंतर। चलो इस चॉइस को कॉल करते हैं 3. चॉइस 1 के आपके आकलन से सहमत हैं, इसलिए यह बाहर है, धन्यवाद। जब आप 'बेहतर' का सुझाव देते हैं, तो च्वाइस 3 के मुकाबले चॉइस 2 की तुलना करने के लिए कौन से गुण का उपयोग किया जा सकता है, यह देखने के लिए कि कौन सा बेहतर है?
असद इब्राहिम

1
आपके द्वारा उपयोग की जाने वाली विशेषताएँ इस बात पर निर्भर करेंगी कि मीट्रिक के लिए आपके लक्ष्य क्या हैं। हालांकि, मेरा केवल यही मतलब था कि यह CoV के लिए बेहतर सादृश्य है । NB कि तीसरी चतुर्थांश आपके डेटा का माध्यिका है जो कि माध्यिका के ऊपर है, और 1 q नीचे के लोगों का माध्यिका है, इसलिए लंबे समय में IQR / 2 MADM (nb) के बराबर होगा, वे समान होने की गारंटी नहीं हैं एक दिए गए नमूने में)। IQR पॉप में, इसके सही मूल्य से, आगे, भिन्न होगा, लेकिन मुझे यकीन नहीं है कि क्या, यदि कोई हो, तो इसके निहितार्थ, और स्टैंड होंगे। अं। IQR / 2 MADM के SE के समान होना चाहिए।
गंग -

मैं देखता हूं, स्पष्टीकरण के लिए धन्यवाद। Q3 और Q1 की औसत व्याख्या के बारे में अच्छी बात। मैं MADM/medianसाथ एक कोशिश दे दूँगा IQR/median। साइड-बाय-साइड तुलना दिलचस्प हो सकती है। (दिलचस्प सुझाव के लिए +1)
असद अब्राहिम

6

"च्वाइस 1" वह है जो आप चाहते हैं यदि आप गैर-पैरामीट्रिक्स का उपयोग कर रहे हैं, तो आउटलेर्स के प्रभाव को कम करने के सामान्य उद्देश्य के लिए। यहां तक ​​कि अगर आप इसे तिरछा होने के कारण उपयोग कर रहे हैं, तो आमतौर पर पूंछ में अत्यधिक मूल्यों के साइड इफेक्ट होते हैं, जो आउटलेयर हो सकते हैं। आपका "च्वाइस 2" बाहरी रूप से या किसी भी चरम मूल्यों से नाटकीय रूप से प्रभावित हो सकता है, जबकि आपके पहले समीकरण के घटक उनके खिलाफ अपेक्षाकृत मजबूत हैं।

[यह इस पर थोड़ा निर्भर करेगा कि आप किस तरह का आईक्यूआर चुनते हैं (क्वांटाइल पर आर मदद देखें)।]


आप रहे हों तो सही, मैंने कहा जाना चाहिए था "यह वह जगह है analagous भिन्नता का गुणांक की परिभाषा ... (सवाल में अब तय हो गई) के लिए!
असद इब्राहिम

आप किस तरह के आईक्यूआर का चयन करते हैं, इस पर निर्भर टिप्पणी के लिए धन्यवाद ... - मुझे एहसास नहीं था कि क्वार्टराइल / क्वांटाइल्स के लिए बहुत सारी कब्ज परिभाषाएं थीं! मैं एक्सेल के अंतर्निहित quartile( )फ़ंक्शन का उपयोग कर रहा हूं , और फिर ले रहा हूं IQR := Q3 - Q1। मेरे नंबर एक साल में साप्ताहिक माप की समय श्रृंखला से आते हैं। माप औद्योगिक प्रदर्शन के उपाय हैं और इसलिए एक सतत वितरण से हैं। अलग-अलग आबादी अलग-अलग उत्पाद समूह हैं। इस स्थिति में, मुझे नहीं लगता कि विभिन्न परिभाषाएँ व्यवहार में बहुत भिन्न होंगी?
असद अब्राहिम

6

मैं सीवी जैसे उपायों की गणना नहीं करना पसंद करता हूं क्योंकि मैं हमेशा यादृच्छिक चर के लिए एक मनमाना मूल रखता हूं। एक मजबूत फैलाव के विकल्प के संबंध में, गिनी के माध्य अंतर को हरा पाना मुश्किल है, जो दो अवलोकनों के बीच अंतर के सभी संभावित निरपेक्ष मूल्यों का मतलब है। कुशल अभिकलन के लिए उदाहरण के लिए R rmsपैकेज GiniMdफ़ंक्शन देखें। सामान्यता के तहत, फैलाव का आकलन करने के लिए एसडी के रूप में गिन्नी का औसत अंतर 0.98 है।


3

@ जौन की तरह मैंने भी कभी भिन्नता के गुणांक की उस परिभाषा को नहीं सुना। मैं यह नहीं कहूंगा कि अगर मैंने इसका इस्तेमाल किया, तो यह लोगों को भ्रमित करेगा।

"कौन सा सबसे उपयोगी है?" इस बात पर निर्भर करेगा कि आप इसका क्या उपयोग करना चाहते हैं। निश्चित रूप से पसंद 1 आउटलेर्स के लिए अधिक मजबूत है, यदि आप सुनिश्चित हैं कि आप क्या चाहते हैं। लेकिन दो वितरणों की तुलना करने का उद्देश्य क्या है? तुम क्या करने की कोशिश कर रहे हो?

एक विकल्प दोनों उपायों को मानकीकृत करना और फिर सारांश देखना है।

एक और QQ प्लॉट है।

कई अन्य भी हैं।


अच्छा बिंदु - भिन्नता के गुणांक के अनुरूप होना चाहिए (मैंने सुधार किया है)।
असद इब्राहिम

मेरे नंबर एक साल में साप्ताहिक माप की समय श्रृंखला से आते हैं। माप औद्योगिक प्रदर्शन के उपाय हैं और इसलिए एक सतत वितरण से हैं। विभिन्न आबादी अलग-अलग उत्पाद समूह हैं और मुझे लगभग 50 उत्पाद समूह मिले हैं। मैं जो करने की कोशिश कर रहा हूं वह विभिन्न उत्पाद समूहों के बीच निहित परिवर्तनशीलता की तुलना करने में सक्षम है। विशेष रूप से, मैं परिवर्तनशीलता के घटते क्रम में उत्पाद समूहों को रैंक करने में सक्षम होना चाहता हूं।
असद इब्राहिम

आपका क्या मतलब है 'दोनों उपायों को मानकीकृत करें और फिर सारांश देखें'? मुझे लगा कि च्वाइस 1 उन्हें मानकीकृत कर रहा था ...!
असद इब्राहिम

2

यह पत्र भिन्नता के गुणांक के लिए दो अच्छे मजबूत विकल्प प्रस्तुत करता है। मध्ययुगीन द्वारा विभाजित एक अंतर-दूरी सीमा है, जो है:

IQR / मंझला = (Q3-Q1) / मंझला

अन्य माध्यिका द्वारा विभाजित माध्य निरपेक्ष विचलन है:

MAD / मंझला

वे उनकी तुलना करते हैं और निष्कर्ष निकालते हैं कि सामान्य बोलने वाला दूसरा थोड़ा कम परिवर्तनशील है और शायद अधिकांश अनुप्रयोगों के लिए बेहतर है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.