सकारात्मक और नकारात्मक मूल्यों वाले डेटा का उपयोग करते समय भिन्नता का गुणांक मान्य क्यों नहीं है?


10

मुझे अपने प्रश्न का निश्चित उत्तर नहीं मिल रहा है।

मेरे डेटा में 0.27 से 0.57 तक के भिन्न माप के साथ कई भूखंड हैं। मेरे मामले में, सभी डेटा मान सकारात्मक हैं, लेकिन माप स्वयं परावर्तित मूल्यों के अनुपात पर आधारित है, जो -1 से +1 तक हो सकता है। भूखंड NDVI के मूल्यों का प्रतिनिधित्व करते हैं , वनस्पति "उत्पादकता" का एक दूरस्थ रूप से व्युत्पन्न सूचक है।

मेरा इरादा प्रत्येक भूखंड पर मूल्यों की परिवर्तनशीलता की तुलना करना था, लेकिन चूंकि प्रत्येक भूखंड का एक अलग मतलब है, मैंने प्रति भूखंड एनडीवीआई मूल्यों के सापेक्ष फैलाव को सीवी का उपयोग करने के लिए चुना।

मैं जो समझता हूं, इन भूखंडों का सीवी लेना कोषेर नहीं है क्योंकि प्रत्येक भूखंड में सकारात्मक और नकारात्मक दोनों मूल्य हो सकते हैं। ऐसे उदाहरणों में सीवी का उपयोग करना उचित क्यों नहीं है? कुछ व्यवहार्य विकल्प (जैसे, रिश्तेदार फैलाव के समान परीक्षण, डेटा परिवर्तन आदि) क्या होंगे?


1
परिवर्तनशीलता की तुलना करने का उद्देश्य क्या है? आप सीवी की तरह सापेक्ष माप के बजाय वास्तविक परिवर्तनशीलता के उपायों की तुलना एसडी, एमएडी, रेंज, या जो कुछ भी क्यों नहीं करते हैं (जो कि यहां कोई मतलब नहीं है)?
whuber

भूखंडों के बीच के अंतर के लिए मैं सीवी का उपयोग कर रहा हूं। क्या इसका कोई मतलब नहीं है क्योंकि मूल्य सभी भूखंडों में -1 और +1 के बीच है? यानी, "वास्तविक परिवर्तनशीलता" भूखंडों के बीच अंतर का अधिक संकेत होगा?
पैगंबर 60091

2
सीवी परिभाषा के आधार पर भिन्नता का एक सापेक्ष माप है। यह किसी भी नकारात्मक मतलब के लिए निरर्थक परिणाम देता है (आप फैलाव या प्रसार की नकारात्मक मात्रा की व्याख्या नहीं कर सकते हैं)। सकारात्मक साधनों के लिए, यह दी गई मात्रा को फैलता है जब मतलब छोटा होता है तो यह बहुत बड़ा दिखता है। जब यह चाहा जाता है, तो आप जो कर रहे हैं वह आपके डेटा को लघुगणकीय पैमाने पर तुलना करने के लिए प्रभावी रूप से समतुल्य है - और इससे कोई मतलब नहीं है कि जब भी कोई डेटा शून्य या नकारात्मक हो सकता है। यह संभव है कि आपके डेटा को परिवर्तनशीलता की अच्छी तुलना की अनुमति देने के लिए किसी प्रकार की पुन: अभिव्यक्ति की आवश्यकता हो; यह इस बात पर निर्भर करता है कि वे कैसे उत्पन्न होते हैं।
whuber

स्पष्टीकरण के लिए +1। जबकि मेरे भूखंडों के साधन सभी सकारात्मक हैं, प्रत्येक भूखंड के भीतर नकारात्मक मूल्य हो सकते हैं। उपरोक्त के आधार पर, और पीटर के जवाब के नीचे, यह दिखाई देगा कि सीवी का उपयोग नहीं किया गया है। मैं संभावित रूप से मूल्यों को ध्यान में रखते हुए और / या वास्तविक परिवर्तनशीलता के उपायों का उपयोग करके देखूंगा।
पैगंबर 60091

1
यदि आप समझदारी से एक निरंतरता जोड़कर अपने डेटा को पुनः प्राप्त कर सकते हैं, तो इसका मतलब यह भी होगा कि CV एक अच्छा विचार नहीं है। ऐसा इसलिए है क्योंकि एक निरंतर जोड़ने से सीवी बदल जाएगा लेकिन बदलाव नहीं होगा।
पीटर Flom

जवाबों:


11

सीवी क्या है इसके बारे में सोचें: मानक विचलन के अनुपात का मतलब है। लेकिन अगर चर में सकारात्मक और नकारात्मक मूल्य हो सकते हैं, तो इसका मतलब 0 के बहुत करीब हो सकता है; इस प्रकार, सीवी अब वह नहीं करता है जो वह करने वाला है: मतलब की तुलना में एसडी कितना बड़ा है, इसका बोध कराएं।

संपादित करें: एक टिप्पणी में, मैंने कहा कि यदि आप समझदारी से चर के लिए एक निरंतर जोड़ सकते हैं, तो सीवी अच्छा नहीं था। यहाँ एक उदाहरण है:

set.seed(239920)
x <- rnorm(100, 10, 2)
min(x)#To check that none are negative
(CVX <- sd(x)/mean(x))
x2 <- x + 10
(CVX2 <- sd(x2)/mean(x2))

x2 बस x + 10 है। मुझे लगता है कि यह सहज रूप से स्पष्ट है कि वे समान रूप से परिवर्तनशील हैं; लेकिन सीवी अलग है।

इसका एक वास्तविक जीवन उदाहरण होगा यदि x का तापमान C में डिग्री सेल्सियस और X2 का डिग्री K में तापमान था (हालाँकि कोई तर्क दे सकता है कि K उचित पैमाना है, क्योंकि इसमें परिभाषित 0 है)।


धन्यवाद! इसलिए चिंता शून्य के पास होने के बारे में अधिक है, और जरूरी नहीं कि आपके डेटा में सकारात्मक और नकारात्मक मूल्य हों। यदि ऐसा है, तो शून्य के करीब कैसे "बहुत करीब" माना जाता है? मेरे मामले में, मैं कहूंगा कि मैं शून्य के पास अपने साधनों से दूर हूं। क्या इसका निर्धारण करने का कोई निश्चित तरीका है?
पैगंबर 60091

नहीं, चिंता यह है कि CV अब वह नहीं करता है जो उसे करना चाहिए, भले ही केवल 1 नकारात्मक मूल्य हो। यदि आपके पास नकारात्मक मूल्य हैं, तो CV का उपयोग न करें। इसके अलावा, यदि आपके मान मनमाने पैमाने पर हैं, तो CV का उपयोग न करें।
पीटर Flom

पूर्णता के लिए, क्या आप थोड़ा और स्पष्टीकरण दे सकते हैं कि मनमाना पैमाने का उपयोग सीवी के उपयोग को अमान्य क्यों करता है? धन्यवाद!
पैगंबर 60091

सभी निष्पक्षता में, मुझे लगता है कि @whuber तब्दील बनाम अनियंत्रित डेटा की तुलना की वकालत नहीं कर रहा था, लेकिन आपकी बात अभी भी बनी हुई है: स्केलिंग सीवी को प्रभावित करेगा, जब कोई सोच सकता है कि परिणाम समान रहना चाहिए। खिलौना आर कोड के लिए +1!
पैगंबर 60091

मेरे पास इस थ्रेड पर @whuber की टिप्पणियों का कोई तर्क नहीं है।
पीटर Flom

0

मैं इन्हें भिन्नता के विभिन्न मॉडल मानता हूं। ऐसे सांख्यिकीय मॉडल हैं जहां CV स्थिर है। जहां काम करने वाले लोग सीवी रिपोर्ट कर सकते हैं। ऐसे मॉडल हैं जहां मानक विचलन मतलब का एक शक्ति कार्य है। ऐसे मॉडल हैं जहां मानक विचलन स्थिर है। एक नियम के रूप में एक स्थिर-सीवी मॉडल अनुपात एसडी चर के लिए एक निरंतर एसडी मॉडल की तुलना में बेहतर प्रारंभिक अनुमान है। आप इस पर अटकलें लगा सकते हैं कि यह क्यों सच होगा, शायद एडिटिव इंटरैक्शन के बजाय गुणा के प्रसार पर आधारित है।

लगातार-सीवी मॉडलिंग अक्सर लॉगरिदमिक परिवर्तन के साथ जुड़ा हुआ है। (एक महत्वपूर्ण अपवाद एक गैर-प्रतिक्रियात्मक प्रतिक्रिया है जो कभी-कभी शून्य होती है।) उस पर देखने के लिए कुछ तरीके हैं। सबसे पहले, यदि CV स्थिर है, तो लॉग पारंपरिक परिवर्तन-स्थिरीकरण परिवर्तन हैं। वैकल्पिक रूप से, यदि आपका त्रुटि मॉडल लॉग स्केल में SD स्थिरांक के साथ तार्किक है, तो CV उस एसडी का एक साधारण परिवर्तन है। सीवी लॉग-स्केल एसडी के बराबर है जब दोनों छोटे होते हैं।

आँकड़ों को लागू करने के दो तरीके 101 तरीके एक मानक विचलन के रूप में हैं डेटा आपके द्वारा प्राप्त किए गए तरीके से (या यदि वे अनुपात पैमाने हैं)। आप सबसे अच्छा अनुमान लगाते हैं कि आप जान सकते हैं कि प्रकृति अधिक जटिल हो सकती है और आगे का अध्ययन क्रम में हो सकता है। इस बात का ध्यान रखें कि लोगों ने पहले आपके तरह के डेटा के साथ क्या उपयोगी पाया है।

यहां एक मामला है जहां यह सामान महत्वपूर्ण है। रासायनिक सांद्रता को कभी-कभी सीवी के साथ संक्षेपित किया जाता है या लॉग स्केल में मॉडलिंग की जाती है। हालांकि, पीएच एक लॉग एकाग्रता है।


3
आपके योगदान के लिए धन्यवाद, और हमारी साइट पर आपका स्वागत है! क्या आप यह स्पष्ट कर सकते हैं कि कैसे आपका उत्तर उन सीवी का उपयोग करने की वैधता के बारे में सवाल को संबोधित करता है जो नकारात्मक मूल्यों वाले डेटा को चिह्नित कर सकते हैं? वह स्थिति आपकी किसी टिप्पणी से आच्छादित नहीं होगी।
व्हिबर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.