माध्य ढलान की गणना: हार्मोनिक या अंकगणित माध्य?


11

मुझे एक बड़े डेटासेट के लिए औसत उतार-चढ़ाव प्रतिशत ढलान की गणना करनी है, मूल विधि यहां विस्तृत है। हालांकि, मुझे आश्चर्य है कि अगर हार्मोनिक मतलब मानक अंकगणित माध्य से अधिक उपयुक्त हो सकता है, क्योंकि यह तकनीकी रूप से परिवर्तन की दर है। मैंने इसे किसी भी अन्य चर्चा में बिंदुओं, क्षेत्रों, रेखाओं आदि पर औसत ढलान पर नहीं देखा है। इसे पूरा करने के लिए काफी सरल होना चाहिए।

संपादित करें: इस मामले में औसत ढलान की गणना करने का उद्देश्य मॉडलिंग चैनल दीक्षा थ्रेसहोल्ड में उपयोग किए जाने वाले एक पैरामीटर (कई का) उत्पन्न करना है। मेरे पास फ़ील्ड-एकत्रित चैनल हेड लोकेशन का एक सेट है जो मैं फ्लो संचय, विभिन्न औसत अपस्लोप मापदंडों आदि को एकत्र करूंगा, और अन्य मापदंडों के संदर्भ में संचय थ्रेसहोल्ड का वर्णन करने के लिए कई रैखिक प्रतिगमन का उपयोग करूंगा।


4
यह इस बात पर निर्भर करता है कि आप औसत ढलान की गणना क्यों कर रहे हैं। क्या उद्देश्य है? आप किस भौतिक मात्रा को मापने की कोशिश कर रहे हैं? हालांकि औसत के कई रूप वैध हैं, हार्मोनिक मतलब से सावधान रहें: यह समस्याओं का कारण बनता है जब कोई ढलान शून्य होता है, जो अक्सर होता है।
whuber

जवाबों:


10

औसत ढलान एक प्राकृतिक मात्रा की तरह लगता है, लेकिन यह एक अजीब बात है। उदाहरण के लिए, एक सपाट क्षैतिज मैदान का औसत ढलान शून्य है, लेकिन जब आप उस मैदान के डेम में एक छोटे से यादृच्छिक, शून्य-औसत शोर जोड़ते हैं, तो औसत ढलान केवल ऊपर जा सकती है अन्य अजीब व्यवहार डीईएम रिज़ॉल्यूशन पर औसत ढलान की निर्भरता है, जिसे मैंने यहां दस्तावेज किया है , और इसकी निर्भरता डीईएम कैसे बनाई गई थी। उदाहरण के लिए, समोच्च मानचित्रों से बनाए गए कुछ डीईएम वास्तव में थोड़े सीढ़ीदार होते हैं - छोटे अचानक कूदने के साथ जहां समोच्च रेखाएं झूठ बोलती हैं - लेकिन अन्यथा संपूर्ण सतह का सटीक प्रतिनिधित्व करती हैं। उन अचानक कूदता है, अगर औसत प्रक्रिया में बहुत अधिक या बहुत कम वजन दिया जाता है, तो औसत ढलान बदल सकता है।

भारोत्तोलन लाना प्रासंगिक है, क्योंकि, वास्तव में, एक हार्मोनिक माध्य (और अन्य साधन) अलग-अलग ढलानों को भारित कर रहे हैं। इसे समझने के लिए, केवल दो सकारात्मक संख्याओं x और y के हार्मोनिक माध्य पर विचार करें । परिभाषा से,

Harmonic mean(x,y) = 1 / ((1/x + 1/y)/2) = x (y/(x+y)) + y (x/(x+y)) = a x + b y

जहां वजन एक = y / (x + y) और b = x / (x + y) हो। (ये "वेट" कहलाने के लायक हैं क्योंकि ये सकारात्मक और एकता के योग हैं। अंकगणितीय माध्य के लिए, वेट एक = 1/2 और b = 1/2 हैं)। जाहिर है, x से जुड़ा वजन , y / (x + y) के बराबर होता है, जब x , y की तुलना में छोटा होता है । इस प्रकार हार्मोनिक का अर्थ है छोटे मूल्यों से अधिक वजन ।

यह प्रश्न को व्यापक बनाने में मदद कर सकता है। हार्मोनिक का मतलब औसत मूल्य पी द्वारा संचालित औसत के परिवार में से एक है । जिस तरह एक्स और वाई के पारस्परिक के औसत से हार्मोनिक माध्य प्राप्त किया जाता है (और फिर उनके औसत को प्राप्त होता है), सामान्य रूप से हम x और y की pth शक्तियाँ औसत कर सकते हैं (और फिर परिणाम की 1 / pth शक्ति लेते हैं। )। मामले पी = 1 और पी = -1 क्रमशः अंकगणितीय और हार्मोनिक साधन हैं। (हम सीमाएँ ले कर p = 0 के लिए माध्य को परिभाषित कर सकते हैं और इस तरह इस परिवार के सदस्य के रूप में ज्यामितीय माध्य प्राप्त कर सकते हैं।) p1 से घटता है, छोटे मूल्य अधिक से अधिक भारी होते हैं; और जैसे ही पी 1 से बढ़ता है, बड़े मूल्य अधिक से अधिक भारी होते हैं। यह निम्नानुसार है कि पी केवल वृद्धि के रूप में बढ़ सकता है और पी घटने के साथ घट जाना चाहिए । (यह नीचे दिए गए दूसरे आंकड़े में स्पष्ट है, जिसमें तीनों लाइनें या तो सपाट हैं या बाएं से दाएं बढ़ रही हैं।)

मामले का व्यावहारिक दृष्टिकोण लेते हुए, हम इसके बजाय ढलानों के विभिन्न साधनों के व्यवहार का अध्ययन कर सकते हैं और इस ज्ञान को अपने विश्लेषणात्मक टूलबॉक्स में जोड़ सकते हैं: जब हम ढलानों से इस तरह से रिश्ते में प्रवेश करने की उम्मीद करते हैं, ताकि छोटे ढलानों को अधिक ध्यान दिया जाना चाहिए एक प्रभाव, हम 1 से कम p वाला माध्य चुन सकते हैं ; और इसके विपरीत, हम सबसे बड़ी ढलानों पर जोर देने के लिए 1 से ऊपर पी बढ़ा सकते हैं । यह अंत करने के लिए, चलो एक बिंदु के आसपास के क्षेत्र में जल निकासी प्रोफाइल के विभिन्न रूपों पर विचार करें।

यह दिखाने के लिए कि क्या चल सकता है, मैंने तीन गुणात्मक रूप से अलग-अलग स्थानीय इलाकों पर विचार किया है : एक वह जगह है जहां सभी ढलान समान हैं (जो एक अच्छा संदर्भ बनाता है); एक और वह जगह है जहां हम स्थानीय रूप से एक कटोरे के नीचे स्थित होते हैं: हमारे चारों ओर ढलान शून्य होते हैं, लेकिन फिर धीरे-धीरे बढ़ते हैं और अंततः रिम के चारों ओर, मनमाने ढंग से बड़े हो जाते हैं। इस स्थिति का उलटा होता है जहां पास की ढलान मध्यम होती है लेकिन फिर हमसे दूर हो जाती है। ऐसा लगता है कि व्यवहार की एक वास्तविक विस्तृत श्रृंखला को कवर करना होगा।

यहाँ तीन प्रकार के जल निकासी रूपों के छद्म-3 डी भूखंड हैं:

3 डी में भूखंड

यहां मैंने प्रत्येक के माध्य ढलान की गणना की है - एक ही रंग कोडिंग के साथ - पी के एक फ़ंक्शन के रूप में , 2 के माध्यम से -1 (हार्मोनिक माध्य) से पी रेंज दे रहा है ।

ढलान का मतलब है बनाम पी

बेशक नीली रेखा क्षैतिज है: कोई फर्क नहीं पड़ता कि पी क्या मूल्य लेता है, एक स्थिर ढलान का मतलब उस स्थिरांक के अलावा कुछ भी नहीं हो सकता है (जिसे संदर्भ के लिए 1 पर सेट किया गया है)। लाल कटोरे के सुदूर रिम के चारों ओर की ऊँची ढलानें पी ढलानों के रूप में मीन ढलानों को दृढ़ता से प्रभावित करती हैं : ध्यान दें कि वे एक बार पी से अधिक बड़े हो जाते हैं । 1. तीसरी (सोने-हरे) सतह में क्षैतिज रिम हार्मोनिक माध्य का कारण बनता है (p = - १) शून्य होना।

यह उल्लेखनीय है कि तीन घटता के सापेक्ष स्थान p = 0 (ज्यामितीय माध्य) में बदल जाते हैं: p से अधिक 0 के लिए, लाल कटोरे में नीले रंग की तुलना में बड़ी औसत ढलान होती है, जबकि नकारात्मक p के लिए , लाल कटोरे में छोटे औसत होते हैं नीले रंग की तुलना में ढलान। इस प्रकार, पी की आपकी पसंद औसत ढलानों की सापेक्ष रैंकिंग को भी बदल सकती है ।

हार्मोनल माध्य (p = -1) के पीले-हरे आकार पर गहरा प्रभाव हमें विराम देना चाहिए: यह दर्शाता है कि जब जल निकासी में पर्याप्त छोटे ढलान होते हैं, तो हार्मोनिक का मतलब इतना छोटा हो सकता है कि यह किसी भी प्रभाव को प्रभावित करता है अन्य सभी ढलान।

एक खोजपूर्ण डेटा विश्लेषण की भावना में , आप अलग-अलग पी पर विचार कर सकते हैं - चरम भार से बचने के लिए यह 0 से लेकर थोड़ा अधिक से अधिक 1 तक होने देता है - और यह पता लगाने के लिए कि कौन सा मान औसत ढलान और चर के बीच सबसे अच्छा संबंध बनाता है। मॉडलिंग कर रहे हैं (जैसे चैनल आरंभीकरण थ्रेसहोल्ड)। "सर्वश्रेष्ठ" आमतौर पर एक प्रतिगमन मॉडल में "सबसे अधिक रैखिक" या "निरंतर [होमोसिस्टैस्टिक] अवशिष्ट" बनाने के अर्थ में समझा जाता है।


गहन विश्लेषण के लिए धन्यवाद! मुझे इस पर थोड़ा रूकना होगा।
जे ग्वारनेरी

1

मैंने व्ह्यूबर द्वारा उत्कृष्ट सैद्धांतिक उत्तर के लिए एक पूरक उत्तर खोजने के लिए एक अनुभवजन्य दृष्टिकोण अपनाया। मैंने ढलान को डिग्री और औसत में गणना करने का फैसला किया जो एक कोणीय औसत का उपयोग कर रहा है । आगे, मैंने प्रतिशत ढलान के अंकगणितीय और हार्मोनिक साधनों की गणना की मैंने अध्ययन क्षेत्र में बेतरतीब ढंग से नमूना बिंदुओं का एक सेट बनाया। मैंने 100 मीटर की न्यूनतम दूरी के साथ 2000 अंकों का अनुरोध किया, जिसमें 1326 अंक मिले। मैंने प्रत्येक बिंदु पर प्रत्येक क्षुद्र ढलान रेखापुंज के मानों का नमूना लिया, और सूत्र का उपयोग करके प्रतिशत साधनों को डिग्री में परिवर्तित कर दिया Degrees = atan(percent/100)। यहाँ मेरी धारणा यह है कि कोणीय माध्य डिग्री में "सही" माध्य ढलान का उत्पादन करेगा, और जो भी प्रतिशत का मतलब है वह इसके करीब आया, यह सही प्रक्रिया होगी।

इसके बाद, मैंने क्रुस्कल-वालेस परीक्षण (अधिकांश शून्य ढलान मूल्यों के लिए यह मानकर कि यह तीनों में शून्य होगा, और यह शून्य मान विधियों के बीच के अंतर को मुखौटा कर देगा) का उपयोग करके सभी गैर-शून्य मूल्यों की तुलना की। मुझे तीन (ची-वर्ग = 17.9570, DF = 2, p = 0.0001) के बीच एक महत्वपूर्ण अंतर मिला, इसलिए मैंने अल्फा = 0.05 (इलियट और हाइन 2011) का उपयोग करते हुए डन की प्रक्रिया का उपयोग करते हुए डेटा की जांच की । अंतिम परिणाम यह है कि अंकगणित और हार्मोनिक मतलब एक दूसरे से काफी अलग हैं, लेकिन परस्पर विरोधी कोणीय कोण से काफी अलग है:

Comparison           Diff        SE        q         q(0.05)    Conclude                      
------------------------------------------------------------------------------                
arith     harm      164.12    38.78     4.23       2.394    Reject                            
arith     angular   75.3      38.8      1.94       2.394    Do not reject                     
angular   harm      88.82     38.68     2.3        2.394    Do not reject                     

यदि मेरी धारणाएं सही थीं (वे बहुत अच्छी तरह से नहीं हो सकती हैं), इसका मतलब यह है कि जबकि हार्मोनिक और अंकगणित का मतलब एक-दूसरे से अलग-अलग मूल्य बनाते हैं, वे दोनों कोणीय होने के लिए "करीब से" स्वीकार्य हैं। यहां दो अन्य कैविएट हैं, जिनके बारे में मैं सोच सकता हूं (कृपया किसी अन्य को जोड़ दें, यदि आप उनके बारे में सोचते हैं):

  1. एक बड़ा नमूना आकार प्रतिशत साधन और कोणीय माध्य के बीच एक महत्वपूर्ण अंतर पा सकता है। हालाँकि, मेरा नमूना आकार केवल गैर-शून्य मानों के लिए ~ 1000 अंक था।
  2. चूंकि मेरे नमूना अंक जल निकासी घाटियों के संबंध में थे, इसलिए इसमें कुछ छद्म प्रतिकृति शामिल हो सकती हैं, क्योंकि किसी भी ढलान का मतलब इसके ऊपर ढलान से संबंधित होने जा रहा है।

1
यह दिलचस्प (+1) है, लेकिन सीमाओं से सावधान रहें। (1) हां, यदि आप एक बड़ा नमूना आकार चुनते हैं, तो आप पाएंगे कि सभी अंतर महत्वपूर्ण हैं। इसलिए यह एक सांख्यिकीय परिकल्पना परीक्षण का कोई मतलब नहीं है: आप प्रक्रियाओं के बीच अंतर की मात्रा पर ध्यान केंद्रित करना चाहते हैं । (२) आपके परिणाम आपके डेटा के वास्तविक गुणों पर पूरी तरह निर्भर करते हैं। वे अन्य डेटासेट के साथ अलग-अलग होंगे। (3) कोणीय माध्य एक संदर्भ के रूप में उपयोगी है, लेकिन यह किसी भी तरह से एक पसंदीदा मूल्य नहीं है। संदर्भ के रूप में उपयोग करने के लिए पूरी तरह से इस बात पर निर्भर करता है कि आगे के विश्लेषण या मानचित्रण में माध्य का उपयोग कैसे किया जाएगा।
whuber

0

इस धारणा को देखते हुए कि ढलान को परिभाषित करने वाले कोई भी पैरामीटर ज्ञात नहीं हैं, कोई भी सांख्यिकीविद् ढलान का उपयोग करने के लिए कहेंगे जो डेटा के आरएमएस विचलन को कम करता है। (बेशक, व्हीबर के उदाहरण योग्य नहीं हैं क्योंकि उन्होंने गणितीय रूप से उत्पन्न लैंडफॉर्म को चुना है, लेकिन वास्तविक लैंडफॉर्म के लिए कोई ज्ञात-पैरामीटर मान मान्य नहीं होना चाहिए।)


इस उत्तर की सराहना की जाती है, लेकिन मुझे लगता है कि यह स्थिति को गलत समझता है। सबसे महत्वपूर्ण रूप से, इन ढलानों का उपयोग घटता फिट करने के लिए नहीं किया जाता है: "डेटा के आरएमएस विचलन" की अवधारणा बस लागू नहीं होती है। दूसरा, मैंने गुणात्मक लैंडफ़ॉर्म प्रकारों का चयन किया है जो वास्तव में सामना किया जाएगा की एक विस्तृत स्पेक्ट्रम की अवधि के लिए, इसलिए मैं बनाए रखता हूं कि वे उपयोगी जानकारी दें कि क्या उम्मीद की जाए। असली डेटासेट यह समझने में ज्यादा योगदान नहीं देता है कि यहां क्या हो रहा है, क्योंकि "सही" औसत ढलान जैसी कोई चीज नहीं है। मुख्य प्रश्न यह है कि कौन सा औसत उपयोगी या सूचनात्मक होगा।
whuber

1
BTW, मेरा मानना ​​है कि मेरे पास एक सांख्यिकीविद् के रूप में कुछ योग्यताएं हैं । इस मामले के बारे में मेरी राय किसी भी बेहतर या किसी भी बदतर के साथ नहीं बनती है: जैसा कि किसी और के साथ, मुझे इसे स्पष्ट रूप से और उद्देश्यपूर्ण तरीके से वापस करने की आवश्यकता है, और मैं गलत होने और अपने मन को बदलने के लिए अतिसंवेदनशील हूं: - )। मैं इस बिंदु को आपके "किसी भी सांख्यिकीविद्" टिप्पणी के काउंटर के रूप में प्रस्तुत करता हूं।
whuber

जो फिट उपयोगी है उसका प्रश्न, मैं प्रस्तुत करता हूं, इस बात पर निर्भर करता है कि ढलान का क्या उपयोग किया जाना है। उदाहरण के लिए, भूमि की मंदी की संभावना के लिए, स्टंप ढलान को ढलान की क्षमता बनाम ढलान मॉडल के अनुसार हल्के ढलानों की तुलना में अधिक भारित किया जाएगा, फिर आरएमएस फिट दृष्टिकोण मान्य होना चाहिए। अन्य वज़न वाले मॉडल का उपयोग अन्य मिलान से किया जाएगा। संक्षेप में, जो कुछ भी हम जानते हैं उसे वज़न या अन्य माध्यमों से मॉडल करें, फिर आरएमएस पर भरोसा करें क्योंकि हम जो कुछ भी नहीं कर रहे हैं उसके लिए मॉडल है, जो मैं सुझाव दे रहा हूं।
जॉन्सनकी

मैं उस टिप्पणी के आधार से सहमत हूं, जॉन, लेकिन मैं यह नहीं देखता कि आपका निष्कर्ष कैसा है। यदि स्टेटर ढलानों को भारी वजन प्राप्त करना है, तो ऐसा लगता है कि आरएमएस सिर्फ वही है जो आप नहीं करना चाहते हैं, क्योंकि यह ढलान की परवाह किए बिना सभी विचलन को समान रूप से वजन करता है। इसके अलावा, आरएमएस, एक द्विघात हानि समारोह के रूप में, अन्य तकनीकों को प्राप्त करने के लिए एक सार्वभौमिक प्रतिस्थापन नहीं हो सकता है, जिसमें ढलान के गैर-रेखीय पुन: भाव और वैकल्पिक हानि कार्यों का उपयोग शामिल है (उदाहरण के लिए मजबूत फिटिंग विधियों द्वारा शोषण)।
whuber

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.