अनिश्चितताओं के साथ कई मापों का मानक विचलन


13

मेरे पास 1 हर्ट्ज (7200 माप) के नमूने दर के साथ दो 2 घंटे का जीपीएस डेटा है। डेटा फॉर्म , जहाँ माप अनिश्चितता है।एन σ(X,Xσ,Y,Yσ,Z,Zσ)Nσ

जब मैं सभी मापों (जैसे कि उन दो घंटों का औसत Z मान) का अर्थ लेता हूं, तो इसका मानक विचलन क्या है? मैं निश्चित रूप से जेड मानों से मानक विचलन की गणना कर सकता हूं, लेकिन फिर मैं इस तथ्य की उपेक्षा करता हूं कि ज्ञात माप अनिश्चितताएं हैं ...

संपादित करें: डेटा सभी एक ही स्टेशन से है, और सभी निर्देशांक हर सेकंड में फिर से निकाले जाते हैं। उपग्रह नक्षत्रों आदि के कारण हर माप में एक अलग अनिश्चितता होती है। मेरे विश्लेषण का उद्देश्य किसी बाहरी घटना (अर्थात भूकंप) के कारण विस्थापन का पता लगाना है। मैं भूकंप से पहले 7200 माप (2h) के लिए माध्य लेना चाहता हूं और भूकंप के बाद 2h के लिए दूसरा साधन, और फिर परिणामी अंतर (उदाहरण के लिए ऊंचाई) की गणना करता हूं। इस अंतर के मानक विचलन को निर्दिष्ट करने के लिए, मुझे दो साधनों के मानक विचलन को जानने की आवश्यकता है।


3
अच्छा प्रश्न। इससे भी महत्वपूर्ण बात यह है कि डेटा को समय के साथ दृढ़ता से सहसंबद्ध किया जाएगा: माप अनिश्चितताओं में भिन्नता की तुलना में उत्तर पर इसका अधिक गहरा प्रभाव पड़ेगा।
whuber

व्हिबर की टिप्पणी और डेथकिल 14 के जवाब पर चुटकी लेते हुए, आपने हमें ठीक से जवाब देने के लिए पर्याप्त जानकारी नहीं दी है। यह जानना महत्वपूर्ण है कि को मापने में त्रुटियां कैसे "काम करती हैं।" उदाहरण के लिए, यदि को मापने में त्रुटि 3 सेकंड में सकारात्मक थी, तो यह 4 सेकंड में सकारात्मक होने की संभावना कम / ज्यादा होती है --- अर्थात सीरियल संबंध क्या है? दूसरा, यदि में त्रुटि 3 सेकंड में सकारात्मक थी, तो और / या में त्रुटि 3 सेकंड में सकारात्मक होने की संभावना कम / अधिक है ? 2 सेकंड में? 4 सेकंड में? एक्स एक्स वाई जेडX,Y,ZXXYZ
बिल

थोड़ा अलग सवाल से संबंधित है: माप त्रुटि कितनी व्यवस्थित है? मान लीजिए कि मैंने कहा "हाँ, को मेरे सामने वाले लॉन पर थोड़ा ऊंचा मापा गया था। मेरे फ्रंट लॉन पर को लगभग हमेशा थोड़ा ऊंचा मापा जाता है।" क्या वह पागल बयान होगा? क्या माप त्रुटि इस तरह से काम करती है कि एक विशेष स्थान बहुत अधिक बार हो सकता है, जबकि एक अन्य स्थान बहुत अधिक बार बहुत कम हो सकता है, आदि "या क्या सभी त्रुटि क्षणभंगुरता है?एक्सXX
बिल

@ बिल: सीरियल संबंध जरूर है। माप की त्रुटियां दो घंटे से बहुत अधिक स्थिर होती हैं। हालांकि, वे आम तौर पर डेटा से गणना की जाने वाली मानक विचलन से बड़े होते हैं, जिसने मुझे इस सवाल का नेतृत्व किया।
16

आपका प्रश्न अभी भी धारावाहिक सहसंबंध के अस्तित्व को स्पष्ट रूप से प्रकट नहीं करता है। दुर्भाग्य से, आपके पास तीन सावधानीपूर्वक निर्मित उत्तर हैं जो आपके लिए लगभग उतने उपयोगी नहीं हैं जितने वे हो सकते हैं।
Glen_b -Reinstate मोनिका

जवाबों:


7

मुझे संदेह है कि इस प्रश्न की पिछली प्रतिक्रियाएं निशान से थोड़ी दूर हो सकती हैं। मुझे ऐसा लगता है कि मूल पोस्टर वास्तव में यहाँ क्या पूछ रहा है, जैसा कि कहा जा सकता है, "सदिश मापों की एक श्रृंखला: साथ , और माप सहसंयोजक :मैं=1,2,3,,7200सीमैं=( एक्स 2 σ , मैं 0 0 0 वाई 2 σ , मैं 0 0 0 Z 2 σ , मैं )

θi=(XiYiZi)
i=1,2,3,...,7200
Ci=(Xσ,i2000Yσ,i2000Zσ,i2)
वेक्टर मापों की इस श्रृंखला के लिए मैं कोविरियन-वेटेड माध्य की सही गणना कैसे करूंगा, और बाद में, मैं इसके मानक विचलन की सही गणना कैसे करूंगा? "इस सवाल का उत्तर भौतिक दर्शकों के लिए सांख्यिकी में विशेषज्ञता वाली बहुत सी पाठ्यपुस्तकों में पाया जा सकता है। एक उदाहरण जो मुझे विशेष रूप से पसंद है फ्रेडरिक जेम्स, "प्रायोगिक भौतिकी में सांख्यिकीय तरीके" , द्वितीय संस्करण, विश्व वैज्ञानिक, 2006, धारा 11.5.2, "स्वतंत्र अनुमानों का संयोजन", पृष्ठ 323-324। एक और अच्छा, लेकिन। अधिक परिचयात्मक स्तर का पाठ, जो स्केलर मूल्यों के लिए विचरण-भारित माध्य गणना का वर्णन करता है (जैसा कि ऊपर प्रस्तुत पूर्ण वेक्टर मात्रा के विपरीत है) फिलिप आर। बेविंगटन और डी। कीथ रॉबिन्सन हैं, "भौतिक विज्ञान के लिए डेटा में कमी और त्रुटि विश्लेषण ", 3 डी संस्करण, मैकग्रा-हिल, 2003, धारा 4.1.x, "वेटिंग द डेटा - नॉनफॉरम यूनिसेक्स"। क्योंकि पोस्टर के प्रश्न में इस मामले में एक विकर्ण कोविरियस मैट्रिक्स है (यानी, सभी ऑफ-विकर्ण तत्व शून्य हैं), समस्या वास्तव में तीन व्यक्तिगत (यानी, एक्स, वाई, जेड) स्केल की गई भारित समस्याओं का मतलब है, इसलिए बेविंगटन और रॉबिन्सन विश्लेषण समान रूप से यहां भी लागू होते हैं।

सामान्य तौर पर, जब stackexchange.com प्रश्नों का उत्तर दिया जाता है, तो मैं सामान्य रूप से इसे लंबे समय तक व्युत्पन्न करने के लिए उपयोगी नहीं पाता, जो पहले ही कई पाठ्यपुस्तकों में प्रस्तुत किया जा चुका है - यदि आप सामग्री को वास्तव में समझना चाहते हैं, और समझें कि उत्तर क्यों दिखते हैं जिस तरह से वे करते हैं, तो आपको वास्तव में केवल उन स्पष्टीकरणों को पढ़ना और पढ़ना चाहिए जो पहले से ही पाठ्यपुस्तक के लेखकों द्वारा प्रकाशित किए गए हैं। इसे ध्यान में रखते हुए, मैं केवल उन उत्तरों को फिर से बताते हुए सीधे कूद जाऊंगा जो दूसरों ने पहले ही प्रदान कर दिए हैं। फ्रेडरिक जेम्स से, सेट करते हुए , भारित माध्य है: और भारित माध्य के सहसंयोजक:N=7200

θmean=(i=1NCi1)1(i=1NCi1θi)
Cmean=(i=1NCi1)1
यह उत्तर पूरी तरह से सामान्य है, और मान्य होगा कोई बात नहीं क्या , यहां तक ​​कि गैर-विकर्ण माप के लिए भी।Ci

चूंकि ऐसा होता है कि माप के सहसंयोजक इस विशेष मामले में विकर्ण हैं , बीइंगटन और रॉबिन्सन विश्लेषण का उपयोग व्यक्तिगत , , और लिए विचरण-भारित साधनों की गणना करने के लिए किया जा सकता है । स्केलर उत्तर का रूप वेक्टर उत्तर के रूप के समान है: और विचरण या समकक्ष, और इसी तरहXiYiZi

Xmean=i=1NXiXσ,i2i=1N1Xσ,i2
Xσ,mean2=1i=1N1Xσ,i2
Yमीटरएकn,वाईσ,मीएकएनजेडमीटरएकn,जेडσ,मीएकn
Xσ,mean=1i=1N1Xσ,i2
Ymean,Yσ,meanऔर । एक संक्षिप्त विकिपीडिया प्रविष्टि जो स्केलर-मूल्यवान मामले के लिए इसी उत्तर पर आती है, यहां उपलब्ध हैZmean,Zσ,mean

शायद मैं थोड़ा अस्पष्ट था, इसलिए मैंने कुछ और जानकारी जोड़ी है। मुझे नहीं लगता कि मुझे अपने माप का वजन करने की आवश्यकता है।
16

1
हाँ आप कीजिए। एक चरम मामले पर विचार करें, बस एक सोचा प्रयोग के रूप में: मान लें कि आपके पास 7200 के बजाय केवल 2 जीपीएस माप हैं। इसके अलावा मान लीजिए कि एक जीपीएस माप में +/- 5 फीट की अनिश्चितता है, जबकि दूसरे में अनिश्चितता है + / - 5 मील। अनिश्चितता संख्या शाब्दिक रूप से आपको बताती है कि माप कितना संभावित रूप से गलत है। इसका मतलब है कि +/- 5 मील मूल्य कम से कम कई मील दूर होने की संभावना है। क्या आप वास्तव में इस संख्या को अपने औसत में, किसी भी सार्थक तरीके से शामिल करना चाहते हैं? भारित औसत आपको उन मूल्यों को छूट देने की अनुमति देता है जिन पर भरोसा नहीं किया जाना चाहिए।
stachyra

1
BTW, मेरे जवाब में इसके लिए एक और बात है: अपनी मूल पोस्ट में, आप इसका उल्लेख करते हैं कि जिस कारण से आप बस नमूना मानक विचलन का उपयोग नहीं करना चाहते हैं, सीधे जेड मानों से गणना की जाती है, उस स्थिति में, आप करेंगे अपने शब्दों में, "इस तथ्य की उपेक्षा करें कि ज्ञात माप अनिश्चितताएं हैं"। मेरा उत्तर (ठीक है, वास्तव में, अस्पष्ट पाठ्यपुस्तक का उत्तर, जिसे मैं आपके साथ साझा कर रहा हूं) ज्ञात माप अनिश्चितताओं का उपयोग करता है, ठीक उसी तरह जैसे आपने पूछा था। यह सिर्फ इतना है कि यह अपेक्षा से अधिक स्थानों (मतलब परिणाम और साथ ही मानक विचलन) में जानकारी का उपयोग करता है।
स्टैच्यूरा

आपने मुझे मना लिया।
20

6

इसे बायेसियन इनवेंशन का उपयोग करके आसानी से हल किया जाना चाहिए। आप अपने सही मूल्य के संबंध में अलग-अलग बिंदुओं के माप गुणों को जानते हैं और जनसंख्या माध्य और एसडी का अनुमान लगाना चाहते हैं जिन्होंने सच्चे मूल्यों को उत्पन्न किया। यह एक पदानुक्रमित मॉडल है।

समस्या को हल करना (मूल बातें)

ध्यान दें कि जबकि रूढ़िवादी आँकड़े आपको एकल अर्थ देते हैं, बेज़ियन फ्रेमवर्क में आपको माध्य के विश्वसनीय मानों का वितरण मिलता है। उदाहरण के लिए, एसडी (2, 2, 3) के साथ अवलोकन (1, 2, 3) अधिकतम संभावना अनुमान 2 द्वारा उत्पन्न किया जा सकता है, लेकिन 2.1 या 1.8 के माध्यम से भी, हालांकि थोड़ा कम होने की संभावना (डेटा दी गई) से MLE। तो एसडी के अलावा, हम भी मतलब है

एक और वैचारिक अंतर यह है कि आपको टिप्पणियों को बनाने से पहले अपने ज्ञान की स्थिति को परिभाषित करना होगा । हम इसे पुजारी कहते हैं । आप पहले से जान सकते हैं कि एक निश्चित क्षेत्र स्कैन किया गया था और एक निश्चित ऊंचाई सीमा में था। ज्ञान की पूर्ण अनुपस्थिति के लिए X और Y में पूर्व के समान (-90, 90) डिग्री और हो सकता है कि यूनिफ़ॉर्म (0, 10000) मीटर ऊँचाई पर (समुद्र के ऊपर, पृथ्वी पर उच्चतम बिंदु से नीचे) हो। आपको उन सभी मापदंडों के लिए पुजारियों के वितरण को परिभाषित करना होगा जिनके लिए आप अनुमान लगाना चाहते हैं, अर्थात इसके लिए पीछे के वितरण को प्राप्त करें । यह मानक विचलन के लिए भी सही है।

इसलिए आपकी समस्या का समाधान करते हुए, मैं मानता हूं कि आप तीन माध्यमों (X.mean, Y.mean, X.mean) और तीन मानक विचलन (X.sd, Y.sd, X.sd) के लिए विश्वसनीय मान प्राप्त करना चाहते हैं जो आपके पास हो सकते हैं अपना डेटा जनरेट किया।

आदर्श

मानक BUGS सिंटैक्स का उपयोग करना (इसे चलाने के लिए WinBUGS, OpenBUGS, JAGS, स्टेन या अन्य पैकेज का उपयोग करें), आपका मॉडल कुछ इस तरह दिखाई देगा:

  model {
    # Set priors on population parameters
    X.mean ~ dunif(-90, 90)
    Y.mean ~ dunif(-90, 90)
    Z.mean ~ dunif(0, 10000)
    X.sd ~ dunif(0, 10)  # use something with better properties, i.e. Jeffreys prior.
    Y.sd ~ dunif(0, 10)
    Z.sd ~ dunif(0, 100)

    # Loop through data (or: set up plates)
    # assuming observed(x, sd(x), y, sd(y) z, sd(z)) = d[i, 1:6]
    for(i in 1:n.obs) {
      # The true value was generated from population parameters
      X[i] ~ dnorm(X.mean, X.sd^-2)  #^-2 converts from SD to precision
      Y[i] ~ dnorm(Y.mean, Y.sd^-2)
      Z[i] ~ dnorm(Z.mean, Z.sd^-2)

      # The observation was generated from the true value and a known measurement error
      d[i, 1] ~ dnorm(X[i], d[i, 2]^-2)  #^-2 converts from SD to precision
      d[i, 3] ~ dnorm(Y[i], d[i, 4]^-2)
      d[i, 5] ~ dnorm(Z[i], d[i, 6]^-2)
    }
  }

स्वाभाविक रूप से, आप .mean और .sd मापदंडों की निगरानी करते हैं और अनुमान के लिए उनके पोस्टएयर का उपयोग करते हैं।

सिमुलेशन

मैंने कुछ डेटा की नकल इस तरह की:

# Simulate 500 data points
x = rnorm(500, -10, 5)  # mean -10, sd 5
y = rnorm(500, 20, 5)  # mean 20, sd 4
z = rnorm(500, 2000, 10)  # mean 2000, sd 10
d = cbind(x, 0.1, y, 0.1, z, 3)  # added constant measurement errors of 0.1 deg, 0.1 deg and 3 meters
n.obs = dim(d)[1]

फिर 500 पुनरावृत्तियों के बर्न के बाद 2000 पुनरावृत्तियों के लिए JAGS का उपयोग करके मॉडल चलाया। यहाँ X.sd के लिए परिणाम है।

X.sd के लिए पीछे

ब्लू रेंज 95% उच्चतम पश्च घनत्व या विश्वसनीय अंतराल को इंगित करता है (जहां आप मानते हैं कि पैरामीटर डेटा देखने के बाद है। ध्यान दें कि रूढ़िवादी विश्वास अंतराल आपको यह नहीं देता है)।

लाल ऊर्ध्वाधर रेखा कच्चे डेटा का MLE अनुमान है। यह आमतौर पर मामला है कि बेयसियन अनुमान में सबसे अधिक संभावना पैरामीटर भी रूढ़िवादी आंकड़ों में सबसे अधिक संभावना (अधिकतम संभावना) पैरामीटर है। लेकिन आपको पीछे के शीर्ष के बारे में बहुत अधिक परवाह नहीं करनी चाहिए। यदि आप इसे एक ही संख्या में उबालना चाहते हैं, तो माध्य या माध्य बेहतर है।

ध्यान दें कि MLE / top 5 पर नहीं है क्योंकि डेटा बेतरतीब ढंग से उत्पन्न हुए थे, गलत आँकड़ों के कारण नहीं।

Limitiations

यह एक सरल मॉडल है जिसमें वर्तमान में कई खामियां हैं।

  1. यह -90 और 90 डिग्री की पहचान को नहीं संभालता है। यह, हालांकि, कुछ मध्यवर्ती चर बनाकर किया जा सकता है जो अनुमानित मापदंडों के चरम मूल्यों को -90, 90) सीमा में स्थानांतरित कर देता है।
  2. X, Y और Z को वर्तमान में स्वतंत्र रूप से तैयार किया गया है, हालांकि वे संभवतः सहसंबद्ध हैं और डेटा का अधिकतम लाभ उठाने के लिए इसे ध्यान में रखा जाना चाहिए। यह इस बात पर निर्भर करता है कि माप उपकरण चल रहा था (एक्स, वाई और जेड के सीरियल सहसंबंध और संयुक्त वितरण आपको बहुत सारी जानकारी देंगे) या अभी भी खड़े हैं (स्वतंत्रता ठीक है)। यदि अनुरोध किया गया है, तो मैं इसका उत्तर देने के लिए विस्तार कर सकता हूं।

मुझे यह उल्लेख करना चाहिए कि स्थानिक बायेसियन मॉडल पर बहुत अधिक साहित्य है, जिसके बारे में मुझे जानकारी नहीं है।


इस उत्तर के लिए धन्यवाद। यह एक निश्चित स्टेशन से डेटा है, लेकिन क्या इसका मतलब यह है कि डेटा स्वतंत्र हैं?
7

@traindriver आपको हमारी मदद करने के लिए हमारे सामने आने वाली समस्या के बारे में कुछ और जानकारी प्रदान करने की आवश्यकता है। आप कम से कम (1) निर्दिष्ट करने वाले "अपडेट" खंड के साथ अपने प्रश्न का विस्तार कर सकते हैं क्या यह वही मात्रा है जिसे बार-बार मापा जाता है? यानी समान समन्वय। या एक क्षेत्र स्कैन किया गया है या ... (2) आप मीन और एसडी का अनुमान क्यों लगाना चाहते हैं? यदि यह एक क्षेत्र है, तो ऐसा हो सकता है कि आप SD को बम्पीनेस या कुछ इस तरह के अनुमान के रूप में उपयोग करना चाहते हैं।
जोनास लिंडेलोव

मैंने मूल पोस्ट में कुछ और जानकारी जोड़ी है।
16

3

मैं पहले कुछ संकेतन पेश करता हूं और आपके द्वारा बताए गए सरल दृष्टिकोण का उपयोग करके समस्या को सेट करता हूं। फिर और आगे बढ़ें। आपके द्वारा दिए गए वेक्टर Z को संदर्भित करने के लिए मैं का उपयोग करूंगा ।z

निम्नलिखित मॉडल पर विचार करें, जिसमें स्पष्ट उल्लेख माप त्रुटि का अभाव है: , जहां क्या अनुमानित औसत मान , और का वास्तविक औसत मूल्य है। यहाँ, आपके डेटा की त्रुटियों का एक सदिश है, और आप उम्मीद करते हैं कि यदि आपका नमूना बड़ा है परिवर्तित हो जाएगा । यदि आप केवल देखे गए मान लेते हैं और उन्हें औसत करते हैं, तो आपको और यदि आप नमूना मानक विचलन की गणना करते हैं तो आपको , सही जनसंख्या मानक विचलन का अनुमानˉ जेड जेडμजेडε ˉ जेड μजेडजेड ˉ जेड σ σZ¯=i=1nμZ+ϵinZ¯zμZϵZ¯μZZZ¯σ^σ । यदि आप माप त्रुटि के बारे में कुछ ज्ञान का उपयोग करना चाहते हैं तो क्या होगा?

सबसे पहले, ध्यान दें कि हम प्रारंभिक मॉडल को इस रूप में सुधार सकते हैं: , जहां लोगों का एक सदिश राशि है, और का अंत होने पर । अब यह वास्तव में प्रतिगमन जैसा दिखता है, लेकिन हम अभी भी मूल रूप से सिर्फ एक अनुमान । यदि हम इस तरह एक प्रतिगमन करते हैं, तो हम की मानक त्रुटि के लिए एक अनुमान भी प्राप्त करेंगे , जो लगभग वही है जो हम चाहते हैं - यह कुछ भी नहीं है, लेकिन की मानक त्रुटि है (लेकिन हम अभी भी खाते में चाहते हैं माप त्रुटि)।1 बीटा ˉ जेड μ जेड ε zz=1β+ϵ1βZ¯μZϵz

हम एक मिश्रित प्रभाव मॉडल प्राप्त करने के लिए अपने प्रारंभिक मॉडल को बढ़ा सकते हैं। , जहां यादृच्छिक प्रभावों का एक सदिश है, और से संबंधित regressor का है। । किसी भी यादृच्छिक प्रभाव के साथ, आपको के वितरण के बारे में एक धारणा बनाने की आवश्यकता होगी । क्या यह सही है कि लिए माप त्रुटि का वितरण हैयू क्यू जेड यू यू जेड σ zz=1β+Qu+ϵuQzuuZσz? यदि हाँ, तो इसका उपयोग यादृच्छिक प्रभावों के वितरण को प्रदान करने के लिए किया जा सकता है। आमतौर पर, बुनियादी मिश्रित प्रभाव मॉडलिंग करने के लिए सॉफ्टवेयर यह मान लेगा कि यादृच्छिक प्रभाव का सामान्य वितरण है (मतलब 0 ... के साथ) और आपके लिए विचरण का अनुमान लगाता है। शायद आप अवधारणा का परीक्षण करने के लिए यह कोशिश कर सकते हैं। यदि आप माप त्रुटि के वितरण के बारे में अपनी पूर्व जानकारी का उपयोग करना चाहते हैं, तो एक बायेसियन मिश्रित प्रभाव मॉडल क्रम में है। आप R2OpenBUGS का उपयोग कर सकते हैं।

इस मॉडल का अनुमान लगाने के बाद, अवशिष्ट लिए आपको मिलने वाली मानक त्रुटि वह मानक त्रुटि है जिसमें आप रुचि व्यक्त करते हैं। सहज रूप से, मॉडल का यादृच्छिक प्रभाव घटक कुछ भिन्नता को भिगो रहा है जिसे आप समझा सकते हैं क्योंकि आप माप है। त्रुटि। यह आपको की भिन्नता का अधिक प्रासंगिक अनुमान प्राप्त करने की अनुमति देता हैϵϵϵ

माप त्रुटि के लिए यादृच्छिक प्रभावों के इस दृष्टिकोण पर गहन चर्चा के लिए इस पत्र को देखें । आपकी स्थिति उसी के समान है जिसे लेखक लिए पेश करते हैं और इसकी माप त्रुटि ने version दूषित कर दिया है । धारा 4 में उदाहरण आपकी स्थिति में कुछ अंतर्दृष्टि प्रदान कर सकता है।डब्ल्यूDW

जैसा कि व्हूबर द्वारा उल्लेख किया गया है, आप अपने डेटा में स्वत :संबंध के लिए जिम्मेदार हो सकते हैं। यादृच्छिक प्रभावों का उपयोग करने से उस समस्या का समाधान नहीं होगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.