सीमा से बंधे 0 माध्य के साथ 2 डी मानक विचलन की गणना कैसे करें


10

मेरी समस्या इस प्रकार है: मैं एक निश्चित बिंदु से एक बार में 40 गेंदें गिराता हूं, फर्श पर कुछ मीटर। गेंद लुढ़कती है, और आराम आता है। कंप्यूटर दृष्टि का उपयोग करते हुए, मैं XY विमान में द्रव्यमान के केंद्र की गणना करता हूं। मैं केवल द्रव्यमान के केंद्र से प्रत्येक गेंद की दूरी में दिलचस्पी रखता हूं, जिसकी गणना सरल ज्यामिति का उपयोग करके की जाती है। अब, मैं केंद्र से एकतरफा मानक विचलन जानना चाहता हूं। इसलिए, मैं यह जान पाऊंगा कि एक निश्चित संख्या में गेंदें एक एसटी त्रिज्या के भीतर होती हैं, 2 * सटी त्रिज्या के भीतर और अधिक गेंदें इत्यादि। मैं एक तरफा मानक विचलन की गणना कैसे करूं? एक सामान्य दृष्टिकोण बताता है कि आधी गेंदें 0 के "नकारात्मक पक्ष" पर होंगी। यह निश्चित रूप से इस प्रयोग में कोई मतलब नहीं है। क्या मुझे यह सुनिश्चित करना होगा कि गेंदें मानक वितरण के अनुरूप हों? हर प्रकार की सहायता के लिए आपका धन्यवाद।

जवाबों:


13

सेंट्रोइड के चारों ओर 2 डी फैलाव की मात्रा को चिह्नित करने के लिए, आप बस (रूट) का मतलब चुकता दूरी चाहते हैं,

σ^=RMS=1ni((xix¯)2+(yiy¯)2).

इस सूत्र में, बिंदु निर्देशांक हैं और उनका केंद्रक (औसत बिंदु)(xi,yi),i=1,2,,n(x¯,y¯).


प्रश्न दूरियों के वितरण के लिए पूछता है । जब गेंदों में एक आइसोट्रोपिक बाइवेरिएट होता है, तो उनके केंद्रक के चारों ओर सामान्य वितरण होता है - जो एक मानक और शारीरिक रूप से उचित धारणा है - चौकोर दूरी चि-स्क्वैर्ड वितरण के साथ आनुपातिक दो डिग्री (प्रत्येक समन्वय के लिए एक) है। यह स्वतंत्र मानक सामान्य चर के वर्गों के योग के रूप में ची-चुकता वितरण की एक परिभाषा का प्रत्यक्ष परिणाम है, क्योंकि स्वतंत्र सामान्य का एक रैखिक संयोजन है, जिसमें प्रत्याशा का सामान्य रूप लिखना

xix¯=n1nxiji1nxj
E[xix¯]=n1nE[xi]ji1nE[xj]=0.
xias , अनिसोट्रॉपी की धारणा यह है कि का के समान वितरण है और वे स्वतंत्र हैं, इसलिए एक समान परिणाम के वितरण के लिए है । यह आनुपातिकता की निरंतरता को स्थापित करता है: दूरियों के वर्गों में स्वतंत्रता की दो डिग्री के साथ ची-चुकता वितरण होता है, जिसे द्वारा बढ़ाया जाता है σ2
E[(xix¯)2]=Var(xix¯)=(n1n)2Var(xi)+ji(1n)2Var(xj)=n1nσ2.
yjxi(yjy¯)2n1nσ2

इन समीकरणों का सबसे गंभीर परीक्षण मामला , तब के लिए अंश से सबसे भिन्न होता है । प्रयोग का अनुकरण करके, और दोनों के लिए , और स्केल किए गए ची-स्क्वेर्ड डिस्ट्रीब्यूशन (लाल रंग में) के साथ वर्ग दूरी के हिस्टोग्राम को ओवरप्लेट करके, हम इस सिद्धांत को सत्यापित कर सकते हैं।n=2n1n1n=2n=40

आकृति

प्रत्येक पंक्ति समान डेटा दिखाती है: बाईं ओर एक्स-एक्सिस लॉगरिदमिक है; दाईं ओर यह वास्तविक वर्ग दूरी दिखाता है। इन सिमुलेशन के लिए का सही मूल्य सेट किया गया था ।σ1

ये परिणाम साथ 100,000 पुनरावृत्तियों और साथ 50,000 पुनरावृत्तियों के लिए हैं । हिस्टोग्राम और ची-स्क्वेर्ड डेंसिटी के बीच समझौते उत्कृष्ट हैं।n=2n=40


हालाँकि अज्ञात है, इसका विभिन्न तरीकों से अनुमान लगाया जा सकता है। उदाहरण के लिए, मतलब चुकता की दूरी होनी चाहिए बार मतलब , जो । साथ , उदाहरण के लिए, अनुमान के रूप में बार मतलब वर्ग दूरी। इस प्रकार के एक अनुमान होगा बार आरएमएस दूरी। तब हम कह सकते हैं कि वितरण के मूल्यों का उपयोग करना :σ2n1nσ2χ222n=40σ24039/2σ40/78χ22

  • लगभग 39% दूरी से कम होगी , क्योंकि 39% a वितरण से कम है ।39/40σ^χ221

  • लगभग 78% दूरी बार , क्योंकि 78% a वितरण से कम है ।339/40σ^χ223

और इसी तरह, किसी भी एक के लिए आप या स्थान पर उपयोग करने की परवाह करते हैं । एक जांच के रूप में, पहले से प्लॉट किए गए के सिमुलेशन में, गुना से कम का वास्तविक अनुपात था13n=401,2,,10n1nσ^2

0.3932 0.6320 0.7767 0.8647 0.9178 0.9504 0.9700 0.9818 0.9890 0.9933

सैद्धांतिक अनुपात हैं

0.3935 0.6321 0.7769 0.8647 0.9179 0.9502 0.9698 0.9817 0.9889 0.9933

समझौता उत्कृष्ट है।


यहां Rसिमुलेशन का संचालन और विश्लेषण करने के लिए कोड है।

f <- function(n, n.iter, x.min=0, x.max=Inf, plot=TRUE) {
  #
  # Generate `n.iter` experiments in which `n` locations are generated using
  # standard normal variates for their coordinates.
  #
  xy <- array(rnorm(n*2*n.iter), c(n.iter,2,n))
  #
  # Compute the squared distances to the centers for each experiment.
  #
  xy.center <- apply(xy, c(1,2), mean)
  xy.distances2 <- apply(xy-array(xy.center, c(n.iter,2,n)), c(1,3), 
                         function(z) sum(z^2))
  #
  # Optionally plot histograms.
  #
  if(plot) {
    xy.plot <- xy.distances2[xy.distances2 >= x.min & xy.distances2 <= x.max]

    hist(log(xy.plot), prob=TRUE, breaks=30,
         main=paste("Histogram of log squared distance, n=", n),
         xlab="Log squared distance")
    curve(dchisq(n/(n-1) * exp(x), df=2) * exp(x) * n/(n-1), 
          from=log(min(xy.plot)), to=log(max(xy.plot)), 
          n=513, add=TRUE, col="Red", lwd=2)

    hist(xy.plot, prob=TRUE, breaks=30,
         main=paste("Histogram of squared distance, n=", n),
         xlab="Squared distance")
    curve(n/(n-1) * dchisq(n/(n-1) * x, df=2), 
          from=min(xy.plot), to=max(xy.plot), 
          n=513, add=TRUE, col="Red", lwd=2)  
  }
  return(xy.distances2)
}
#
# Plot the histograms and compare to scaled chi-squared distributions.
#
par(mfrow=c(2,2))
set.seed(17)
xy.distances2 <- f(2, 10^5, exp(-6), 6)
xy.distances2 <- f(n <- 40, n.iter <- 50000, exp(-6), 12)
#
# Compare the last simulation to cumulative chi-squared distributions.
#
sigma.hat <- sqrt((n / (2*(n-1)) * mean(xy.distances2)))
print(cumsum(tabulate(cut(xy.distances2, 
                    (0:10) * (n-1)/n * sigma.hat^2))) / (n*n.iter), digits=4)
print(pchisq(1:10, df=2), digits=4)

2
बहुत व्यापक उत्तर के लिए धन्यवाद। मैं यह नहीं समझ सकता कि RMS सूत्र गेंदों की संख्या से विभाजित किए बिना मानक विचलन का वर्णन कैसे कर सकता है। यदि आप इसकी तुलना http://en.wikipedia.org/wiki/Root-mean-square_deviation_(Boinformatics से करते हैं, तो उन्होंने N को योग से विभाजित किया है। क्या योग को N या N-1 से विभाजित किया जाना चाहिए (क्योंकि 40 गेंद सिर्फ एक है गेंदों की आबादी से चयन?)
K_scheduler

गणनाओं को फिर से करने के बाद, यह sqrt (SDx ^ 2 + SDy ^ 2) जैसा लगता है कि मैं इसके बाद क्या हूं। यह मुझे एक सर्कल के लिए त्रिज्या देगा जिसमें 65% की संभावना के साथ सभी गेंदें हैं, है ना?
K_scheduler

यह RMS के लिए एक समान सूत्र है, लेकिन 65% मान गलत है, जैसा कि इस उत्तर में बताया गया है।
whuber

2
@nali उन सभी बिंदुओं को स्पष्ट रूप से मेरे उत्तर में यहाँ दिया गया है।
whuber

4
@nali आपकी पोस्ट यहाँ अपनी अशिष्टता और विज्ञापन होमिनम हमलों में औचित्य की सीमा से परे जाती है । यद्यपि मैं अज्ञानी या मूर्ख समझे जाने के बारे में चिंतित नहीं हूं, क्योंकि इस साइट के एक मध्यस्थ के रूप में मुझे प्रवचन सिविल रखने के बारे में चिंतित होना पड़ता है और इसलिए आप जो पोस्ट कर रहे हैं, उसे बर्दाश्त नहीं कर सकते। तदनुसार, मैंने आपकी नवीनतम टिप्पणी हटा दी है। अगर मुझे आपकी ओर से ऐसी टिप्पणियां दिखती हैं जो किसी के प्रति असभ्य हैं, तो मैं बिना किसी नोटिस के उन्हें हटा दूंगा और मैं (या अन्य मध्यस्थ) इस साइट पर आपकी बातचीत को सीमित करने के लिए तत्काल कदम उठाऊंगा।
whuber

4

मुझे लगता है कि आपको कुछ चीजें थोड़ी उलझन में हैं। यह सच है कि दूरी नकारात्मक नहीं हो सकती है, लेकिन यह मानक विचलन की गणना को प्रभावित नहीं करती है। यद्यपि इसका मतलब है कि दूरियों का वितरण बिल्कुल सामान्य नहीं हो सकता है , फिर भी यह करीब हो सकता है; लेकिन भले ही यह सामान्य से बहुत दूर है, फिर भी एक मानक विचलन है।

इसके अलावा, कोई "एक तरफा" मानक विचलन नहीं है - आप परिकल्पना परीक्षणों (जो एक तरफा या दो तरफा हो सकते हैं) के बारे में सोच रहे होंगे। आपके शीर्षक में, आप कहते हैं कि माध्य 0 है, लेकिन माध्य दूरी 0 नहीं होगी (जब तक कि गेंद 40 से अधिक ऊंची गेंदों में न हो!) और आप कहते हैं कि सीमाएं हैं - सीमाएं हो सकती हैं, यदि गेंदें गिरा दी जाती हैं; एक कमरा फिर वे निकटतम दीवार से दूरी से केंद्र से दूर नहीं हो सकते। लेकिन जब तक कुछ गेंद एक दीवार के खिलाफ उछलती है, तब तक वह चीजों को प्रभावित नहीं करेगी।

इसलिए, एक बार जब आपके पास 40 दूरी होती है तो आप मानक तरीकों का उपयोग करके मानक विचलन (और माध्य, माध्यिका, इंटरकार्टाइल रेंज, आदि) की गणना करते हैं। आप यह देखने के लिए कि यह मोटे तौर पर सामान्य रूप से वितरित किया गया है (यदि यह ब्याज की है) तो दूरी के प्लॉट (जैसे क्वांटाइल नॉर्मल प्लॉट, बॉक्स प्लॉट) भी बना सकते हैं।


धन्यवाद पीटर, मैंने खुद को सही तरीके से व्यक्त नहीं किया। मुझे स्पष्ट करने की कोशिश करें: ऊपर से दृश्य की कल्पना करें। आप औसत दूरी की गणना करते हैं, इसे द्रव्यमान के केंद्र (मतलब दूरी = त्रिज्या) के चारों ओर एक चक्र के रूप में चित्रित किया जाएगा। अब, इस से +/- std विचलन एक छोटे वृत्त और एक बड़े वृत्त का निर्माण करेगा। मैं द्रव्यमान के द्रव्यमान के केंद्र के मानक विचलन को जानना नहीं चाहता, बल्कि जन जावक के केंद्र से मानक विचलन है। दूसरे शब्दों में, द्रव्यमान के केंद्र से किस त्रिज्या के भीतर स्थित गेंदों का 68.2% (एक मानक विचलन) है।
K_scheduler

ओह ठीक। तब मुझे लगता है कि यह कोई सांख्यिकी समस्या नहीं है, बल्कि गणित की समस्या है; यह पता लगाना कि 68.2% कहां गिरेगा ... मुझे उत्तर भूल गया लेकिन इसमें शामिल है । π
पीटर Flom

आप अपने पहले उत्तर में सही हो सकते हैं। मैंने जो पाया है, उससे रेडियल मानक विचलन का उपयोग करना चाहिए। RSD = sqrt (SDx ^ 2 + SDy ^ 2)
K_scheduler

1

यह पूछे जाने के कुछ समय बाद था, लेकिन सवाल का जवाब यह है कि यह रेले डिस्ट्रीब्यूशन नामक 2 डी डिस्ट्रीब्यूशन है। यहां यह धारणा है कि रेले आकार कारक एक्स और वाई निर्देशांक के मानक विचलन दोनों के बराबर है। व्यवहार में एक्स और वाई के मानक विचलन के जमाव औसत से आकृति कारक के मूल्य की गणना की जाएगी।

के साथ शुरू , और

XN(μx,σx2)
YN(μy,σy2)

सामान्य वितरण का उपयोग करें।

f(x,y)=12πσxσy1ρ2exp(12(1ρ2)[(xμx)2σx2+(yμy)2σy22ρ(xμx)(yμy)σxσy])

बिंदु अनुवाद करें और मान लें ।

(μx,μy)
ρ=0

इसके अलावा मान लेते हैं कि इसलिए दोनों के साथ की जगह

σx2=σy2
σ2

फिर 2-डी वितरण को बिंदु आसपास त्रिज्या के रूप में व्यक्त किया जाता है जिसे रेले वितरण के रूप में जाना जाता है ।

(μx,μy)

PDF(r;σ)=rσ2exp(r22σ2)
जहां और
σ=σx=σy
ri=(xiμx)2+(yiμy)2

CDF(r;σ)=1exp(r22σ2)

बेशक यह सतत वितरण के लिए है। सिर्फ 40 गेंदों के नमूने के लिए कोई सटीक समाधान नहीं है। आपको 40 गेंदों के नमूने के साथ एक मोंटे कार्लो विश्लेषण करने की आवश्यकता होगी। टेलर, एमएस और ग्रब, फ्रैंक ई। (1975)। "चरम प्रसार के लिए अनुमानित संभावना वितरण" ची वितरण के लिए अनुमान मिला और उस के लिए लॉग-सामान्य एक नमूना के वितरण फिट होगा।


संपादित करें - वुबेर के संदेह के बावजूद, उनके द्वारा गणना किए गए सैद्धांतिक अनुपात हैं:

0.3935 0.6321 0.7769 0.8647 0.9179 0.9502 0.9698 0.9817 0.9889 0.9933

CDF फ़ंक्शन से r के लिए संचयी सिग्मा मान (सिग्मस में) के बराबर होता है:

0-1, 0-2, 0-3, ..., 0-10

इस प्रकार हैं:

0.3935, 0.6321, 0.7769, 0.8647, 0.9179, 0.9502, 0.9698, 0.9817, 0.9889, 0.9933


वितरण का नामकरण करने के लिए धन्यवाद। हालाँकि, (1) वितरण पैरामीटर के बीच अंतर नहीं कर रहा है और डेटा से प्राप्त उस पैरामीटर के अनुमान , (2) गेंदों के वितरण के बारे में आवश्यक (मजबूत) मान्यताओं को नहीं बताते हैं, और (3) अस्पष्ट होने से, आपको जोखिम होता है पाठकों को गुमराह करना। वास्तव में, यह स्पष्ट नहीं है कि आपके "यह" का संदर्भ क्या है: क्या यह गेंदों के स्थानों का वितरण होगा? (नहीं) द्रव्यमान के केंद्र का वितरण? (हां, लेकिन एक पैमाने के पैरामीटर के साथ जो गेंदों के मानक विचलन से भिन्न होता है।) क्या आप अपना उत्तर स्पष्ट करना चाहेंगे?
whuber

अंतराल में भरा ....
MaxW

स्पष्टीकरण के लिए धन्यवाद, मैक्स। अपने उत्तर की शुद्धता की सरल जाँच के रूप में, आइए बजाय एक गेंद पर विचार करें । आपका उत्तर इस गेंद के बीच की दूरी के वितरण का दावा करने के लिए प्रतीत होता है और सभी गेंदों के द्रव्यमान का केंद्र रेले का वितरण है। दुर्भाग्य से, इस मामले में कि दूरी हमेशा शून्य होती है। (प्रश्न विशेष रूप से इसे "प्रत्येक गेंद के लिए द्रव्यमान के केंद्र से दूरी, जिसे सरल ज्यामिति का उपयोग करके गणना की जाती है" के रूप में वर्णित करता है।) जो सुझाव देता है कि आपका जवाब गेंदों सहित हर मामले में गलत हो सकता है । 4040
whuber

वितरण द्रव्यमान के केंद्र के बारे में है।
मैक्सवेल

सीडीएफ पाठ्यक्रम की एक गेंद के लिए सेटअप है। CDF से 39% गेंदें त्रिज्या of के घेरे में, 86% 2σ में और 99% 3% के भीतर गिरेंगी।
मैक्स जू

-1

सामान्य वितरण, दोनों सकारात्मक और नकारात्मक मूल्य, समझ में आता है अगर आप समझते हैं कि यह सामान्य वितरण त्रिज्या या "सेंट्रोइड से दूरी" के लिए है। अन्य चर, कोण, यादृच्छिक है और समान रूप से 0-pi से वितरित किया जाता है


त्रिज्या, जो कभी भी नकारात्मक नहीं हो सकती है, निश्चित रूप से एक सामान्य वितरण नहीं होगा !
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.