सॉर्ट किए गए डेटा को । अनुभवजन्य CDF को समझने के लिए , के मूल्यों में से एक मानते --let की कॉल यह --और लगता है कि कुछ संख्या की की तुलना में कम कर रहे हैं और की के बराबर हैं । एक अंतराल , जिसमें सभी संभव डेटा मानों में से केवल प्रकट होता है। फिर, परिभाषा के अनुसार, इस अंतराल के भीतर से कम संख्या के लिए निरंतर मान जी एक्स मैं γ कश्मीर एक्स मैं γ टी ≥ 1 एक्स मैं γ [ α , β ] γ जी कश्मीर / n γ ( कश्मीर + टी ) / n γएक्स1≤ x2≤ ⋯ ≤ एक्सnजीएक्समैंγकएक्समैंγt≥1xiγ[α,β]γGk/nγऔर से अधिक संख्या के लिए निरंतर मान कूदता है ।(k+t)/nγ
अंतराल से के योगदान पर विचार करें । हालाँकि कोई फ़ंक्शन नहीं है - यह आकार का एक बिंदु माप है at - यह इंटीग्रल को एकीकरण के माध्यम से परिभाषित करता है ताकि इसे एक ईमानदार-टू-गुडनेस इंटीग्रल में परिवर्तित किया जा सके। आइए इस अंतराल पर करें :[ α , β ] एच टी / n γ [ α , β ]∫b0xh(x)dx[α,β]ht/nγ[α,β]
∫βαxh(x)dx=(xG(x))|βα−∫βαG(x)dx=(βG(β)−αG(α))−∫βαG(x)dx.
नया इंटीग्रैंड, हालाँकि यह में बंद है , पूर्णांक है। इसका मान आसानी से पूर्ववर्ती भागों में एकीकरण के डोमेन को तोड़कर और में कूदने के बाद पाया जाता है :जीγG
∫βαG(x)dx=∫γαG(α)dx+∫βγG(β)dx=(γ−α)G(α)+(β−γ)G(β).
पूर्वगामी और पैदावार में इसे प्रतिस्थापित करनाG(α)=k/n,G(β)=(k+t)/n
∫βαxh(x)dx=(βG(β)−αG(α))−((γ−α)G(α)+(β−γ)G(β))=γtn.
दूसरे शब्दों में, यह अभिन्न उस छलांग के आकार से प्रत्येक कूद के स्थान ( अक्ष के साथ) को गुणा करता है । कूद का आकार हैX
tn=1n+⋯+1n
डेटा मानों में से प्रत्येक के लिए एक शब्द के साथ जो बराबर है । सभी ऐसे छलांगों से योगदान को दर्शाता है किγG
∫b0xh(x)dx=∑i:0≤xi≤b(xi1n)=1n∑xi≤bxi.
हम इसे "आंशिक माध्य" कह सकते हैं, यह देखते हुए कि यह आंशिक राशि के गुना के बराबर है । (कृपया ध्यान दें कि यह एक अपेक्षा नहीं है। यह अंतर्निहित वितरण के एक संस्करण की उम्मीद से संबंधित हो सकता है जिसे अंतराल के लिए छोटा कर दिया गया है : आपको कारक को बदलना होगा जहां भीतर डेटा मानों की संख्या है ।1/n[0,b]1/n1/mm[0,b]
यह देखते हुए , आप ढूंढना चाहते जिसके लिएक्योंकि आंशिक राशि मानों का एक सीमित सेट है, आमतौर पर इसका कोई हल नहीं है: आपको सबसे अच्छा सन्निकटन के लिए व्यवस्थित करने की आवश्यकता होगी, जो कि यदि संभव हो तो दो आंशिक साधनों के बीच को ब्रैकेट करके पाया जा सकता है। यही है, इस तरह खोजने परkbकेजे1n∑xi≤bxi=k.kj
1n∑i=1j−1xi≤k<1n∑i=1jxi,
आपने को अंतराल । ECDF का उपयोग करके आप इससे बेहतर कोई काम नहीं कर सकते। (ECDF में कुछ निरंतर वितरण को फिट करके आप का सटीक मान ज्ञात करने के लिए प्रक्षेपित कर सकते हैं , लेकिन इसकी सटीकता फिट की सटीकता पर निर्भर करेगी।)[ x j - १ , x j ) bb[xj−1,xj)b
R
आंशिक योग गणना करता है cumsum
और पाता है कि यह which
खोज के परिवार का उपयोग करके किसी भी निर्दिष्ट मूल्य को पार करता है , जैसे:
set.seed(17)
k <- 0.1
var1 <- round(rgamma(10, 1), 2)
x <- sort(var1)
x.partial <- cumsum(x) / length(x)
i <- which.max(x.partial > k)
cat("Upper limit lies between", x[i-1], "and", x[i])
एक्सपोनेंशियल डिस्ट्रीब्यूशन से आईआईडी खींचे गए डेटा के इस उदाहरण में आउटपुट है
ऊपरी सीमा 0.39 और 0.57 के बीच है
सही मूल्य, को सुलझाने है । सूचित परिणामों की इसकी निकटता बताती है कि यह कोड सटीक और सही है। (बहुत बड़े डेटासेट के साथ सिमुलेशन इस निष्कर्ष का समर्थन करते हैं)।.५,३१,८१२0.1=∫b0xexp(−x)dx,0.531812
यहाँ इन आंकड़ों के लिए आनुभविक CDF का एक प्लॉट है , जिसमें ऊर्ध्वाधर धराशायी ग्रे लाइनों के रूप में दिखाए गए ऊपरी सीमा के अनुमानित मान हैं:G