एक अनुभवजन्य सीडीएफ का घालमेल


13

मेरा अनुभवजन्य वितरण । मैं इसकी गणना इस प्रकार करता हूंG(x)

    x <- seq(0, 1000, 0.1)
    g <- ecdf(var1)
    G <- g(x)

मैं , यानी को पीडीएफ निरूपित करता हूं जबकि सीएफडी है।h Gh(x)=dG/dxhG

मैं अब एकीकरण की ऊपरी सीमा के लिए एक समीकरण को हल (जैसे कि, करना चाहते हैं ), ऐसा है कि की उम्मीद मूल्य कुछ है ।एक्स केaxk

यही है, से तक एकीकृत , मेरे पास होना चाहिए । मैं लिए हल करना चाहता हूं ।एक्स एच ( एक्स ) एक्स = कश्मीर 0bxh(x)dx=kb

भागों द्वारा एकीकृत, मैं समीकरण को फिर से लिख सकता हूं

0 bG(b)0bG(x)dx=k , जहाँ इंटीग्रल से ------- (1) है0b

मुझे लगता है कि मैं अभिन्न की गणना निम्नानुसार कर सकता हूं

    intgrl <- function(b) {
        z <- seq(0, b, 0.01)
        G <- g(z)
        return(mean(G))
     }

लेकिन जब मैं इस फ़ंक्शन का उपयोग करने का प्रयास करता हूं

    library(rootSolve)
    root <- uniroot.All(fun, c(0, 1000))

जहां मज़ा eq (1) है, मुझे निम्नलिखित त्रुटि मिलती है

    Error in seq.default(0, b, by = 0.01) : 'to' must be of length 1  

मुझे लगता है कि मुद्दा यह है कि मेरे कार्य intgrlका मूल्यांकन एक संख्यात्मक मूल्य पर किया जाता है, जबकि uniroot.Allअंतराल गुजर रहा हैc(0,1000)

आर में इस स्थिति में मुझे लिए कैसे हल करना चाहिए ?b

जवाबों:


13

सॉर्ट किए गए डेटा को । अनुभवजन्य CDF को समझने के लिए , के मूल्यों में से एक मानते --let की कॉल यह --और लगता है कि कुछ संख्या की की तुलना में कम कर रहे हैं और की के बराबर हैं । एक अंतराल , जिसमें सभी संभव डेटा मानों में से केवल प्रकट होता है। फिर, परिभाषा के अनुसार, इस अंतराल के भीतर से कम संख्या के लिए निरंतर मान जी एक्स मैं γ कश्मीर एक्स मैं γ टी 1 एक्स मैं γ [ α , β ] γ जी कश्मीर / n γ ( कश्मीर + टी ) / n γx1x2xnGxiγkxiγt1xiγ[α,β]γGk/nγऔर से अधिक संख्या के लिए निरंतर मान कूदता है ।(k+t)/nγ

ECDF

अंतराल से के योगदान पर विचार करें । हालाँकि कोई फ़ंक्शन नहीं है - यह आकार का एक बिंदु माप है at - यह इंटीग्रल को एकीकरण के माध्यम से परिभाषित करता है ताकि इसे एक ईमानदार-टू-गुडनेस इंटीग्रल में परिवर्तित किया जा सके। आइए इस अंतराल पर करें :[ α , β ] एच टी / n γ [ α , β ]0bxh(x)dx[α,β]ht/nγ[α,β]

αβxh(x)dx=(xG(x))|αβαβG(x)dx=(βG(β)αG(α))αβG(x)dx.

नया इंटीग्रैंड, हालाँकि यह में बंद है , पूर्णांक है। इसका मान आसानी से पूर्ववर्ती भागों में एकीकरण के डोमेन को तोड़कर और में कूदने के बाद पाया जाता है :जीγG

αβG(x)dx=αγG(α)dx+γβG(β)dx=(γα)G(α)+(βγ)G(β).

पूर्वगामी और पैदावार में इसे प्रतिस्थापित करनाG(α)=k/n,G(β)=(k+t)/n

αβxh(x)dx=(βG(β)αG(α))((γα)G(α)+(βγ)G(β))=γtn.

दूसरे शब्दों में, यह अभिन्न उस छलांग के आकार से प्रत्येक कूद के स्थान ( अक्ष के साथ) को गुणा करता है । कूद का आकार हैX

tn=1n++1n

डेटा मानों में से प्रत्येक के लिए एक शब्द के साथ जो बराबर है । सभी ऐसे छलांगों से योगदान को दर्शाता है किγG

0bxh(x)dx=i:0xib(xi1n)=1nxibxi.

हम इसे "आंशिक माध्य" कह सकते हैं, यह देखते हुए कि यह आंशिक राशि के गुना के बराबर है । (कृपया ध्यान दें कि यह एक अपेक्षा नहीं है। यह अंतर्निहित वितरण के एक संस्करण की उम्मीद से संबंधित हो सकता है जिसे अंतराल के लिए छोटा कर दिया गया है : आपको कारक को बदलना होगा जहां भीतर डेटा मानों की संख्या है ।1/n[0,b]1/n1/mm[0,b]

यह देखते हुए , आप ढूंढना चाहते जिसके लिएक्योंकि आंशिक राशि मानों का एक सीमित सेट है, आमतौर पर इसका कोई हल नहीं है: आपको सबसे अच्छा सन्निकटन के लिए व्यवस्थित करने की आवश्यकता होगी, जो कि यदि संभव हो तो दो आंशिक साधनों के बीच को ब्रैकेट करके पाया जा सकता है। यही है, इस तरह खोजने परkbकेजे1nxibxi=k.kj

1ni=1j1xik<1ni=1jxi,

आपने को अंतराल । ECDF का उपयोग करके आप इससे बेहतर कोई काम नहीं कर सकते। (ECDF में कुछ निरंतर वितरण को फिट करके आप का सटीक मान ज्ञात करने के लिए प्रक्षेपित कर सकते हैं , लेकिन इसकी सटीकता फिट की सटीकता पर निर्भर करेगी।)[ x j - , x j ) bb[xj1,xj)b


Rआंशिक योग गणना करता है cumsumऔर पाता है कि यह whichखोज के परिवार का उपयोग करके किसी भी निर्दिष्ट मूल्य को पार करता है , जैसे:

set.seed(17)
k <- 0.1
var1 <- round(rgamma(10, 1), 2)
x <- sort(var1)
x.partial <- cumsum(x) / length(x)
i <- which.max(x.partial > k)
cat("Upper limit lies between", x[i-1], "and", x[i])

एक्सपोनेंशियल डिस्ट्रीब्यूशन से आईआईडी खींचे गए डेटा के इस उदाहरण में आउटपुट है

ऊपरी सीमा 0.39 और 0.57 के बीच है

सही मूल्य, को सुलझाने है । सूचित परिणामों की इसकी निकटता बताती है कि यह कोड सटीक और सही है। (बहुत बड़े डेटासेट के साथ सिमुलेशन इस निष्कर्ष का समर्थन करते हैं)।.५,३१,८१२0.1=0bxexp(x)dx,0.531812

यहाँ इन आंकड़ों के लिए आनुभविक CDF का एक प्लॉट है , जिसमें ऊर्ध्वाधर धराशायी ग्रे लाइनों के रूप में दिखाए गए ऊपरी सीमा के अनुमानित मान हैं:G

ईसीडीएफ का चित्र


यह एक बहुत ही स्पष्ट और उपयोगी उत्तर है, इसलिए धन्यवाद!
user46768
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.