लॉग-ट्रांसफ़ॉर्म के बाद मानक त्रुटि की गणना करना


19

सामान्य रूप से वितरित की जाने वाली संख्याओं के एक यादृच्छिक सेट पर विचार करें:

x <- rnorm(n=1000, mean=10)

हम इस माध्य और मानक त्रुटि को जानना चाहेंगे ताकि हम निम्नलिखित कार्य करें:

se <- function(x) { sd(x)/sqrt(length(x)) }
mean(x) # something near 10.0 units
se(x)   # something near 0.03 units

महान!

हालाँकि, मान लें कि हम यह नहीं जानते कि हमारा मूल वितरण सामान्य वितरण का अनुसरण करता है। हम डेटा को लॉग-ट्रांसफ़ॉर्म करते हैं और समान मानक त्रुटि गणना करते हैं।

z <- log(x, base=10)
mean(z) # something near 1 log units
se(z)   # something near 0.001 log units

कूल, लेकिन अब हमें इकाइयों में लॉग इन नहीं करने पर अपना जवाब पाने के लिए बैक-ट्रांसफॉर्म करना होगा।

10^mean(z) # something near 10.0 units
10^se(z)   # something near 1.00 units

मेरा प्रश्न: क्यों, एक सामान्य वितरण के लिए, क्या मानक त्रुटि अलग-अलग होती है, यह इस बात पर निर्भर करता है कि क्या यह वितरण से ही गणना की गई थी या यदि यह रूपांतरित, गणना और वापस-रूपांतरित हुई थी? नोट: साधन परिवर्तन की परवाह किए बिना समान थे।

EDIT # 1: अंततः, मैं गैर-सामान्य रूप से वितरित डेटा के लिए एक मतलब और विश्वास अंतराल की गणना करने में दिलचस्पी रखता हूं, इसलिए यदि आप 95% CI की गणना किए गए डेटा की गणना करने के तरीके पर कुछ मार्गदर्शन दे सकते हैं, जिसमें उनकी मूल इकाइयों को वापस कैसे बदलना है , मेरे द्वारा इसकी सराहना की जाएगी!
END EDIT # 1

EDIT # 2: मैंने 95% विश्वास अंतराल प्राप्त करने के लिए क्वांटाइल फ़ंक्शन का उपयोग करने की कोशिश की:

quantile(x, probs = c(0.05, 0.95))     # around [8.3, 11.6]
10^quantile(z, probs = c(0.05, 0.95))  # around [8.3, 11.6]

तो, यह उसी उत्तर पर अभिसिंचित है, जो अच्छा है। हालाँकि, इस पद्धति का उपयोग करने से "छोटे" नमूना आकारों के साथ गैर-सामान्य डेटा का उपयोग करके सटीक समान अंतराल प्रदान नहीं होता है:

t <- rlnorm(10)
mean(t)                            # around 1.46 units
10^mean(log(t, base=10))           # around 0.92 units
quantile(t, probs = c(0.05, 0.95))                     # around [0.211, 4.79]
10^(quantile(log(t, base=10), probs = c(0.05, 0.95)))  # around [0.209, 4.28]

किस विधि को "अधिक सही" माना जाएगा। मुझे लगता है कि कोई सबसे अधिक रूढ़िवादी अनुमान लगाएगा?

एक उदाहरण के रूप में, क्या आप इस परिणाम को गैर-सामान्य डेटा (टी) के लिए रिपोर्ट करेंगे, जिसका 95% विश्वास अंतराल [0.211, 4.79] के साथ 0.92 इकाई है?
END EDIT # 2

आपके समय के लिए धन्यवाद!


1
एसई एसडी है जो एन। न सिर्फ एन के वर्गमूल से विभाजित है
पेंग्विन_केनाइट

3
धन्यवाद! मैंने वह समस्या ठीक कर दी। हालाँकि मैं जो समस्या हूँ वह बनी हुई है।
चकरा दिया

जवाबों:


12

प्रारंभिक गणना के साथ आपकी मुख्य समस्या यह नहीं है कि sd ( Y ) की तरह क्यों होना चाहिए । यह आम तौर पर काफी अलग है।esd(log(Y))sd(Y)

कुछ स्थितियों में, आप टेलर विस्तार के माध्यम से sd ( log ( Y ) ) से का लगभग अनुमान लगा सकते हैं ।sd(Y)sd(लॉग(Y))

वार(जी(एक्स))(जी'(μएक्स))2σएक्स2

यदि हम को लॉग स्केल पर यादृच्छिक चर मानते हैं , तो यहां, g ( X ) = exp ( X )एक्सजी(एक्स)=exp(एक्स)

अगर वार(exp(एक्स))exp(μएक्स)2σएक्स2

तो एसडी(exp(एक्स))exp(μएक्स)σएक्स

ये धारणाएँ सैंपलिंग वितरण के लिए ले जाती हैं।

यह यथोचित रूप से अच्छी तरह से काम करने के लिए जाता है यदि मानक विचलन मतलब की तुलना में वास्तव में छोटा है, जैसा कि आपके उदाहरण में।

> mean(y)
[1] 10
> sd(y)
[1] 0.03
> lm=mean(log(y))
> ls=sd(log(y))
> exp(lm)*ls
[1] 0.0300104 

यदि आप किसी पैरामीटर के लिए CI को बदलना चाहते हैं , तो वह एंडपॉइंट को बदलकर काम करता है।

E(exp(एक्स))exp(μएक्स)(1+σएक्स2/2)(सीexp(एल),सीexp(यू))एल,यूसी1+σएक्स2/2

यदि आपका डेटा लॉग स्केल पर लगभग सामान्य है, तो आप इसे लॉगऑनॉर्मल माध्य के लिए अंतराल उत्पन्न करने की समस्या के रूप में मान सकते हैं।


1
धन्यवाद Glen_b मैंने यह कभी नहीं सीखा कि सांख्यिकी वर्ग में।
को विस्मित कर

2
[(एक्स)](μएक्स)+''(μएक्स)2σएक्स2=exp(μएक्स)(1+σएक्स22)
exp(μएक्स)»σएक्स2[exp(एक्स)]

धन्यवाद @ डेजमंड। हाँ, यह सही है। मैं अपने उत्तर में सुधार करूंगा, अंत में इसके पास का हिस्सा काफी आम है।
Glen_b -Reinstate Monica

0

ऐसा लगता है कि आप प्रभावी ढंग से ज्यामितीय माध्य के लिए ज्यामितीय मानक त्रुटि चाहते हैं exp(mean(log(x)))

हालांकि यह गणना करना उचित प्रतीत हो सकता है कि:

exp(sd(log(x)/sqrt(n-1)))

आप और अन्य पहले ही बता चुके हैं कि कुछ कारणों से यह सही नहीं है। इसके बजाय, उपयोग करें:

exp(mean(log(x))) * (sd(log(x))/sqrt(n-1))

लॉग-स्टेंडर्ड त्रुटि से ज्यामितीय माध्य गुणा किया जाता है। यह बहुत अच्छी तरह से "प्राकृतिक" मानक त्रुटि का अनुमान लगाना चाहिए।

स्रोत: https://www.jstor.org/stable/pdf/2235723.pdf

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.