सामान्य रूप से वितरित की जाने वाली संख्याओं के एक यादृच्छिक सेट पर विचार करें:
x <- rnorm(n=1000, mean=10)
हम इस माध्य और मानक त्रुटि को जानना चाहेंगे ताकि हम निम्नलिखित कार्य करें:
se <- function(x) { sd(x)/sqrt(length(x)) }
mean(x) # something near 10.0 units
se(x) # something near 0.03 units
महान!
हालाँकि, मान लें कि हम यह नहीं जानते कि हमारा मूल वितरण सामान्य वितरण का अनुसरण करता है। हम डेटा को लॉग-ट्रांसफ़ॉर्म करते हैं और समान मानक त्रुटि गणना करते हैं।
z <- log(x, base=10)
mean(z) # something near 1 log units
se(z) # something near 0.001 log units
कूल, लेकिन अब हमें इकाइयों में लॉग इन नहीं करने पर अपना जवाब पाने के लिए बैक-ट्रांसफॉर्म करना होगा।
10^mean(z) # something near 10.0 units
10^se(z) # something near 1.00 units
मेरा प्रश्न: क्यों, एक सामान्य वितरण के लिए, क्या मानक त्रुटि अलग-अलग होती है, यह इस बात पर निर्भर करता है कि क्या यह वितरण से ही गणना की गई थी या यदि यह रूपांतरित, गणना और वापस-रूपांतरित हुई थी? नोट: साधन परिवर्तन की परवाह किए बिना समान थे।
EDIT # 1: अंततः, मैं गैर-सामान्य रूप से वितरित डेटा के लिए एक मतलब और विश्वास अंतराल की गणना करने में दिलचस्पी रखता हूं, इसलिए यदि आप 95% CI की गणना किए गए डेटा की गणना करने के तरीके पर कुछ मार्गदर्शन दे सकते हैं, जिसमें उनकी मूल इकाइयों को वापस कैसे बदलना है , मेरे द्वारा इसकी सराहना की जाएगी!
END EDIT # 1
EDIT # 2: मैंने 95% विश्वास अंतराल प्राप्त करने के लिए क्वांटाइल फ़ंक्शन का उपयोग करने की कोशिश की:
quantile(x, probs = c(0.05, 0.95)) # around [8.3, 11.6]
10^quantile(z, probs = c(0.05, 0.95)) # around [8.3, 11.6]
तो, यह उसी उत्तर पर अभिसिंचित है, जो अच्छा है। हालाँकि, इस पद्धति का उपयोग करने से "छोटे" नमूना आकारों के साथ गैर-सामान्य डेटा का उपयोग करके सटीक समान अंतराल प्रदान नहीं होता है:
t <- rlnorm(10)
mean(t) # around 1.46 units
10^mean(log(t, base=10)) # around 0.92 units
quantile(t, probs = c(0.05, 0.95)) # around [0.211, 4.79]
10^(quantile(log(t, base=10), probs = c(0.05, 0.95))) # around [0.209, 4.28]
किस विधि को "अधिक सही" माना जाएगा। मुझे लगता है कि कोई सबसे अधिक रूढ़िवादी अनुमान लगाएगा?
एक उदाहरण के रूप में, क्या आप इस परिणाम को गैर-सामान्य डेटा (टी) के लिए रिपोर्ट करेंगे, जिसका 95% विश्वास अंतराल [0.211, 4.79] के साथ 0.92 इकाई है?
END EDIT # 2
आपके समय के लिए धन्यवाद!