बॉक्स-कॉक्स रूपांतरित डेटा में मूल इकाइयों के संदर्भ में एक्सप्रेस व्यक्त करें


13

कुछ मापों के लिए, एक विश्लेषण के परिणाम उचित रूप से रूपांतरित पैमाने पर प्रस्तुत किए जाते हैं। ज्यादातर मामलों में, हालांकि, माप के मूल पैमाने पर परिणाम प्रस्तुत करना वांछनीय है (अन्यथा आपका काम कम या ज्यादा बेकार है)।

उदाहरण के लिए, लॉग-ट्रांसफ़ॉर्म किए गए डेटा के मामले में, मूल पैमाने पर व्याख्या के साथ एक समस्या उत्पन्न होती है क्योंकि लॉग किए गए मानों का अर्थ माध्य का लॉग नहीं है। लॉग स्केल पर माध्य के अनुमान के प्रतिलोमार्थम लेने से मूल पैमाने पर माध्य का अनुमान नहीं मिलता है।

यदि, हालांकि, लॉग-ट्रांसफ़ॉर्म किए गए डेटा में सममित वितरण होते हैं, तो निम्न संबंध होते हैं (चूंकि लॉग ऑर्डर देने को सुरक्षित रखता है):

Mean[log(Y)]=Median[log(Y)]=log[Median(Y)]

(लॉग मानों के माध्य का प्रतिकण माप के मूल पैमाने पर माध्यिका है)।

इसलिए मैं केवल माप के मूल पैमाने पर मध्यस्थों के अंतर (या अनुपात) के बारे में अनुमान लगा सकता हूं।

दो-नमूना टी-परीक्षण और आत्मविश्वास अंतराल सबसे विश्वसनीय हैं यदि आबादी लगभग मानक विचलन के साथ सामान्य होती है, इसलिए हमें Box-Coxधारण करने के लिए सामान्यता धारणा के लिए परिवर्तन का उपयोग करने के लिए लुभाया जा सकता है (मुझे भी लगता है कि यह एक परिवर्तनशील स्थिरीकरण परिवर्तन है) )।

हालाँकि, यदि हम Box-Coxट्रांसफ़ॉर्म किए गए डेटा के लिए टी-टूल लागू करते हैं, तो हमें ट्रांसफ़ॉर्म किए गए डेटा के अंतर के बारे में इनफ़ॉर्मेशन मिलेगा। हम माप के मूल पैमाने पर उन लोगों की व्याख्या कैसे कर सकते हैं? (रूपांतरित मूल्यों का अर्थ रूपांतरित रूप नहीं है)। दूसरे शब्दों में, परिवर्तित पैमाने पर, मतलब के अनुमान का उलटा रूप लेना, मूल पैमाने पर मतलब का अनुमान नहीं देता है।

क्या मैं इस मामले में केवल मध्यस्थों के बारे में भी अनुमान लगा सकता हूं? क्या कोई परिवर्तन है जो मुझे साधनों (मूल पैमाने पर) पर वापस जाने की अनुमति देगा?

यह सवाल शुरू में यहाँ एक टिप्पणी के रूप में पोस्ट किया गया था

जवाबों:


11

यदि आप विशेष रूप से मूल चर के मतलब के बारे में निष्कर्ष चाहते हैं, तो बॉक्स-कॉक्स परिवर्तन का उपयोग न करें। आईएमओ बॉक्स-कॉक्स ट्रांसफॉर्मेशन सबसे उपयोगी होते हैं जब ट्रांसफ़ॉर्म किए गए वेरिएबल की अपनी व्याख्या होती है, और बॉक्स-कॉक्स ट्रांसफ़ॉर्मेशन आपको विश्लेषण के लिए सही पैमाने खोजने में मदद करता है - यह आश्चर्यजनक रूप से अक्सर होता है। दो अप्रत्याशित घातांक जो मुझे इस तरह मिले 1/3 थे (जब प्रतिक्रिया चर मूत्राशय की मात्रा थी) और -1 (जब प्रतिक्रिया चर प्रति मिनट सांस थी)।

लॉग-परिवर्तन शायद इसका एकमात्र अपवाद है। लॉग-स्केल पर माध्य मूल पैमाने में ज्यामितीय माध्य से मेल खाता है, जो कम से कम एक अच्छी तरह से परिभाषित मात्रा है।


ठीक है, आपके पास अन्य अपवाद भी हैं। -1 हार्मोनिक माध्य से मेल खाता है, ...
kjetil b halvorsen

9

यदि बॉक्स-कॉक्स परिवर्तन एक सममित वितरण का उत्पादन करता है, तो रूपांतरित डेटा का मतलब मूल पैमाने पर माध्यिका में वापस रूपांतरित हो जाता है। यह किसी भी मोनोटोनिक परिवर्तन के लिए सही है, जिसमें बॉक्स-कॉक्स ट्रांसफॉर्मेशन, आईएचएस ट्रांसफॉर्मेशन आदि शामिल हैं। इसलिए, ट्रांसफॉर्म किए गए डेटा के माध्यमों के बारे में इनफिनिटी मूल पैमाने पर मंझले के बारे में इनफॉर्म्स के बारे में है।

जैसा कि मूल डेटा को तिरछा किया गया था (या आपने पहले स्थान पर बॉक्स-कॉक्स परिवर्तन का उपयोग नहीं किया होगा), आप साधनों के बारे में अनुमान क्यों चाहते हैं? मैंने सोचा होगा कि मध्यस्थों के साथ काम करने से इस स्थिति में अधिक समझ आएगी। मुझे समझ नहीं आता कि इसे "मूल पैमाने पर व्याख्या के साथ समस्या" के रूप में क्यों देखा जाता है।


ई.पू. पैरामीटर पर इंजेक्शन सशर्त है - क्या यह मूल पैमाने पर आसान व्याख्या है? मुझे लगता है कि सामान्य पाठ्यक्रम बस इसे इस तरह से रिपोर्ट करना है और इसे उस पर छोड़ देना है (आमतौर पर एसिम्प्टोटिक तुल्यता के बारे में कुछ परिणाम पर आराम करना जो आमतौर पर लागू नहीं हो सकता है)। λ
आर्स

धन्यवाद। शायद इसलिए कि नमूना (एक आबादी से जो मुझे लगता है कि इसे लगभग सममित वितरण का पालन करना चाहिए) बस संयोग से तिरछा होना हो सकता है।
जॉर्ज डोंटास

4
साधन के बारे में अनुमान लगाने की आवश्यकता का एक अच्छा उदाहरण, कोई फर्क नहीं पड़ता कि क्या, कुछ पर्यावरणीय जोखिम आकलन द्वारा वहन किया जाता है। बहुत सरल बनाने के लिए, कल्पना करें कि आप एक पार्क में भूमि विकसित करने की योजना बना रहे हैं। आप चिंता के कुछ यौगिकों के लिए मिट्टी का परीक्षण करते हैं और जैसा कि अक्सर होता है, इसकी सांद्रता लगभग तार्किक रूप से वितरित होती है। फिर भी, पार्क का उपयोग करने वाले लोग - जो सीधे इन मिट्टी के संपर्क में आ सकते हैं - प्रभावी ढंग से मिट्टी को समान रूप से "नमूना" कर देंगे, क्योंकि वे चारों ओर घूमते हैं। समय के साथ उनका जोखिम अंकगणित माध्य सांद्रता होगा, न कि इसका ज्यामितीय माध्य।
whuber

1
कभी-कभी हम उन समस्याओं में रुचि रखते हैं जो किसी चीज़ की कुल मात्रा के योगों से आती हैं। यदि आप माध्य जानते हैं, तो आप माध्य से कुल तक जा सकते हैं (अवलोकनों की संख्या से गुणा)। मध्यमा से कुल तक जाने का कोई रास्ता नहीं है!
जॉर्ज डोंटास

6

यदि आप मूल पैमाने पर साधनों के बारे में निष्कर्ष निकालना चाहते हैं, तो आप अनुमान का उपयोग करने पर विचार कर सकते हैं जो सामान्यता धारणा का उपयोग नहीं करता है।

हालाँकि, ध्यान रखें। बस दो नमूनों के अलग-अलग रूपांतर होने पर समस्या निवारण (या क्रमपरिवर्तन परीक्षण या बूटस्ट्रैपिंग) के माध्यम से साधनों की सीधी तुलना के माध्यम से खामियों को दूर किया जा सकता है यदि आपका विश्लेषण भिन्नताओं को समान मानता है (और रूपांतरित पैमाने पर बराबर भिन्नताएं अंतर भिन्नताएं होंगी) मूल पैमाने पर अगर साधन अलग हैं)। ऐसी तकनीकें यह सोचने से नहीं बचतीं कि आप क्या कर रहे हैं।

एक अन्य दृष्टिकोण पर विचार करने के लिए कि क्या आप परीक्षण की तुलना में अनुमान या भविष्यवाणी में अधिक रुचि रखते हैं, परिवर्तनशील चर के टेलर विस्तार का उपयोग करने के लिए लगभग माध्य और विचरण की गणना करने के बाद वापस रूपांतरित कर सकते हैं - जहां सामान्य रूप से टेलर विस्तार में आप लिखेंगे , अब आप लिखते हैं, जहाँ माध्य और विचरण साथ एक यादृच्छिक चर है , जिसे आप का उपयोग करके वापस बदलने वाले हैं ।टी [ μ + ( वाई - μ ) ] वाई μ σ 2 टी ( )f(x+h)t[μ+(Yμ)]Yμσ2t()

यदि आप अपेक्षाएँ लेते हैं, तो दूसरा कार्यकाल समाप्त हो जाता है, और लोग आमतौर पर सिर्फ पहला और तीसरा शब्द लेते हैं (जहाँ तीसरा माध्य को बदलने में पूर्वाग्रह को दर्शाता है); आगे अगर आप विस्तार के विचरण को दूसरे पद पर ले जाते हैं, तो पहला पद और पहला सहसंयोजक पद छोड़ देते हैं - क्योंकि एक स्थिरांक है - जो आपको विचरण के लिए एकल-अवधि सन्निकटन के साथ छोड़ देता है।t(μ)

-

सबसे आसान मामला यह है कि जब आप लॉग-स्केल पर सामान्यता रखते हैं, और इसलिए मूल पैमाने पर लॉगऑनॉर्मल होता है। यदि आपका विचरण ज्ञात है (जो बहुत कम ही होता है), तो आप मूल पैमाने पर lognormal CI और PIs का निर्माण कर सकते हैं, और आप संबंधित मात्रा के वितरण के माध्य से एक अनुमानित अर्थ दे सकते हैं।

यदि आप लॉग-स्केल पर माध्य और विचरण दोनों का अनुमान लगा रहे हैं, तो आप लॉग- अंतराल (प्रेक्षण के लिए पूर्वानुमान अंतराल, कह सकते हैं) का निर्माण कर सकते हैं, लेकिन आपके मूल-स्केल लॉग - में कोई क्षण नहीं है । तो एक भविष्यवाणी का मतलब सिर्फ मौजूद नहीं है।टीtt

आपको बहुत सावधानी से सोचने की ज़रूरत है कि आप किस प्रश्न का उत्तर देने की कोशिश कर रहे हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.