आपको कब और क्यों एक वितरण (संख्याओं) का लॉग लेना चाहिए?


173

कहो कि मेरे पास कुछ ऐतिहासिक डेटा हैं, पिछले स्टॉक की कीमतें, एयरलाइन टिकट की कीमत में उतार-चढ़ाव, कंपनी के पिछले वित्तीय डेटा ...

अब कोई (या कोई सूत्र) साथ आता है और कहता है "चलो वितरण के लॉग का उपयोग करें / उपयोग करें" और यहाँ मैं WHY कहाँ जा रहा हूँ ?

प्रशन:

  1. पहले वितरण का लॉग क्यों लेना चाहिए?
  2. वितरण का वह लॉग 'मूल / वितरण' को सरल कैसे करता है जो नहीं कर सका / नहीं?
  3. क्या लॉग ट्रांसफ़ॉर्मेशन 'दोषरहित' है? यानी, लॉग-स्पेस में तब्दील होने और डेटा के विश्लेषण के दौरान, मूल वितरण के लिए समान निष्कर्ष हैं? कैसे?
  4. और अंत में वितरण का लॉग लेने के लिए कब? किन परिस्थितियों में कोई ऐसा करने का निर्णय लेता है?

मैं वास्तव में लॉग-आधारित वितरण (उदाहरण के लिए lognormal) को समझना चाहता हूं, लेकिन मैंने कभी नहीं समझा कि कब / क्यों पहलुओं - यानी, वितरण का लॉग एक सामान्य वितरण है, तो क्या? वह भी क्या बताती है और मुझे और क्यों परेशान करती है? इसलिए सवाल!

अद्यतन : @ व्हिबर की टिप्पणी के अनुसार मैंने पदों को देखा और किसी कारण से मैं रेखीय प्रतिगमन में लॉग ट्रांसफ़ॉर्म और उनके अनुप्रयोग के उपयोग को समझता हूं, क्योंकि आप स्वतंत्र चर और आश्रित चर के लॉग के बीच संबंध बना सकते हैं। हालांकि, मेरा प्रश्न स्वयं वितरण का विश्लेषण करने के अर्थ में सामान्य है - प्रति संबंध कोई संबंध नहीं है कि मैं वितरण का विश्लेषण करने के लिए लॉग लेने के कारण को समझने में मदद करने के लिए निष्कर्ष निकाल सकता हूं। मुझे आशा है कि मैं समझदार हूँ: - /

प्रतिगमन विश्लेषण में आपके पास डेटा के प्रकार / फिट / वितरण पर अड़चनें हैं और आप इसे रूपांतरित कर सकते हैं और स्वतंत्र और (रूपांतरित नहीं) आश्रित चर के बीच संबंध को परिभाषित कर सकते हैं। लेकिन कब / क्यों कोई ऐसा करेगा जो अलगाव में वितरण के लिए जहां प्रकार / फिट / वितरण की बाधाओं को आवश्यक रूप से एक ढांचे (प्रतिगमन की तरह) में लागू नहीं करता है। मुझे उम्मीद है कि स्पष्टीकरण भ्रमित करने की तुलना में चीजों को अधिक स्पष्ट करता है :)

यह प्रश्न "WHY और WHEN" के रूप में एक स्पष्ट उत्तर के योग्य है


3
क्योंकि यह यहाँ और यहाँ पिछले प्रश्नों के रूप में लगभग एक ही जमीन को कवर करता है , कृपया उन थ्रेड्स को पढ़ें और इस मुद्दे के किसी भी पहलू पर ध्यान केंद्रित करने के लिए अपने प्रश्न को अपडेट करें जिसे पहले से संबोधित नहीं किया गया है। ध्यान दें, भी, # 4 (और # 3 का हिस्सा) लघुगणक के बारे में प्राथमिक प्रश्न हैं जिनके उत्तर कई स्थानों पर आसानी से मिल जाते हैं।
whuber

1
स्पष्टीकरण मदद करता है। आप इस तथ्य को इंगित करना चाहते हैं, हालांकि, केवल एक निरंतर अवधि (और कोई अन्य स्वतंत्र चर) के साथ प्रतिगमन उनके माध्य के आसपास डेटा की भिन्नता का आकलन करने के लिए नहीं है। इसलिए, यदि आप वास्तव में प्रतिगमन में निर्भर चर के लॉग लेने के प्रभावों को समझते हैं, तो आप पहले से ही (सरल) स्थिति को समझ सकते हैं जो आप यहां पूछ रहे हैं। संक्षेप में, जब आपके पास प्रतिगमन के लिए सभी चार प्रश्नों के उत्तर हैं, तो आपको उन्हें "अलगाव में वितरण" के बारे में फिर से पूछने की आवश्यकता नहीं है।
whuber

@ शुभंकर: मैं देख रहा हूं ... इसलिए मैं प्रतिगमन में लॉग लेने के कारणों को समझता हूं, लेकिन केवल इसलिए कि मुझे सिखाया गया था - मैं इसे इस तरह से परिप्रेक्ष्य करने की आवश्यकता से समझता हूं, यह सुनिश्चित करने के लिए कि डेटा मान्यताओं में फिट बैठता है। रैखिक प्रतिगमन का। यही मेरी एकमात्र समझ है। शायद जो मुझे याद आ रहा है वह लॉग लेने के प्रभाव की "वास्तविक समझ" है और इसलिए भ्रम ... कोई मदद? ;)
पीएचडी

2
आह, लेकिन आप इससे कहीं अधिक जानते हैं, क्योंकि प्रतिगमन में लॉग का उपयोग करने के बाद, आप जानते हैं कि परिणामों की अलग-अलग व्याख्या की जाती है और आप बैक-फ़ॉन्डिंग फिट किए गए मान और विश्वास अंतराल में ध्यान रखना जानते हैं। मैं सुझाव दे रहा हूं कि आप भ्रमित नहीं हो सकते हैं और आप शायद इन चार सवालों के जवाब पहले से ही जानते हैं, भले ही आपको शुरू में इसके बारे में पता नहीं था :-)।
whuber

जवाबों:


98

यदि आप एक ऐसे मॉडल फॉर्म को मानते हैं जो गैर-रैखिक है, लेकिन एक रैखिक मॉडल में परिवर्तित हो सकता है जैसे कि तो किसी को निर्दिष्ट मॉडल फ़ॉर्म को पूरा करने के लिए लॉगरिदम लेने में उचित होगा । सामान्य तौर पर आपके पास कारण श्रृंखला है या नहीं, केवल एक बार जब आप लॉग ऑफ लेने में न्यायसंगत या सही होंगे, जब यह साबित किया जा सकता है कि का वेरिएंट के अपेक्षित मूल्य के समानुपाती है।logY=β0+β1tYYYY2। मुझे निम्नलिखित के लिए मूल स्रोत याद नहीं है, लेकिन यह बिजली परिवर्तनों की भूमिका को संक्षेप में प्रस्तुत करता है। यह ध्यान रखना महत्वपूर्ण है कि वितरण संबंधी धारणाएं हमेशा त्रुटि प्रक्रिया के बारे में होती हैं न कि अवलोकन की गई वाई इस प्रकार यह एक उचित परिवर्तन के लिए मूल श्रृंखला का विश्लेषण करने के लिए एक निश्चित "नहीं-नहीं" है जब तक कि श्रृंखला को एक साधारण स्थिरांक द्वारा परिभाषित नहीं किया जाता है।

मतभेदों के साथ अनियंत्रित या गलत परिवर्तनों को सावधानी से टाला जाना चाहिए क्योंकि वे अक्सर अनजाने विसंगतियों / स्तर की शिफ्टों / समय के रुझान या मापदंडों में बदलाव या त्रुटि विचलन में परिवर्तन से निपटने के लिए एक अशुभ / बीमार कल्पना है। इसका एक क्लासिक उदाहरण स्लाइड 60 पर शुरू होने के बारे में चर्चा की गई है यहां http://www.autobox.com/cms/index.php/afs-university/intro-to-forecasting/doc_download/53-capabilities-pretation- इन तीन पल्स विसंगतियों ( अनुपचारित) प्रारंभिक शोधकर्ताओं द्वारा एक अनुचित प्रवेश परिवर्तन का कारण बना। दुर्भाग्य से हमारे कुछ वर्तमान शोधकर्ता अभी भी वही गलती कर रहे हैं।

इष्टतम शक्ति परिवर्तन के माध्यम से पाया जाता है बॉक्स कॉक्स टेस्ट जहां

  • -1। पारस्परिक है
  • -.5 एक आवर्ती वर्गमूल है
  • 0.0 एक लॉग परिवर्तन है
  • .5 एक वर्गाकार टॉट ट्रांसफ़ॉर्म और है
  • 1.0 कोई परिवर्तन नहीं है।

ध्यान दें कि जब आपके पास कोई भविष्यवक्ता / कारण / सहायक इनपुट श्रृंखला नहीं है तो मॉडल और BUT के वितरण के बारे में कोई आवश्यकता नहीं है , , त्रुटि प्रक्रिया के बारे में बनाया गया है। इस मामले में बारे में वितरण संबंधी आवश्यकताएं सीधे पर । जब आप इस तरह के एक प्रतिगमन में के रूप में या एक्सोजेनस आदानों मॉडल (के साथ एक autoregressive चलती-औसत मॉडल में श्रृंखला का समर्थन है ARMAX मॉडल ) वितरणात्मक मान्यताओं के बारे में सब कर रहे हैं और जो भी कुछ भी नहीं के वितरण के साथ क्या करना है । इस प्रकार ARIMA मॉडल या ARMAX मॉडल के मामले में कभी कोई परिवर्तन नहीं होगाYt=u+atYatatYtएक टी वाई टी वाई वाई वाई एक्स वाई एक्स लोग इन Y लोग इन एक्सatYtYइष्टतम बॉक्स-कॉक्स परिवर्तन खोजने से पहले जो तब लिए उपाय (परिवर्तन) का सुझाव देगा । पहले के समय में कुछ विश्लेषकों ने और दोनों को एक अनुमान के रूप में बदल दिया था, जो कि केवल और बीच प्रतिगमन गुणांक की जांच करके में प्रतिशत परिवर्तन के परिणामस्वरूप में प्रतिशत परिवर्तन को प्रतिबिंबित करने में सक्षम होने के लिए था । सारांश में रूपांतरण दवाओं की तरह हैं कुछ अच्छे हैं और कुछ आपके लिए खराब हैं! उन्हें केवल तब उपयोग किया जाना चाहिए जब आवश्यक हो और फिर सावधानी के साथ।YYXYXlogYlogX


2
मैं मानता हूं कि जिस किसी ने भी पद छोड़ दिया है, उसे एक टिप्पणी छोड़नी चाहिए कि यह क्यों नीचा था। आइरस्टैट के लिए, अपने पोस्ट को पढ़ना बहुत आसान होगा यदि आपने उत्तर छोड़ने के लिए प्रारूपण विकल्पों का लाभ उठाया, विशेष रूप से लेटेक्स में समीकरणों को चिह्नित करने के लिए उपलब्ध हैं। मार्कडाउन संपादन सहायता अनुभाग देखें । जब भी आप पोस्टिंग बॉक्स के शीर्ष दाएं कोने में एक प्रश्न टाइप करते हैं (प्रश्न चिह्न के साथ नारंगी सर्कल में) तो वह लिंक उपलब्ध है।
एंडी डब्ल्यू

4
उद्धृत तालिका डगलस सी। मोंटगोमरी, एलिजाबेथ ए। पेक, जी। जेफ्री विनिंग द्वारा रेखीय प्रतिगमन विश्लेषण के परिचय में पाई गई है ।
user1717828

@ user1717828 tu .. मैं हमेशा मॉन्टगोमेरी का प्रशंसक रहा हूं क्योंकि उसके पास एक लंबी दाढ़ी है जिसमें समय श्रृंखला शामिल है
आयरिशस्टैट

क्या यह हमेशा सच नहीं होता कि दूसरे पल और विचरण एक दूसरे के समानुपाती हों? हमारे पास यह कहते हुए क्लासिक समीकरण है: विचरण दूसरे क्षण के बराबर है, पहला क्षण घटा।
information_interchange

जैसा कि आप कहते हैं कि विचरण दूसरे क्षण का एक कार्य है। मैंने कहाँ अन्यथा। इसके अतिरिक्त विचरण SEE pdfs.semanticscholar.org/09c4/… के विभिन्न बिंदुओं पर (निर्धारक रूप से) परिवर्तित हो सकता है, जो कि एक पॉवर ट्रांसफ़ॉर्म द्वारा प्रेषित नहीं है।
आयरिशस्टैट

107

लॉग-स्केल रिश्तेदार परिवर्तनों (गुणक) पर सूचित करता है, जबकि रैखिक-स्केल पूर्ण परिवर्तन (योगात्मक) पर सूचित करता है। आप प्रत्येक का उपयोग कब करते हैं? जब आप रिश्तेदार परिवर्तनों की परवाह करते हैं, तो लॉग-स्केल का उपयोग करें; जब आप पूर्ण परिवर्तन की परवाह करते हैं, तो रैखिक-पैमाने का उपयोग करें। यह वितरण के लिए सही है, लेकिन किसी भी मात्रा या मात्रा में परिवर्तन के लिए भी।

ध्यान दें, मैं यहां "देखभाल" शब्द का उपयोग विशेष रूप से और जानबूझकर करता हूं। एक मॉडल या एक लक्ष्य के बिना, आपके प्रश्न का उत्तर नहीं दिया जा सकता है; मॉडल या लक्ष्य निर्धारित करता है कि कौन सा पैमाना महत्वपूर्ण है। यदि आप कुछ मॉडल करने की कोशिश कर रहे हैं, और तंत्र एक रिश्तेदार परिवर्तन के माध्यम से कार्य करता है, तो लॉग-स्केल आपके डेटा में देखे गए व्यवहार को कैप्चर करने के लिए महत्वपूर्ण है। लेकिन अगर अंतर्निहित मॉडल का तंत्र योगात्मक है, तो आप रैखिक-पैमाने का उपयोग करना चाहेंगे।


$$$


$$$$


$

यदि हम लॉग स्पेस में कनवर्ट करते हैं, तो सापेक्ष परिवर्तन पूर्ण परिवर्तन के रूप में दिखाई देते हैं।

log10($1)log10($1.10)
log10($100)log10($110)

अब, लॉग स्पेस में पूर्ण अंतर लेते हुए , हम पाते हैं कि दोनों .0413 से बदल गए।

परिवर्तन के ये दोनों उपाय महत्वपूर्ण हैं, और जो आपके लिए महत्वपूर्ण है, वह पूरी तरह से आपके निवेश के मॉडल पर निर्भर करता है। दो मॉडल हैं। (1) एक निश्चित राशि का मूलधन, या (2) निश्चित संख्या में शेयरों में निवेश करना।

मॉडल 1: मूल राशि के साथ निवेश करना।

$$$$$$$$

मॉडल 2: शेयरों की निश्चित संख्या।

$

अब मान लें कि हम समय के साथ उतार-चढ़ाव वाले एक रैंडम वैरिएबल के रूप में स्टॉक वैल्यू के बारे में सोचते हैं, और हम एक ऐसे मॉडल के साथ आना चाहते हैं जो आम तौर पर दर्शाता है कि स्टॉक कैसे व्यवहार करते हैं। और मान लें कि हम इस मॉडल का उपयोग लाभ को अधिकतम करने के लिए करना चाहते हैं। हम एक संभाव्यता वितरण की गणना करते हैं जिसका x- मान 'शेयर मूल्य' की इकाइयों में होता है, और y-मान किसी दिए गए शेयर मूल्य को देखने की संभावना में होता है। हम स्टॉक ए, और स्टॉक बी के लिए ऐसा करते हैं। यदि आप पहले परिदृश्य की सदस्यता लेते हैं, जहां आपके पास एक निश्चित राशि का मूलधन है जिसे आप निवेश करना चाहते हैं, तो इन वितरणों का लॉग लेना जानकारीपूर्ण होगा। क्यों? आप जो परवाह करते हैं, वह सापेक्ष स्थान में वितरण का आकार है। क्या कोई स्टॉक 1 से 10 तक जाता है, या 10 से 100 आपके लिए सही नहीं है? दोनों मामले 10 गुना हैंसापेक्षिक लाभ। यह स्वाभाविक रूप से लॉग-स्केल वितरण में स्वाभाविक रूप से प्रकट होता है, जो कि यूनिट लाभ सीधे लाभ प्राप्त करने के लिए होता है। दो शेयरों के लिए जिनका माध्य मूल्य अलग है, लेकिन जिनके सापेक्ष परिवर्तन को समान रूप से वितरित किया जाता है (उनके पास दैनिक प्रतिशत परिवर्तनों का समान वितरण है ), उनके लॉग वितरण केवल स्थानांतरित किए गए आकार में समान होंगे । इसके विपरीत, उनके रेखीय वितरण आकार में समान नहीं होंगे, जिनमें उच्चतर मूल्य के साथ उच्चतर प्रसरण होता है।

यदि आप रैखिक, या निरपेक्ष स्थान में इन समान वितरणों को देखते थे, तो आपको लगता होगा कि उच्च-मूल्य वाले शेयर की कीमतें अधिक उतार-चढ़ाव के अनुरूप हैं। हालांकि आपके निवेश के उद्देश्यों के लिए, जहां केवल सापेक्ष लाभ ही मायने रखता है, यह जरूरी नहीं कि सही हो।

उदाहरण 2. रासायनिक प्रतिक्रिया। मान लीजिए कि हमारे पास दो अणु और बी हैं जो एक प्रतिवर्ती प्रतिक्रिया से गुजरते हैं।

AB

जिसे व्यक्तिगत दर स्थिरांक द्वारा परिभाषित किया गया है

kabABkbaBA

उनके संतुलन को रिश्ते द्वारा परिभाषित किया गया है:

K=kabkba=[A][B]

AB

K=kabkba=[A][B]

(0,inf)

संपादित करें । एक दिलचस्प समानांतर जिसने मुझे अंतर्ज्ञान का निर्माण करने में मदद की, अंकगणितीय साधनों बनाम ज्यामितीय साधनों का उदाहरण है। एक अंकगणित (वेनिला) का अर्थ है एक छिपे हुए मॉडल को मानने वाली संख्याओं के औसत की गणना करना जहां पूर्ण अंतर क्या मायने रखता है। उदाहरण। 1 और 100 का अंकगणितीय माध्य 50.5 है। मान लीजिए हम सांद्रता के बारे में बात कर रहे हैं, जहाँ सांद्रता के बीच रासायनिक संबंध गुणात्मक है। फिर औसत एकाग्रता को वास्तव में लॉग स्केल पर गणना की जानी चाहिए। इसे ज्यामितीय औसत कहा जाता है। 1 और 100 का ज्यामितीय औसत 10 है! सापेक्ष अंतर के संदर्भ में, यह समझ में आता है: 10/1 = 10, और 100/10 = 10, यानी।, औसत और दो मूल्यों के बीच सापेक्ष परिवर्तन समान है। Additively हम एक ही बात पाते हैं; 50.5-1 = 49.5, और 100-50.5 = 49.5।


2
यह वास्तव में उपयोगी उत्तर है और मुझे उदाहरण पसंद हैं। क्या आप "जब" विशेष रूप से लॉग-ट्रांसफॉर्म का उपयोग करने के बारे में अधिक जोड़ सकते हैं? आप कहते हैं "जब आप सापेक्ष परिवर्तनों की परवाह करते हैं, तो लॉग-स्केल का उपयोग करें; जब आप पूर्ण परिवर्तन की परवाह करते हैं, तो रैखिक-पैमाने का उपयोग करें।" लेकिन क्या ऐसे मामले हैं जब आप सापेक्ष परिवर्तनों की परवाह करते हैं लेकिन लॉग-ट्रांसफ़ॉर्म नहीं करना चाहिए, और यदि हां, तो आप उन मामलों का पता कैसे लगा सकते हैं? : उदाहरण के लिए, इस पत्र के एक मामले कि डेटा कि एक लॉग सामान्य वितरण का पालन नहीं करता जा तब्दील प्रवेश नहीं करना चाहिए बनाता है ncbi.nlm.nih.gov/pmc/articles/PMC4120293
skeller88

@ skeller88 मैं इस पत्र से सहमत हूं; यह अधिक व्यापक (और दार्शनिक!) सवाल है कि हम वितरण को क्यों बदलते हैं? मुझे लगता है कि इसका उत्तर यह है कि हमारे पास सामान्य वितरण के बीच विषमता के लिए एक अच्छी तरह से विकसित सांख्यिकीय टूलकिट है, लेकिन अन्य के लिए एक कम विकसित टूलकिट, शायद अनाम वितरण (बहुमत) भी है। एक फंकी लुकिंग डिस्ट्रीब्यूशन का मूल्यांकन करने का एक तरीका यह हो सकता है कि इसका लॉग केवल यह देखने के लिए कि क्या यह अधिक सामान्य दिखता है; लेकिन जैसा कि आयरिशस्टैट तकनीकी रूप से ऊपर बताता है, यह पथ खतरे से भरा है (वर्ग खूंटी, गोल छेद किस्म का)।
वेक्टर ०

1
इस आशय की एक प्रासंगिक व्याख्या है और यह निर्णय के लिए क्यों मायने रखता है कि पेड़ थोड़ा और अधिक होने की ओर इशारा करते हैं।
कीथ
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.