रैखिक प्रतिगमन में, वास्तविक मूल्यों के बजाय एक स्वतंत्र चर के लॉग का उपयोग करना कब उचित है?


164

क्या मैं प्रश्न में स्वतंत्र चर के लिए एक बेहतर व्यवहार किए गए वितरण की तलाश कर रहा हूं, या बाहर के प्रभाव को कम करने के लिए, या कुछ और?


1
क्या आप इस बारे में पूछ रहे हैं कि आउटलेर के प्रभाव को कैसे कम किया जाए या किसी चर के लॉग का उपयोग कब किया जाए?
बेंजामिन बैनियर

23
मुझे लगता है कि ओपी कह रहा है "मैंने इनपुट चर पर लॉग का उपयोग करने वाले लोगों के बारे में सुना है: वे ऐसा क्यों करते हैं?"
शेन

सिर्फ लॉग क्यों? क्या यह प्रश्न किसी भी डेटा परिवर्तन तकनीक पर लागू नहीं होना चाहिए जिसका उपयोग mx + b से जुड़े अवशेषों को कम करने के लिए किया जा सकता है?
असीमलैब्स

1
@AsymLabs - लॉग प्रतिगमन में विशेष हो सकता है, क्योंकि यह एकमात्र फ़ंक्शन है जो किसी उत्पाद को एक योग में परिवर्तित करता है।
probabilityislogic

12
पाठकों के लिए एक चेतावनी: सवाल IVs को बदलने के बारे में पूछता है, लेकिन कुछ जवाब डीवीएस को बदलने के कारणों के बारे में बात करते हुए दिखाई देते हैं। यह सोचने में गुमराह न हों कि सभी आईवीएस बदलने के कारण भी हैं - कुछ हो सकते हैं, अन्य निश्चित रूप से नहीं। विशेष रूप से, IV का वितरण आम तौर पर प्रासंगिकता का नहीं है (वास्तव में, DV का सीमांत वितरण या तो नहीं है)।
Glen_b

जवाबों:


168

मैं हमेशा इस तरह से कई उत्कृष्ट प्रतिक्रियाओं के साथ एक धागे में कूदने में संकोच करता हूं, लेकिन यह मुझे हड़ताली करता है कि कुछ उत्तर कुछ अन्य परिवर्तन के लिए लघुगणक को पसंद करने का कोई कारण प्रदान करते हैं जो डेटा को "स्क्वाश" करते हैं, जैसे कि रूट या पारस्परिक।

ऐसा करने से पहले, आइए मौजूदा उत्तरों में ज्ञान को और अधिक सामान्य तरीके से पुन: व्यवस्थित करें। कुछ गैर रेखीय निर्भर चर की फिर से अभिव्यक्ति इंगित किया गया है जब से कोई भी लागू करें:

  • अवशिष्टों का तिरछा वितरण होता है। एक परिवर्तन का उद्देश्य अवशिष्टों को प्राप्त करना है जो लगभग सममित रूप से वितरित किए जाते हैं (लगभग शून्य, निश्चित रूप से)।

  • अवशेषों का प्रसार निर्भर चर ("विषमलैंगिकता") के मूल्यों के साथ व्यवस्थित रूप से बदलता है। परिवर्तन का उद्देश्य प्रसार में उस व्यवस्थित परिवर्तन को दूर करना है, अनुमानित "समरूपता" को प्राप्त करना।

  • एक रिश्ते को रैखिक बनाने के लिए।

  • जब वैज्ञानिक सिद्धांत इंगित करता है। उदाहरण के लिए, रसायन विज्ञान अक्सर सांद्रता को लघुगणक (गतिविधियां या यहां तक ​​कि प्रसिद्ध पीएच देने) के रूप में व्यक्त करता है।

  • जब एक अधिक अस्पष्ट सांख्यिकीय सिद्धांत बताता है कि अवशिष्ट "यादृच्छिक त्रुटियों" को दर्शाते हैं जो कि योगात्मक रूप से जमा नहीं करते हैं।

  • एक मॉडल को सरल बनाने के लिए। उदाहरण के लिए, कभी-कभी एक लघुगणक "बातचीत" शब्दों की संख्या और जटिलता को सरल कर सकता है।

(ये संकेत एक दूसरे के साथ संघर्ष कर सकते हैं; ऐसे मामलों में, निर्णय की आवश्यकता है।)

इसलिए, जब कुछ अन्य परिवर्तन के बजाय एक लघुगणक को विशेष रूप से इंगित किया जाता है?

  • अवशिष्टों में एक "दृढ़ता से" सकारात्मक रूप से तिरछा वितरण होता है। EDA पर अपनी पुस्तक में, जॉन टुके अवशिष्ट के रैंक आंकड़ों के आधार पर परिवर्तन (बॉक्स-कॉक्स के परिवार के भीतर, या शक्ति, परिवर्तन) का अनुमान लगाने के लिए मात्रात्मक तरीके प्रदान करता है। यह वास्तव में इस तथ्य से नीचे आता है कि यदि लॉग सममिति को अवशिष्टों को लेते हुए, यह शायद फिर से अभिव्यक्ति का सही रूप था; अन्यथा, कुछ अन्य अभिव्यक्ति की आवश्यकता है।

  • जब अवशिष्टों का एसडी सीधे फिट किए गए मूल्यों के लिए आनुपातिक होता है (और फिट किए गए मूल्यों की कुछ शक्ति के लिए नहीं)।

  • जब संबंध घातीय के करीब है।

  • जब अवशिष्टों को गुणात्मक रूप से संचित त्रुटियों को प्रतिबिंबित करने के लिए माना जाता है।

  • आप वास्तव में एक मॉडल चाहते हैं जिसमें व्याख्यात्मक चर में सीमांत परिवर्तन की व्याख्या आश्रित चर में गुणक (प्रतिशत) परिवर्तनों के रूप में की जाती है।

अंत में, कुछ गैर -कारण फिर से अभिव्यक्ति का उपयोग करने के लिए :

  • आउटलेर बनाना आउटलेयर की तरह नहीं दिखता। एक आउटलाइयर एक डेटाम है जो डेटा के कुछ सरल, अपेक्षाकृत सरल विवरण के अनुरूप नहीं है। आउटलेर्स को बेहतर बनाने के लिए किसी के विवरण को बदलना आमतौर पर प्राथमिकताओं का गलत उलटा है: पहले डेटा का वैज्ञानिक रूप से मान्य, सांख्यिकीय रूप से अच्छा विवरण प्राप्त करें और फिर किसी भी आउटलेर का पता लगाएं। कभी-कभार बाहरी निर्धारण न करें कि बाकी डेटा का वर्णन कैसे करें!

  • क्योंकि सॉफ्टवेयर ने स्वचालित रूप से किया। (पर्याप्त कथन!)

  • क्योंकि सभी आंकड़े सकारात्मक हैं। (सकारात्मकता का अर्थ अक्सर सकारात्मक तिरछापन होता है, लेकिन ऐसा नहीं होता है। इसके अलावा, अन्य परिवर्तन बेहतर काम कर सकते हैं। उदाहरण के लिए, एक रूट अक्सर गिने हुए डेटा के साथ सबसे अच्छा काम करता है।)

  • "खराब" डेटा बनाने के लिए (शायद कम गुणवत्ता का) अच्छी तरह से व्यवहार किया जाता है।

  • डेटा प्लॉट करने में सक्षम होने के लिए। (यदि किसी परिवर्तन के लिए डेटा को प्लॉट करने में सक्षम होना आवश्यक है, तो शायद इसकी आवश्यकता एक या एक से अधिक अच्छे कारणों के लिए है जो पहले ही उल्लिखित हैं। यदि रूपांतरण का एकमात्र कारण सही मायने में प्लॉटिंग है, तो आगे बढ़ें और ऐसा करें - लेकिन केवल प्लॉट करने के लिए डेटा। विश्लेषण के लिए डेटा को अनियंत्रित छोड़ दें।)


1
किसी क्षेत्र में जनसंख्या घनत्व या प्रत्येक स्कूल जिले के लिए बाल-शिक्षक अनुपात या आबादी में प्रति 1000 लोगों की संख्या के बारे में क्या है? मैंने देखा है कि प्रोफेसर इन चरों की लॉग लेते हैं। यह मुझे स्पष्ट नहीं है कि क्यों। उदाहरण के लिए, क्या होम्योपैथी दर पहले से ही प्रतिशत नहीं है? लॉग दर का प्रतिशत परिवर्तन होगा? बाल-शिक्षक अनुपात के प्रवेश को प्राथमिकता क्यों दी जाएगी? क्या हर परिवर्तनशील चर के लिए लॉग ट्रांसफ़ॉर्म लिया जाना चाहिए जब एक सच्चे कार्यात्मक रूप के बारे में कोई अंतर्निहित सिद्धांत नहीं है?
user1690130

1
@ जेजी छोटे अनुपात में तिरछा वितरण होता है; लघुगणक और जड़ें उन्हें अधिक सममित बनाने की संभावना है। मुझे आपके प्रतिशत से संबंधित प्रश्न समझ में नहीं आते हैं: शायद आप प्रतिशत के विभिन्न उपयोगों को स्वीकार कर रहे हैं (एक को एक पूरे के अनुपात के रूप में कुछ व्यक्त करने के लिए और दूसरे को रिश्तेदार परिवर्तन व्यक्त करने के लिए)? मुझे विश्वास नहीं होता कि मैंने ऐसा कुछ लिखा है जो यह कहता हो कि लॉगरिदम हमेशा लागू होते हैं - इससे दूर! इसलिए मुझे आपके अंतिम प्रश्न का आधार समझ में नहीं आता है।
व्हीबर

2
"जब अवशेषों को गुणात्मक रूप से संचित त्रुटियों को प्रतिबिंबित करने के लिए माना जाता है।" मुझे इस वाक्यांश की व्याख्या करने में परेशानी हो रही है। क्या यह एक और वाक्य के साथ थोड़ा बाहर मांस देना संभव है? आप किस संचय का उल्लेख कर रहे हैं?
Hatshepsut

@ उपयोगकर्ता1690130 अनुपात और घनत्व के लिए, ये आम तौर पर एक्सपोज़र के लिए ऑफसेट के साथ काउंट्स के लिए एक पॉइसन-परिवार वितरण के रूप में फिट किए जाने चाहिए। जैसे लोगों की संख्या गिनती है, और ऑफसेट क्षेत्र का क्षेत्र है। एक अच्छी व्याख्या के लिए यह प्रश्न देखें - आंकड़े.स्टैकएक्सचेंज.com
माइकल बार्टन

2
@Hatshepsut गुणात्मक रूप से संचित त्रुटियों का एक सरल उदाहरण एक निर्भर चर के रूप में मात्रा और प्रत्येक रैखिक आयाम के माप में त्रुटियां होगी।
1

73

मैं हमेशा छात्रों को बताता हूं कि प्राकृतिक लॉगरिदम लेने से एक चर को बदलने के तीन कारण हैं। चर को लॉग करने का कारण यह निर्धारित करेगा कि आप स्वतंत्र चर (ओं), निर्भर या दोनों को लॉग करना चाहते हैं। पूरे स्पष्ट होने के लिए मैं प्राकृतिक लघुगणक लेने की बात कर रहा हूं।

सबसे पहले, मॉडल फिट में सुधार करने के लिए जैसा कि अन्य पोस्टर ने नोट किया है। उदाहरण के लिए, यदि आपके अवशेषों को सामान्य रूप से वितरित नहीं किया जाता है, तो तिरछे चर का लघुगणक लेने से पैमाने में फेरबदल करके और चर को अधिक "सामान्य रूप से" वितरित करके फिट में सुधार हो सकता है। उदाहरण के लिए, कमाई शून्य पर छंटनी होती है और अक्सर सकारात्मक तिरछा प्रदर्शित होती है। यदि चर में नकारात्मक तिरछा है तो आप पहले लघुगणक लेने से पहले चर को उल्टा कर सकते हैं। मैं यहाँ विशेष रूप से लिकट पैमानों के बारे में सोच रहा हूँ जिन्हें निरंतर चर के रूप में इनपुट किया जाता है। हालांकि यह आम तौर पर निर्भर चर पर लागू होता है जहां आपको कभी-कभी एक स्वतंत्र चर के कारण अवशिष्टों (जैसे विषमलैंगिकता) के साथ समस्या होती है जिसे कभी-कभी उस चर के लघुगणक का उपयोग करके ठीक किया जा सकता है। उदाहरण के लिए, जब कोई मॉडल जो व्याख्याता के व्याख्याताओं के व्याख्याताओं को चलाता है और वर्ग चर "वर्ग के आकार" (यानी व्याख्यान में छात्रों की संख्या) को दर्शाता है, तो आउटलेरस थे जो विषमलैंगिकता को प्रेरित करते थे क्योंकि व्याख्याता मूल्यांकन में विचरण बड़ा था छोटे साथियों की तुलना में सहकर्मियों। छात्र चर को लॉग करने में मदद मिलेगी, हालांकि इस उदाहरण में या तो रॉबस्ट मानक त्रुटियों की गणना या भारित कम से कम वर्गों का उपयोग करना आसान व्याख्या कर सकता है।

मॉडल में एक या एक से अधिक चर को लॉग करने का दूसरा कारण व्याख्या के लिए है। मैं इस सुविधा का कारण कहता हूं। यदि आप अपने आश्रित (वाई) और स्वतंत्र (एक्स) चर दोनों को लॉग करते हैं, तो आपका प्रतिगमन गुणांक ( ) लोच होगा और व्याख्या निम्नानुसार होगी: एक्स में 1% वृद्धि से एक क्रेटरिस पेरिबस या % हो जाएगा Y में वृद्धि (औसतन)। प्रतिगमन "समीकरण" के केवल एक पक्ष को जोड़ने से नीचे बताए अनुसार वैकल्पिक व्याख्याएं हो सकती हैं:ββ β

Y और X - X में एक इकाई वृद्धि से Y में एक वृद्धि / कमी होगीβ

लॉग वाई और लॉग एक्स - एक्स में 1% की वृद्धि से वाई में % वृद्धि / कमी होगीβ

लॉग वाई और एक्स - एक्स में एक इकाई की वृद्धि से वाई में एक % वृद्धि / कमी होगीβ100

वाई और लॉग एक्स - एक्स में 1% वृद्धि से वाई में एक वृद्धि / कमी होगीβ/100

और आखिरकार ऐसा करने का एक सैद्धांतिक कारण हो सकता है। उदाहरण के लिए कुछ मॉडल जिनका हम अनुमान लगाना चाहते हैं वे गुणात्मक हैं और इसलिए गैर-अस्पष्ट हैं। लघुगणक लेना इन मॉडलों को रैखिक प्रतिगमन द्वारा अनुमान लगाने की अनुमति देता है। इसके अच्छे उदाहरणों में अर्थशास्त्र में कोब-डगलस उत्पादन समारोह और शिक्षा में न्यूनतम समीकरण शामिल हैं। कॉब-डगलस प्रोडक्शन फंक्शन बताते हैं कि इनपुट्स को आउटपुट में कैसे बदला जाता है:

Y=ALαKβ

कहाँ पे

Y किसी संस्था जैसे फर्म, खेत आदि का कुल उत्पादन या उत्पादन है।

A कुल कारक उत्पादकता है (आउटपुट में परिवर्तन जो इनपुट के कारण नहीं होता है जैसे प्रौद्योगिकी परिवर्तन या मौसम के अनुसार)

L श्रम इनपुट है

K कैपिटल इनपुट है

βα और उत्पादन लोच हैं।β

इस के लघुगणक लेने से फ़ंक्शन को ओएलएस रेखीय प्रतिगमन का उपयोग करने का अनुमान लगाना आसान हो जाता है:

log(Y)=log(A)+αlog(L)+βlog(K)

5
"लॉग वाई और एक्स - एक्स में एक इकाई वृद्धि से वाई में ∗ / 100% की वृद्धि होगी / घट जाएगी": मुझे लगता है कि यह केवल तभी लागू होता है जब small छोटा होता है, इसलिए exp (β) + 1 + I
Ida

1
अच्छा और स्पष्ट धन्यवाद! एक सवाल, आप लॉग वाई और एक्स मामले में व्याख्या कैसे करते हैं? और आम तौर पर मैं परेशान हूं कि लॉग ट्रांसफॉर्म किए गए
रजिस्टरों की

2
मैं उन उत्तरों के लिए एक चूसने वाला हूं जिनमें अर्थशास्त्र से उदाहरण हैं ["आप मेरे पास ' कॉब-डगलस प्रोडक्शन फंक्शन ' पर थे"] .... एक बात, हालांकि: आपको दूसरे समीकरण में इंटरसेप्ट टर्म को लॉग (ए) में बदलना चाहिए ) पहले समीकरण के अनुरूप बनाने के लिए।
स्टीव एस।

@ मैं वास्तव में। इच्छुक पाठक के लिए, मेरी पोस्ट यहाँ बताती है कि, लॉग "y" के लिए, विश्लेषक को को प्रतिशत परिवर्तन के रूप में बदलना चाहिए। 100×(eβ1)
एडम डे

21

कुछ अन्य परिवर्तनों जैसे कि रूट या पारस्परिक के लिए लघुगणक को पसंद करने के कारणों के बारे में व्हॉबर के उत्कृष्ट बिंदु पर, लेकिन अन्य परिवर्तनों की तुलना में लॉग-ट्रांसफ़ॉर्मेशन के परिणामस्वरूप प्रतिगमन गुणांकों की अद्वितीय व्याख्या पर ध्यान केंद्रित करना , देखें:

ओलिवर एन केने। लॉग परिवर्तन विशेष है। चिकित्सा 1995 में सांख्यिकी ; 14 (8): 811-819। DOI: 10.1002 / sim.4780140810 । ( Http://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/Lecture/readings/log.pdf पर उपलब्ध संदिग्ध वैधता की पीडीएफ )।

यदि आप स्वतंत्र चर x को आधार b में लॉग करते हैं , तो आप प्रतिगमन गुणांक (और CI) की व्याख्या कर सकते हैं क्योंकि निर्भर चर y प्रति b में गुणा वृद्धि x में बदल जाती है । (लॉग 2 के आधार 2 इसलिए अक्सर उपयोगी होते हैं क्योंकि वे x में दोहरीकरण प्रति y में परिवर्तन के अनुरूप होते हैं , या बेस 10 में लॉग होते हैं यदि x परिमाण के कई आदेशों पर भिन्न होता है, जो कि दुर्लभ है)। वर्ग परिवर्तन जैसे अन्य परिवर्तनों की कोई सरल व्याख्या नहीं है।

यदि आप आश्रित चर y (मूल प्रश्न नहीं, बल्कि पिछले उत्तर में से कई जो उत्तर दिए गए हैं, उनमें से एक) को लॉग करते हैं , तो मुझे परिणामों को प्रस्तुत करने के लिए 'सहानुभूति' के आकर्षक टिम कोल का विचार मिलता है (मैंने उन्हें एक बार एक पेपर में भी इस्तेमाल किया था), हालांकि वे सभी कि व्यापक रूप से पकड़ा नहीं लगता है:

टिम जे कोल। सिम्परेंट्स: 100 लॉग (ई) स्केल पर सममित प्रतिशत अंतर लॉग ट्रांसफॉर्म किए गए डेटा की प्रस्तुति को सरल करता है। चिकित्सा 2000 में सांख्यिकी ; 19 (22): 3109-3125। DOI: 10.1002 / 1097-0258 (20001130) 19:22 <3109 :: AID-SIM558> 3.0.CO; 2-F [मुझे बहुत खुशी है कि स्टेट मेड ने SICIs को DOIs के रूप में उपयोग करना बंद कर दिया ...]


1
संदर्भ के लिए धन्यवाद और बहुत अच्छे अंक। ब्याज का सवाल यह है कि क्या यह मुद्दा सभी परिवर्तनों पर लागू होता है, न कि केवल लॉग पर। हमारे लिए आंकड़े / संभावना उपयोगी है, क्योंकि यह प्रभावी प्रदर्शन भविष्यवाणी, या प्रभावी मानदंड / मार्गदर्शन की अनुमति देता है। वर्षों से हमने बिजली परिवर्तनों (दूसरे नाम से लॉग), बहुपद परिवर्तनों और अन्य (यहां तक ​​कि टुकड़ा परिवर्तन) का उपयोग करके अवशेषों को कम करने की कोशिश की है, आत्मविश्वास अंतराल को कसने और आम तौर पर डेटा के दिए गए सेट से भविष्य कहनेवाला क्षमता में सुधार करते हैं। क्या हम अब कह रहे हैं कि यह गलत है?
AsymLabs

1
@AsymLabs, ब्रेमन की दो संस्कृतियों (मोटे तौर पर भविष्यवक्ताओं और modellers) से कितने अलग हैं? सी एफ दो संस्कृतियाँ - विवादास्पद।
डेनिस

15

आम तौर पर एक इनपुट चर के लॉग को इसे स्केल करने के लिए और वितरण को बदलने के लिए (उदाहरण के लिए इसे सामान्य रूप से वितरित करने के लिए) लिया जाता है। हालाँकि यह आँख बंद करके नहीं किया जा सकता है; आपको यह सुनिश्चित करने के लिए सावधानी बरतने की ज़रूरत है कि परिणाम अभी भी व्याख्या योग्य हैं।

अधिकांश परिचयात्मक सांख्यिकी ग्रंथों में इसकी चर्चा की गई है। आप इस पर चर्चा के लिए एंड्रयू जेलमैन के पेपर को "दो मानक विचलन द्वारा विभाजित करके प्रतिगमन प्रतिगमन इनपुट" पर भी पढ़ सकते हैं । उन्होंने "डेटा विश्लेषण का उपयोग करके प्रतिगमन और बहुस्तरीय / पदानुक्रमित मॉडल" की शुरुआत में इस पर बहुत अच्छी चर्चा की है ।

खराब डेटा / आउटलेर्स से निपटने के लिए लॉग लेना एक उपयुक्त तरीका नहीं है।


12

जब आप अवशिष्ट के साथ कोई समस्या है, तो आप डेटा का लॉग लेने के लिए करते हैं। उदाहरण के लिए, यदि आप किसी विशेष कोवरिएट के खिलाफ अवशिष्टों की साजिश करते हैं और बढ़ते / घटते पैटर्न (एक कीप आकार) का निरीक्षण करते हैं, तो एक परिवर्तन उपयुक्त हो सकता है। गैर-यादृच्छिक अवशेष आमतौर पर इंगित करते हैं कि आपके मॉडल की धारणाएं गलत हैं, अर्थात गैर-सामान्य डेटा।

कुछ डेटा प्रकार स्वचालित रूप से लॉगरिदमिक परिवर्तनों के लिए उधार देते हैं। उदाहरण के लिए, मैं आमतौर पर सांद्रता या उम्र के साथ काम करते समय लॉग लेता हूं।

हालाँकि परिवर्तनों का उपयोग मुख्य रूप से आउटलेर्स से निपटने के लिए नहीं किया जाता है, वे लॉग इन करने के बाद से आपका डेटा स्क्वैश करने में मदद करते हैं।


1
लेकिन फिर भी, लॉग परिवर्तन मॉडल का उपयोग करते हुए - रैखिक प्रतिगमन के लिए यह y ~ a * x + b है, लॉग पर रैखिक प्रतिगमन के लिए यह y ~ y0 * exp (x / x0) है।

1
मैं सहमत हूं - लॉग के परिवर्तन को अपना मॉडल बनाना। लेकिन अगर आपको अपना डेटा बदलना है, तो इसका मतलब है कि आपका मॉडल पहले स्थान पर उपयुक्त नहीं था।
csgillespie

2
@cgillespie: एकाग्रता, हाँ; लेकिन उम्र? यह अजीब है।
whuber

@whuber: मुझे लगता है कि यह बहुत डेटा पर निर्भर है, लेकिन मैंने जो डेटा सेट का इस्तेमाल किया है, आप एक 10 और 18 साल की उम्र के बीच एक बड़ा अंतर देखेंगे, लेकिन एक 20 और 28 साल पुराने के बीच एक छोटा सा अंतर। यहां तक ​​कि छोटे बच्चों के लिए 0-1 वर्ष के बीच का अंतर 1-2 के अंतर के समान नहीं है।
csgillespie

1
@landroni यह संक्षेप में शब्द है। मैं यह नहीं कहूंगा कि यह खराब है, सिवाय इसके कि "उदा" का इरादा "के बजाय" था "अर्थात" मैं "यादृच्छिक" के उपयोग को समझता हूं "स्वतंत्र और पहचान के रूप में वितरित" के अर्थ में, जो वास्तव में सबसे सामान्य धारणा है। OLS। में कुछ सेटिंग्स लोग अतिरिक्त यह मान आम अंतर्निहित वितरण सामान्य है, लेकिन यह है कि व्यवहार में या सिद्धांत में सख्ती से आवश्यक नहीं है: यह सब जरूरी है कि प्रासंगिक आंकड़े के नमूने वितरण सामान्य करने के लिए करीब हो सकता है।
whuber

10

XXX

XXX3rmsXx

require(rms)
dd <- datadist(mydata); options(datadist='dd')
cr <- function(x) x ^ (1/3)
f <- ols(y ~ rcs(cr(X), 5), data=mydata)
ggplot(Predict(f))  # plot spline of cr(X) against X

X3X


E[Y|X]=f(X)

9

मैं user1690130 के सवाल का जवाब देना चाहूंगा जो 26 अक्टूबर 12 को पहले उत्तर के लिए एक टिप्पणी के रूप में छोड़ा गया था और निम्नानुसार है: "प्रत्येक क्षेत्र में या जिले के प्रत्येक विद्यालय जिले में जनसंख्या घनत्व या बाल-शिक्षक अनुपात जैसे चर के बारे में क्या जनसंख्या में प्रति 1000 लोगों की संख्या। मैंने देखा है कि प्रोफेसर इन चरों का लॉग लेते हैं। यह मेरे लिए क्यों नहीं है। उदाहरण के लिए, होमिसाइड रेट पहले से ही प्रतिशत नहीं है? लॉग में प्रतिशत परिवर्तन होगा? दर? बच्चे-शिक्षक अनुपात के लॉग को क्यों पसंद किया जाएगा? "

मैं एक ऐसी ही समस्या का जवाब देना चाह रहा था और अपनी पुरानी सांख्यिकी पाठ्यक्रमपुस्तिका ( जेफरी वोल्ड्रिज। 2006) को साझा करना चाहता था । परिचयात्मक अर्थमिति - एक आधुनिक दृष्टिकोण, 4 संस्करण। अध्याय 6 एकाधिक प्रतिगमन विश्लेषण: आगे के मुद्दे। 191 ) इसके बारे में। Wooldridge सलाह देता है:

वेरीएबल्स जो एक अनुपात या प्रतिशत रूप में दिखाई देते हैं, जैसे कि बेरोजगारी दर, पेंशन योजना में भागीदारी दर, एक मानकीकृत परीक्षा पास करने वाले छात्रों का प्रतिशत, और रिपोर्ट किए गए अपराधों पर गिरफ्तारी दर - मूल या लघुगणक रूप में प्रकट हो सकते हैं , हालांकि स्तर के रूपों में उनका उपयोग करने की प्रवृत्ति है । ऐसा इसलिए है क्योंकि किसी भी प्रतिगमन गुणांक में मूल चर शामिल है - चाहे वह आश्रित हो या स्वतंत्र चर - एक प्रतिशत बिंदु परिवर्तन व्याख्या होगी। अगर हम उपयोग करते हैं, कहते हैं, लॉग ( unem एक प्रतिगमन, जहां में) unem बेरोजगार व्यक्तियों का प्रतिशत है, हम एक प्रतिशत परिवर्तन और परिवर्तन का प्रतिशत के बीच अंतर करना बहुत सावधान रहना चाहिए। याद रखिए, अगर अनैम8 से 9 तक जाता है, यह एक प्रतिशत की वृद्धि है, लेकिन प्रारंभिक बेरोजगारी के स्तर से 12.5% ​​की वृद्धि है। लॉग का उपयोग करने का मतलब है कि हम बेरोजगारी दर में प्रतिशत परिवर्तन को देख रहे हैं: लॉग (9) - लॉग (8) = 0.118 या 11.8%, जो कि वास्तविक 12.5% ​​वृद्धि के लिए लघुगणक सन्निकटन है।

उपयोगकर्ता के1690130 के प्रश्न के लिए व्ह्यूबर की पिछली टिप्पणी पर इसके और पिगीबैंकिंग के आधार पर, मैं व्याख्या को सरल रखने के लिए घनत्व या प्रतिशत दर चर के लघुगणक का उपयोग करने से बचूंगा जब तक कि लॉग फॉर्म का उपयोग करके एक प्रमुख व्यापार का उत्पादन नहीं किया जाता है जैसे घनत्व के तिरछापन को कम करने में सक्षम होना। दर चर।


अक्सर प्रतिशत के लिए (अर्थात आनुपातिक (0,1 पर), एक लॉजिट ट्रांसफ़ॉर्म का उपयोग किया जाता है। ऐसा इसलिए है क्योंकि आनुपातिक डेटा अक्सर अवशिष्ट की सामान्यता की धारणा का उल्लंघन करते हैं, एक तरह से लॉग ट्रांसफ़ॉर्मेशन सही नहीं होगा।
कॉलिन

3

शेन का कहना है कि बुरे डेटा से निपटने के लिए लॉग लेना ठीक है। जैसा कि कॉलिन के सामान्य अवशेषों के महत्व के बारे में है। व्यवहार में मुझे लगता है कि आमतौर पर आप सामान्य अवशेष प्राप्त कर सकते हैं यदि इनपुट और आउटपुट चर भी अपेक्षाकृत सामान्य हैं। व्यवहार में इसका अर्थ है कि तब्दील और अनियंत्रित डेटासेट के वितरण को नजरअंदाज करना और स्वयं को आश्वस्त करना कि वे अधिक सामान्य हो गए हैं और / या सामान्यता के परीक्षण कर रहे हैं (जैसे शापिरो-विल्क या कोलमोगोरोव-स्मिरनोव परीक्षण) और यह निर्धारित करना कि परिणाम अधिक सामान्य है या नहीं। व्याख्या और परंपरा भी महत्वपूर्ण है। उदाहरण के लिए, संज्ञानात्मक मनोविज्ञान में, प्रतिक्रिया समय के लॉग रूपांतरण अक्सर उपयोग किए जाते हैं, हालांकि, मेरे लिए कम से कम, लॉग आरटी की व्याख्या अस्पष्ट है। इसके अलावा,


2
वोटों के आधार पर उत्तर पुन: व्यवस्थित किए जाएंगे, इसलिए कृपया अन्य उत्तरों का संदर्भ न देने का प्रयास करें।
Vebjorn Ljosa

4
सामान्यता का परीक्षण आमतौर पर बहुत गंभीर होता है। अक्सर यह सममित रूप से वितरित अवशिष्ट प्राप्त करने के लिए पर्याप्त होता है। (व्यवहार में, बच दृढ़ता से नुकीला वितरण के लिए, आंशिक रूप से आकलन की एक विरूपण साक्ष्य के रूप में मुझे लगता है कोई फर्क नहीं पड़ता कैसे एक डेटा फिर से व्यक्त करता है "के रूप में काफी" गैर सामान्य परीक्षण होगा करते हैं, और इसलिए।)
whuber

@ शुभकर्ता: सहमत। यही कारण है कि मैंने "अधिक सामान्य हो गया" निर्दिष्ट किया। उद्देश्य परीक्षण के पी-मूल्य के आधार पर एक स्वीकार / अस्वीकार निर्णय के बजाय परिवर्तनों के लिए परीक्षण सांख्यिकीय को नेत्रहीन करना चाहिए।
रुसलपिएर्स

हमेशा उपयुक्त के रूप में अन्य उत्तरों को संदर्भित करना चाहिए!
अबल्टर

@ आल्टर? मैं अनुसरण नहीं करता।
रसेलपिएर्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.