क्या मैं प्रश्न में स्वतंत्र चर के लिए एक बेहतर व्यवहार किए गए वितरण की तलाश कर रहा हूं, या बाहर के प्रभाव को कम करने के लिए, या कुछ और?
क्या मैं प्रश्न में स्वतंत्र चर के लिए एक बेहतर व्यवहार किए गए वितरण की तलाश कर रहा हूं, या बाहर के प्रभाव को कम करने के लिए, या कुछ और?
जवाबों:
मैं हमेशा इस तरह से कई उत्कृष्ट प्रतिक्रियाओं के साथ एक धागे में कूदने में संकोच करता हूं, लेकिन यह मुझे हड़ताली करता है कि कुछ उत्तर कुछ अन्य परिवर्तन के लिए लघुगणक को पसंद करने का कोई कारण प्रदान करते हैं जो डेटा को "स्क्वाश" करते हैं, जैसे कि रूट या पारस्परिक।
ऐसा करने से पहले, आइए मौजूदा उत्तरों में ज्ञान को और अधिक सामान्य तरीके से पुन: व्यवस्थित करें। कुछ गैर रेखीय निर्भर चर की फिर से अभिव्यक्ति इंगित किया गया है जब से कोई भी लागू करें:
अवशिष्टों का तिरछा वितरण होता है। एक परिवर्तन का उद्देश्य अवशिष्टों को प्राप्त करना है जो लगभग सममित रूप से वितरित किए जाते हैं (लगभग शून्य, निश्चित रूप से)।
अवशेषों का प्रसार निर्भर चर ("विषमलैंगिकता") के मूल्यों के साथ व्यवस्थित रूप से बदलता है। परिवर्तन का उद्देश्य प्रसार में उस व्यवस्थित परिवर्तन को दूर करना है, अनुमानित "समरूपता" को प्राप्त करना।
एक रिश्ते को रैखिक बनाने के लिए।
जब वैज्ञानिक सिद्धांत इंगित करता है। उदाहरण के लिए, रसायन विज्ञान अक्सर सांद्रता को लघुगणक (गतिविधियां या यहां तक कि प्रसिद्ध पीएच देने) के रूप में व्यक्त करता है।
जब एक अधिक अस्पष्ट सांख्यिकीय सिद्धांत बताता है कि अवशिष्ट "यादृच्छिक त्रुटियों" को दर्शाते हैं जो कि योगात्मक रूप से जमा नहीं करते हैं।
एक मॉडल को सरल बनाने के लिए। उदाहरण के लिए, कभी-कभी एक लघुगणक "बातचीत" शब्दों की संख्या और जटिलता को सरल कर सकता है।
(ये संकेत एक दूसरे के साथ संघर्ष कर सकते हैं; ऐसे मामलों में, निर्णय की आवश्यकता है।)
इसलिए, जब कुछ अन्य परिवर्तन के बजाय एक लघुगणक को विशेष रूप से इंगित किया जाता है?
अवशिष्टों में एक "दृढ़ता से" सकारात्मक रूप से तिरछा वितरण होता है। EDA पर अपनी पुस्तक में, जॉन टुके अवशिष्ट के रैंक आंकड़ों के आधार पर परिवर्तन (बॉक्स-कॉक्स के परिवार के भीतर, या शक्ति, परिवर्तन) का अनुमान लगाने के लिए मात्रात्मक तरीके प्रदान करता है। यह वास्तव में इस तथ्य से नीचे आता है कि यदि लॉग सममिति को अवशिष्टों को लेते हुए, यह शायद फिर से अभिव्यक्ति का सही रूप था; अन्यथा, कुछ अन्य अभिव्यक्ति की आवश्यकता है।
जब अवशिष्टों का एसडी सीधे फिट किए गए मूल्यों के लिए आनुपातिक होता है (और फिट किए गए मूल्यों की कुछ शक्ति के लिए नहीं)।
जब संबंध घातीय के करीब है।
जब अवशिष्टों को गुणात्मक रूप से संचित त्रुटियों को प्रतिबिंबित करने के लिए माना जाता है।
आप वास्तव में एक मॉडल चाहते हैं जिसमें व्याख्यात्मक चर में सीमांत परिवर्तन की व्याख्या आश्रित चर में गुणक (प्रतिशत) परिवर्तनों के रूप में की जाती है।
अंत में, कुछ गैर -कारण फिर से अभिव्यक्ति का उपयोग करने के लिए :
आउटलेर बनाना आउटलेयर की तरह नहीं दिखता। एक आउटलाइयर एक डेटाम है जो डेटा के कुछ सरल, अपेक्षाकृत सरल विवरण के अनुरूप नहीं है। आउटलेर्स को बेहतर बनाने के लिए किसी के विवरण को बदलना आमतौर पर प्राथमिकताओं का गलत उलटा है: पहले डेटा का वैज्ञानिक रूप से मान्य, सांख्यिकीय रूप से अच्छा विवरण प्राप्त करें और फिर किसी भी आउटलेर का पता लगाएं। कभी-कभार बाहरी निर्धारण न करें कि बाकी डेटा का वर्णन कैसे करें!
क्योंकि सॉफ्टवेयर ने स्वचालित रूप से किया। (पर्याप्त कथन!)
क्योंकि सभी आंकड़े सकारात्मक हैं। (सकारात्मकता का अर्थ अक्सर सकारात्मक तिरछापन होता है, लेकिन ऐसा नहीं होता है। इसके अलावा, अन्य परिवर्तन बेहतर काम कर सकते हैं। उदाहरण के लिए, एक रूट अक्सर गिने हुए डेटा के साथ सबसे अच्छा काम करता है।)
"खराब" डेटा बनाने के लिए (शायद कम गुणवत्ता का) अच्छी तरह से व्यवहार किया जाता है।
डेटा प्लॉट करने में सक्षम होने के लिए। (यदि किसी परिवर्तन के लिए डेटा को प्लॉट करने में सक्षम होना आवश्यक है, तो शायद इसकी आवश्यकता एक या एक से अधिक अच्छे कारणों के लिए है जो पहले ही उल्लिखित हैं। यदि रूपांतरण का एकमात्र कारण सही मायने में प्लॉटिंग है, तो आगे बढ़ें और ऐसा करें - लेकिन केवल प्लॉट करने के लिए डेटा। विश्लेषण के लिए डेटा को अनियंत्रित छोड़ दें।)
मैं हमेशा छात्रों को बताता हूं कि प्राकृतिक लॉगरिदम लेने से एक चर को बदलने के तीन कारण हैं। चर को लॉग करने का कारण यह निर्धारित करेगा कि आप स्वतंत्र चर (ओं), निर्भर या दोनों को लॉग करना चाहते हैं। पूरे स्पष्ट होने के लिए मैं प्राकृतिक लघुगणक लेने की बात कर रहा हूं।
सबसे पहले, मॉडल फिट में सुधार करने के लिए जैसा कि अन्य पोस्टर ने नोट किया है। उदाहरण के लिए, यदि आपके अवशेषों को सामान्य रूप से वितरित नहीं किया जाता है, तो तिरछे चर का लघुगणक लेने से पैमाने में फेरबदल करके और चर को अधिक "सामान्य रूप से" वितरित करके फिट में सुधार हो सकता है। उदाहरण के लिए, कमाई शून्य पर छंटनी होती है और अक्सर सकारात्मक तिरछा प्रदर्शित होती है। यदि चर में नकारात्मक तिरछा है तो आप पहले लघुगणक लेने से पहले चर को उल्टा कर सकते हैं। मैं यहाँ विशेष रूप से लिकट पैमानों के बारे में सोच रहा हूँ जिन्हें निरंतर चर के रूप में इनपुट किया जाता है। हालांकि यह आम तौर पर निर्भर चर पर लागू होता है जहां आपको कभी-कभी एक स्वतंत्र चर के कारण अवशिष्टों (जैसे विषमलैंगिकता) के साथ समस्या होती है जिसे कभी-कभी उस चर के लघुगणक का उपयोग करके ठीक किया जा सकता है। उदाहरण के लिए, जब कोई मॉडल जो व्याख्याता के व्याख्याताओं के व्याख्याताओं को चलाता है और वर्ग चर "वर्ग के आकार" (यानी व्याख्यान में छात्रों की संख्या) को दर्शाता है, तो आउटलेरस थे जो विषमलैंगिकता को प्रेरित करते थे क्योंकि व्याख्याता मूल्यांकन में विचरण बड़ा था छोटे साथियों की तुलना में सहकर्मियों। छात्र चर को लॉग करने में मदद मिलेगी, हालांकि इस उदाहरण में या तो रॉबस्ट मानक त्रुटियों की गणना या भारित कम से कम वर्गों का उपयोग करना आसान व्याख्या कर सकता है।
मॉडल में एक या एक से अधिक चर को लॉग करने का दूसरा कारण व्याख्या के लिए है। मैं इस सुविधा का कारण कहता हूं। यदि आप अपने आश्रित (वाई) और स्वतंत्र (एक्स) चर दोनों को लॉग करते हैं, तो आपका प्रतिगमन गुणांक ( ) लोच होगा और व्याख्या निम्नानुसार होगी: एक्स में 1% वृद्धि से एक क्रेटरिस पेरिबस या % हो जाएगा Y में वृद्धि (औसतन)। प्रतिगमन "समीकरण" के केवल एक पक्ष को जोड़ने से नीचे बताए अनुसार वैकल्पिक व्याख्याएं हो सकती हैं:β
Y और X - X में एक इकाई वृद्धि से Y में एक वृद्धि / कमी होगी
लॉग वाई और लॉग एक्स - एक्स में 1% की वृद्धि से वाई में % वृद्धि / कमी होगी
लॉग वाई और एक्स - एक्स में एक इकाई की वृद्धि से वाई में एक % वृद्धि / कमी होगी
वाई और लॉग एक्स - एक्स में 1% वृद्धि से वाई में एक वृद्धि / कमी होगी
और आखिरकार ऐसा करने का एक सैद्धांतिक कारण हो सकता है। उदाहरण के लिए कुछ मॉडल जिनका हम अनुमान लगाना चाहते हैं वे गुणात्मक हैं और इसलिए गैर-अस्पष्ट हैं। लघुगणक लेना इन मॉडलों को रैखिक प्रतिगमन द्वारा अनुमान लगाने की अनुमति देता है। इसके अच्छे उदाहरणों में अर्थशास्त्र में कोब-डगलस उत्पादन समारोह और शिक्षा में न्यूनतम समीकरण शामिल हैं। कॉब-डगलस प्रोडक्शन फंक्शन बताते हैं कि इनपुट्स को आउटपुट में कैसे बदला जाता है:
कहाँ पे
किसी संस्था जैसे फर्म, खेत आदि का कुल उत्पादन या उत्पादन है।
कुल कारक उत्पादकता है (आउटपुट में परिवर्तन जो इनपुट के कारण नहीं होता है जैसे प्रौद्योगिकी परिवर्तन या मौसम के अनुसार)
श्रम इनपुट है
कैपिटल इनपुट है
β और उत्पादन लोच हैं।
इस के लघुगणक लेने से फ़ंक्शन को ओएलएस रेखीय प्रतिगमन का उपयोग करने का अनुमान लगाना आसान हो जाता है:
कुछ अन्य परिवर्तनों जैसे कि रूट या पारस्परिक के लिए लघुगणक को पसंद करने के कारणों के बारे में व्हॉबर के उत्कृष्ट बिंदु पर, लेकिन अन्य परिवर्तनों की तुलना में लॉग-ट्रांसफ़ॉर्मेशन के परिणामस्वरूप प्रतिगमन गुणांकों की अद्वितीय व्याख्या पर ध्यान केंद्रित करना , देखें:
ओलिवर एन केने। लॉग परिवर्तन विशेष है। चिकित्सा 1995 में सांख्यिकी ; 14 (8): 811-819। DOI: 10.1002 / sim.4780140810 । ( Http://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/Lecture/readings/log.pdf पर उपलब्ध संदिग्ध वैधता की पीडीएफ )।
यदि आप स्वतंत्र चर x को आधार b में लॉग करते हैं , तो आप प्रतिगमन गुणांक (और CI) की व्याख्या कर सकते हैं क्योंकि निर्भर चर y प्रति b में गुणा वृद्धि x में बदल जाती है । (लॉग 2 के आधार 2 इसलिए अक्सर उपयोगी होते हैं क्योंकि वे x में दोहरीकरण प्रति y में परिवर्तन के अनुरूप होते हैं , या बेस 10 में लॉग होते हैं यदि x परिमाण के कई आदेशों पर भिन्न होता है, जो कि दुर्लभ है)। वर्ग परिवर्तन जैसे अन्य परिवर्तनों की कोई सरल व्याख्या नहीं है।
यदि आप आश्रित चर y (मूल प्रश्न नहीं, बल्कि पिछले उत्तर में से कई जो उत्तर दिए गए हैं, उनमें से एक) को लॉग करते हैं , तो मुझे परिणामों को प्रस्तुत करने के लिए 'सहानुभूति' के आकर्षक टिम कोल का विचार मिलता है (मैंने उन्हें एक बार एक पेपर में भी इस्तेमाल किया था), हालांकि वे सभी कि व्यापक रूप से पकड़ा नहीं लगता है:
टिम जे कोल। सिम्परेंट्स: 100 लॉग (ई) स्केल पर सममित प्रतिशत अंतर लॉग ट्रांसफॉर्म किए गए डेटा की प्रस्तुति को सरल करता है। चिकित्सा 2000 में सांख्यिकी ; 19 (22): 3109-3125। DOI: 10.1002 / 1097-0258 (20001130) 19:22 <3109 :: AID-SIM558> 3.0.CO; 2-F [मुझे बहुत खुशी है कि स्टेट मेड ने SICIs को DOIs के रूप में उपयोग करना बंद कर दिया ...]
आम तौर पर एक इनपुट चर के लॉग को इसे स्केल करने के लिए और वितरण को बदलने के लिए (उदाहरण के लिए इसे सामान्य रूप से वितरित करने के लिए) लिया जाता है। हालाँकि यह आँख बंद करके नहीं किया जा सकता है; आपको यह सुनिश्चित करने के लिए सावधानी बरतने की ज़रूरत है कि परिणाम अभी भी व्याख्या योग्य हैं।
अधिकांश परिचयात्मक सांख्यिकी ग्रंथों में इसकी चर्चा की गई है। आप इस पर चर्चा के लिए एंड्रयू जेलमैन के पेपर को "दो मानक विचलन द्वारा विभाजित करके प्रतिगमन प्रतिगमन इनपुट" पर भी पढ़ सकते हैं । उन्होंने "डेटा विश्लेषण का उपयोग करके प्रतिगमन और बहुस्तरीय / पदानुक्रमित मॉडल" की शुरुआत में इस पर बहुत अच्छी चर्चा की है ।
खराब डेटा / आउटलेर्स से निपटने के लिए लॉग लेना एक उपयुक्त तरीका नहीं है।
जब आप अवशिष्ट के साथ कोई समस्या है, तो आप डेटा का लॉग लेने के लिए करते हैं। उदाहरण के लिए, यदि आप किसी विशेष कोवरिएट के खिलाफ अवशिष्टों की साजिश करते हैं और बढ़ते / घटते पैटर्न (एक कीप आकार) का निरीक्षण करते हैं, तो एक परिवर्तन उपयुक्त हो सकता है। गैर-यादृच्छिक अवशेष आमतौर पर इंगित करते हैं कि आपके मॉडल की धारणाएं गलत हैं, अर्थात गैर-सामान्य डेटा।
कुछ डेटा प्रकार स्वचालित रूप से लॉगरिदमिक परिवर्तनों के लिए उधार देते हैं। उदाहरण के लिए, मैं आमतौर पर सांद्रता या उम्र के साथ काम करते समय लॉग लेता हूं।
हालाँकि परिवर्तनों का उपयोग मुख्य रूप से आउटलेर्स से निपटने के लिए नहीं किया जाता है, वे लॉग इन करने के बाद से आपका डेटा स्क्वैश करने में मदद करते हैं।
rms
require(rms)
dd <- datadist(mydata); options(datadist='dd')
cr <- function(x) x ^ (1/3)
f <- ols(y ~ rcs(cr(X), 5), data=mydata)
ggplot(Predict(f)) # plot spline of cr(X) against X
मैं user1690130 के सवाल का जवाब देना चाहूंगा जो 26 अक्टूबर 12 को पहले उत्तर के लिए एक टिप्पणी के रूप में छोड़ा गया था और निम्नानुसार है: "प्रत्येक क्षेत्र में या जिले के प्रत्येक विद्यालय जिले में जनसंख्या घनत्व या बाल-शिक्षक अनुपात जैसे चर के बारे में क्या जनसंख्या में प्रति 1000 लोगों की संख्या। मैंने देखा है कि प्रोफेसर इन चरों का लॉग लेते हैं। यह मेरे लिए क्यों नहीं है। उदाहरण के लिए, होमिसाइड रेट पहले से ही प्रतिशत नहीं है? लॉग में प्रतिशत परिवर्तन होगा? दर? बच्चे-शिक्षक अनुपात के लॉग को क्यों पसंद किया जाएगा? "
मैं एक ऐसी ही समस्या का जवाब देना चाह रहा था और अपनी पुरानी सांख्यिकी पाठ्यक्रमपुस्तिका ( जेफरी वोल्ड्रिज। 2006) को साझा करना चाहता था । परिचयात्मक अर्थमिति - एक आधुनिक दृष्टिकोण, 4 संस्करण। अध्याय 6 एकाधिक प्रतिगमन विश्लेषण: आगे के मुद्दे। 191 ) इसके बारे में। Wooldridge सलाह देता है:
वेरीएबल्स जो एक अनुपात या प्रतिशत रूप में दिखाई देते हैं, जैसे कि बेरोजगारी दर, पेंशन योजना में भागीदारी दर, एक मानकीकृत परीक्षा पास करने वाले छात्रों का प्रतिशत, और रिपोर्ट किए गए अपराधों पर गिरफ्तारी दर - मूल या लघुगणक रूप में प्रकट हो सकते हैं , हालांकि स्तर के रूपों में उनका उपयोग करने की प्रवृत्ति है । ऐसा इसलिए है क्योंकि किसी भी प्रतिगमन गुणांक में मूल चर शामिल है - चाहे वह आश्रित हो या स्वतंत्र चर - एक प्रतिशत बिंदु परिवर्तन व्याख्या होगी। अगर हम उपयोग करते हैं, कहते हैं, लॉग ( unem एक प्रतिगमन, जहां में) unem बेरोजगार व्यक्तियों का प्रतिशत है, हम एक प्रतिशत परिवर्तन और परिवर्तन का प्रतिशत के बीच अंतर करना बहुत सावधान रहना चाहिए। याद रखिए, अगर अनैम8 से 9 तक जाता है, यह एक प्रतिशत की वृद्धि है, लेकिन प्रारंभिक बेरोजगारी के स्तर से 12.5% की वृद्धि है। लॉग का उपयोग करने का मतलब है कि हम बेरोजगारी दर में प्रतिशत परिवर्तन को देख रहे हैं: लॉग (9) - लॉग (8) = 0.118 या 11.8%, जो कि वास्तविक 12.5% वृद्धि के लिए लघुगणक सन्निकटन है।
उपयोगकर्ता के1690130 के प्रश्न के लिए व्ह्यूबर की पिछली टिप्पणी पर इसके और पिगीबैंकिंग के आधार पर, मैं व्याख्या को सरल रखने के लिए घनत्व या प्रतिशत दर चर के लघुगणक का उपयोग करने से बचूंगा जब तक कि लॉग फॉर्म का उपयोग करके एक प्रमुख व्यापार का उत्पादन नहीं किया जाता है जैसे घनत्व के तिरछापन को कम करने में सक्षम होना। दर चर।
शेन का कहना है कि बुरे डेटा से निपटने के लिए लॉग लेना ठीक है। जैसा कि कॉलिन के सामान्य अवशेषों के महत्व के बारे में है। व्यवहार में मुझे लगता है कि आमतौर पर आप सामान्य अवशेष प्राप्त कर सकते हैं यदि इनपुट और आउटपुट चर भी अपेक्षाकृत सामान्य हैं। व्यवहार में इसका अर्थ है कि तब्दील और अनियंत्रित डेटासेट के वितरण को नजरअंदाज करना और स्वयं को आश्वस्त करना कि वे अधिक सामान्य हो गए हैं और / या सामान्यता के परीक्षण कर रहे हैं (जैसे शापिरो-विल्क या कोलमोगोरोव-स्मिरनोव परीक्षण) और यह निर्धारित करना कि परिणाम अधिक सामान्य है या नहीं। व्याख्या और परंपरा भी महत्वपूर्ण है। उदाहरण के लिए, संज्ञानात्मक मनोविज्ञान में, प्रतिक्रिया समय के लॉग रूपांतरण अक्सर उपयोग किए जाते हैं, हालांकि, मेरे लिए कम से कम, लॉग आरटी की व्याख्या अस्पष्ट है। इसके अलावा,