कुछ निरंतर चर के लॉग परिवर्तन लेने के पीछे क्या कारण है?


16

मैं एक वर्गीकरण समस्या कर रहा हूं और मैंने कई लोगों के कोड और ट्यूटोरियल पढ़े हैं। एक बात मैंने देखा है कि कई लोगों को ले np.logया logकी तरह निरंतर चर का loan_amountया applicant_incomeआदि

मैं सिर्फ इसके पीछे के कारण को समझना चाहता हूं। क्या यह हमारे मॉडल भविष्यवाणी सटीकता में सुधार करने में मदद करता है। क्या यह अनिवार्य है? या इसके पीछे कोई तर्क है?

कृपया यदि संभव हो तो कुछ स्पष्टीकरण प्रदान करें। धन्यवाद।

जवाबों:


27

यह तब किया जाता है जब चर परिमाण के कई आदेशों को पूरा करते हैं। आय एक विशिष्ट उदाहरण है: इसका वितरण "पावर लॉ" है, जिसका अर्थ है कि अधिकांश विशाल आय छोटे हैं और बहुत कम बड़े हैं।

इस प्रकार के "फैट टेल्ड" वितरण का लघुगणक के गणितीय गुणों के कारण लघुगणकीय पैमाने पर अध्ययन किया जाता है:

log(xn)=nlog(x)

जो ये दर्शाता हे

log(104)=4log(10)

तथा

log(103)=3log(10)

जो एक छोटे से एक 4 - 3 में एक विशाल अंतर को

104103
में बदल देता है ।
43


2
अच्छा जवाब विशेष रूप से घातीय वितरण के बारे में बात कर रहा है।
कसरा मंशाई

1
@ KasraManshaei मैं विशेष रूप से बिजली कानूनों के बारे में बोल रहा था (आय एक विशिष्ट उदाहरण है): घातीय वितरण में चरम मान बहुत दुर्लभ हैं। इसलिए डेटा जो परिमाण के कई आदेशों को फैलाता है, आमतौर पर बिजली कानून है।
ड्यूकियो पियोवानी

1
लेकिन निश्चित रूप से ऐसे मामलों में ---> ln लॉग होता है, जो बिल्कुल जवाब के बिंदु को नहीं बदलता है।
ड्यूकियो पियोवानी

हां, मुझे यह मिल गया। जैसा कि आपने कहा कि बहुत अधिक बदलाव नहीं हुए हैं।
कसारा मंशाई

7

अधिकतर तिरछी वितरण के कारण। लॉगरिदम स्वाभाविक रूप से एक चर की गतिशील सीमा को कम कर देता है, इसलिए अंतर को संरक्षित किया जाता है जबकि पैमाना नाटकीय रूप से तिरछा नहीं होता है। कल्पना कीजिए कि कुछ लोगों को 100,000,000 ऋण मिले और कुछ को 10000 मिले और कुछ 0. किसी भी सुविधा को स्केलिंग में संभवतः 0 और 10000 को एक दूसरे के इतना करीब रखा जाएगा क्योंकि सबसे बड़ी संख्या वैसे भी सीमा को धक्का देती है। लघुगणक समस्या हल करती है।


मैनहेल, तो मैं मिनमैक्सस्कलर या स्टैंडर्डस्क्लेयर का सही उपयोग कर सकता हूं? या लॉग लेना आवश्यक है?
साई कुमार

ज़रूरी। यदि आप स्केलर्स का उपयोग करते हैं तो वे छोटे मानों को नाटकीय रूप से संकुचित करते हैं। मेरे कहने का मतलब यही था।
कसारा मंशाई

2
हाँ। यदि आप 1000,000,000 और 10000 और 0 खाते में मान लेते हैं। कई मामलों में, पहले वाला बहुत बड़ा है जो दूसरों को आपके मॉडल को ठीक से देखने दे। लेकिन अगर आप लघुगणक लेते हैं तो आपके पास क्रमशः 9, 4 और 0 होंगे। जैसा कि आप देखते हैं कि डायनेमिक रेंज कम है जबकि अंतर लगभग संरक्षित हैं। यह आपकी सुविधा में किसी भी घातीय प्रकृति से आता है। उन मामलों में आपको लघुगणक की आवश्यकता होती है, जैसा कि दूसरे उत्तर में दर्शाया गया है। आशा है कि इसने मदद की :)
कासरा मंशाई

2
खैर, स्केलिंग! सामान्य वितरण के साथ दो चर की कल्पना करें (इसलिए लघुगणक की कोई आवश्यकता नहीं है) लेकिन उनमें से एक 10ish के पैमाने में है और दूसरा दूध के पैमाने में। फिर से उन्हें मॉडल को खिलाने से छोटा एक अदृश्य हो जाता है। इस मामले में आप स्केलरों का उपयोग उनके तराजू को उचित बनाने के लिए करते हैं।
कसरा मंशाई

1
@KasraManshaei लॉग (0) = -in हालांकि।
JAD

5

logx0<x<<logx<

x


3

फिर भी एक और कारण है कि लघुगणक परिवर्तन उपयोगी हैं, इस तथ्य के कारण, अनुपात डेटा के लिए खेलते हैं log(A/B) = -log(B/A)। यदि आप कच्चे पैमाने पर अनुपात के वितरण की साजिश करते हैं, तो आपके अंक सीमा में आते हैं (0, Inf)। 1 से कम के किसी भी अनुपात को भूखंड के एक छोटे से क्षेत्र में पूरा किया जाएगा, और इसके अलावा, यदि आप (B/A)इसके बजाय अनुपात को फ्लिप करते हैं, तो साजिश पूरी तरह से अलग दिखाई देगी (A/B)। यदि आप एक लघुगणकीय पैमाने पर करते हैं, तो सीमा अब है (-Inf, +Inf), जिसका अर्थ है अनुपात 1 से कम और 1 से अधिक समान रूप से अधिक समान हैं। यदि आप अनुपात को फ्लिप करने का निर्णय लेते हैं, तो आप बस प्लॉट को 0 के आसपास फ्लिप करते हैं, अन्यथा यह बिल्कुल वैसा ही दिखता है। लॉग स्केल पर, यह वास्तव में मायने नहीं रखता है जब आप एक अनुपात दिखाते हैं 1/10 or 10/1, जो तब उपयोगी होता है जब कोई स्पष्ट विकल्प नहीं होता है जिसके बारे में यह होना चाहिए।


3

आपको लॉगनॉर्मल वितरण को देखना चाहिए ।

लोग लॉग का उपयोग कर सकते हैं क्योंकि उन्हें लगता है कि यह स्केल या कुछ और को संकुचित करता है, लेकिन लॉग का प्रिंसिपल उपयोग यह है कि आप डेटा के साथ काम कर रहे हैं जिसमें लॉगऑनॉर्मल वितरण है। यह वेतन, आवास की कीमतें, आदि जैसी चीजें हैं, जहां सभी मूल्य सकारात्मक हैं और अधिकांश अपेक्षाकृत मामूली हैं, लेकिन कुछ बहुत बड़े हैं।

यदि आप डेटा का लॉग ले सकते हैं और यह सामान्य हो जाता है, तो आप सामान्य वितरण की कई विशेषताओं का लाभ उठा सकते हैं, जैसे कि अच्छी तरह से परिभाषित मतलब, मानक विचलन (और इसलिए z- स्कोर), समरूपता, आदि।

इसी तरह, लॉग को जोड़ना संयुक्त राष्ट्र के लॉग-वैल्यू के गुणन के समान है। जिसका अर्थ है कि आपने एक वितरण को बदल दिया है जहां त्रुटियां एक से अधिक होती हैं जहां वे गुणक होते हैं (अर्थात प्रतिशत-आधारित)। चूंकि ओएलएस प्रतिगमन जैसी तकनीकों को एक सामान्य त्रुटि वितरण की आवश्यकता होती है, लॉग के साथ काम करना उनकी प्रयोज्यता को additive से गुणा प्रक्रियाओं तक बढ़ाता है।


1
यदि आप किसी वितरण-मुक्त तरीके से वस्तुओं की तुलना करना चाहते हैं, तो क्या प्रतिशत या डिकाइल लेना बेहतर नहीं होगा और मूल मूल्य के बजाय उन का उपयोग करें?
विलियम पायने

1
@WilliamPayne ज़रूर, आप एक वितरण-मुक्त पद्धति का उपयोग कर सकते हैं, हालांकि आप वितरण होने की शक्ति भी दे रहे हैं ... यदि आपकी वितरण संबंधी धारणा सही है। अधिक (सही) मान्यताओं के साथ अधिक शक्ति आती है। प्रतिशत अनिवार्य रूप से रैंक होते हैं, इसलिए आप अपने पास की दूरी की जानकारी को फेंक देते हैं, और एक विशेष नमूने का प्रतिशत एक बिंदु अनुमान है। हम आम तौर पर अंकों के वितरण को पसंद करेंगे।
वेन

0

मैं कहता हूं कि मुख्य कारण वितरणात्मक नहीं है, बल्कि गैर-रैखिक संबंध के कारण है। लॉग अक्सर संतृप्त रिश्तों पर कब्जा ...

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.