क्या डेटा बदलने के लिए विज़ुअलाइज़ेशन पर्याप्त तर्क है?


13

संकट

मैं 30 मापदंडों में से प्रत्येक द्वारा समझाया गया विचरण करना चाहता हूं, उदाहरण के लिए प्रत्येक पैरामीटर के लिए एक अलग बार के साथ एक बारप्लॉट के रूप में, और y अक्ष पर विचरण:

वैकल्पिक शब्द

हालांकि, वेरिएंस को छोटे मानों की ओर जोरदार तिरछा किया जाता है, जिसमें 0 भी शामिल हैं, जैसा कि नीचे दिए गए हिस्टोग्राम में देखा जा सकता है:

वैकल्पिक शब्द

यदि मैं उन्हें बदल देता हूं , तो छोटे मानों (हिस्टोग्राम और नीचे दिए गए बार्प्लॉट) में अंतर देखना आसान हो जाएगा:log(x+1)

वैकल्पिक शब्दवैकल्पिक शब्द

सवाल

लॉग-स्केल पर प्लॉटिंग आम है, लेकिन प्लॉटिंग समान रूप से उचित है?log(x+1)

जवाबों:


13

इसे कुछ लोगों द्वारा " शुरू किया गया लघुगणक " कहा गया है ( उदाहरण के लिए , जॉन टुके)। (कुछ उदाहरणों के लिए, Google john tukey ने "लॉग शुरू किया" ।)

यह उपयोग करने के लिए पूरी तरह से ठीक है। वास्तव में, आप आश्रित चर के गोलाई के लिए नॉनज़रो के शुरुआती मूल्य का उपयोग करने की अपेक्षा कर सकते हैं। उदाहरण के लिए, निकटतम चर पर निर्भर चर को प्रभावी ढंग से गोल करना, इसके वास्तविक विचरण से 1/12 बंद हो जाता है, एक उचित प्रारंभ मान का सुझाव कम से कम 1/12 होना चाहिए। (यह मान इन आंकड़ों के साथ एक बुरा काम नहीं करता है। 1 से ऊपर के अन्य मूल्यों का उपयोग करने से वास्तव में तस्वीर में बहुत बदलाव नहीं होता है; यह नीचे के सभी मूल्यों को लगभग समान रूप से बढ़ाता है।)

विचरण का आकलन करने के लिए लघुगणक (या शुरू किया गया लॉग) का उपयोग करने के गहरे कारण हैं: उदाहरण के लिए, लॉग-लॉग पैमाने पर अनुमानित मूल्य के विरुद्ध विचरण के एक कथानक का ढलान विचरण को स्थिर करने के लिए एक बॉक्स-कॉक्स पैरामीटर का अनुमान लगाता है । कुछ संबंधित चर के लिए विचरण के ऐसे शक्ति-कानून फिट होते हैं। (यह एक अनुभवजन्य कथन है, सैद्धांतिक नहीं है।)

यदि आपका उद्देश्य भिन्नताओं को प्रस्तुत करना है, तो सावधानी से आगे बढ़ें। कई दर्शकों (वैज्ञानिक लोगों के अलावा) एक लघुगणक को नहीं समझ सकते हैं, बहुत कम एक शुरू हुआ। कम से कम 1 के प्रारंभ मूल्य का उपयोग करने के लिए कुछ अन्य प्रारंभ मूल्य की तुलना में समझाने और व्याख्या करने के लिए थोड़ा सरल होने का गुण है। विचार करने के लिए कुछ उनकी जड़ें हैं, जो मानक विचलन हैं, निश्चित रूप से। यह कुछ इस तरह दिखेगा:

वैकल्पिक शब्द

भले ही, यदि आपका उद्देश्य डेटा का पता लगाना, उनसे सीखना, एक मॉडल को फिट करना या किसी मॉडल का मूल्यांकन करना है, तो अपने डेटा और डेटा-व्युत्पन्न मूल्यों के उचित चित्रमय प्रतिनिधित्व को खोजने के तरीके में कुछ भी हासिल न होने दें। जैसे कि ये संस्करण।


1
स्पष्टीकरण और उचित शब्दावली / संदर्भ के लिए धन्यवाद। दर्शकों को एक वैज्ञानिक पत्रिका के पाठकों और विषय विघटन अपघटन है; एक लॉग ट्रांसफॉर्म की अवधारणा को समझना एक पूर्व-आवश्यकता है, लेकिन मुझे अभी भी यकीन नहीं था कि अगर इस प्रस्तुति को और औचित्य की आवश्यकता है - जड़ें एक अच्छा विकल्प हैं। धन्यवाद।
डेविड लेबॉउर

3

यह वाजिब हो सकता है। यह पूछने के लिए बेहतर प्रश्न है कि क्या 1 जोड़ने के लिए उचित संख्या है। आपका न्यूनतम क्या था? यदि इसे शुरू करने के लिए 1 था, तो आप शून्य के मान वाले आइटम के बीच एक विशेष अंतराल लगा रहे हैं और मूल्य 1 के साथ। अध्ययन के डोमेन के आधार पर यह ऑफसेट के रूप में 0.5 या 1 / ई को चुनने के लिए अधिक समझ में आ सकता है। लॉग स्केल में बदलने का निहितार्थ यह है कि अब आपके पास एक अनुपात पैमाना है।

लेकिन मैं भूखंडों से परेशान हूं। मैं पूछूंगा कि क्या एक मॉडल जिसके पास तिरछी वितरण की पूंछ में अधिकांश समझाया गया है, को वांछनीय सांख्यिकीय गुण माना जाता है। मुझे नहीं लगता।


मुझे यकीन नहीं है कि अगर यह स्पष्ट है, लेकिन हिस्टोग्राम्स विचरण के 30 मूल्यों के हैं, और बारप्लॉट्स विचरण के कच्चे मान हैं, अर्थात var <- c(0,0,1,3,10,100,150), hist(var), barplot(var), इसलिए मैं इसकी व्याख्या करता हूं क्योंकि कुछ पैरामीटर अधिकांश विचरणों की व्याख्या करते हैं, सबसे निश्चित रूप से नहीं समझाया गया विचरण पूंछ में है। क्या यह ज़्यादा सही लगता है? क्षमा करें यदि यह अस्पष्ट था।
डेविड लेबॉयर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.