तुलना के लिए वायलिन भूखंडों को कैसे स्केल करें?


14

मैं वायलिन भूखंडों को आकर्षित करने की कोशिश कर रहा हूं और सोच रहा हूं कि क्या उन्हें समूहों में स्केल करने के लिए सबसे अच्छा अभ्यास है। यहां तीन विकल्प दिए गए हैं जो मैंने आर mtcarsडेटा सेट (1973 से मोटर ट्रेंड कार, यहां पाया गया ) का उपयोग करने की कोशिश की है ।

समान चौड़ाई

लगता है कि मूल कागज क्या करता है और आर क्या vioplotकरता है ( उदाहरण )। आकार की तुलना करने के लिए अच्छा है।

समान क्षेत्र वायलिन भूखंड

समान क्षेत्र

सही लगता है क्योंकि प्रत्येक प्लॉट एक संभावना प्लॉट है, और इसलिए प्रत्येक का क्षेत्र कुछ समन्वय स्थान में 1.0 के बराबर होना चाहिए। प्रत्येक समूह के भीतर घनत्व की तुलना करने के लिए अच्छा है, लेकिन अधिक उपयुक्त लगता है अगर प्लॉट्स ओवरलेड हैं।

समान चौड़ाई वाला वायलिन भूखंड

भारित क्षेत्र

समान क्षेत्र की तरह, लेकिन टिप्पणियों की संख्या से भारित। 6-सिलेंडर अपेक्षाकृत पतले हो जाते हैं क्योंकि उन कारों की संख्या कम होती है। समूहों में घनत्व की तुलना करने के लिए अच्छा है।

भारित क्षेत्र वायलिन भूखंड

* वायलिन प्लॉट्स: ए बॉक्स प्लॉट-डेंसिटी ट्रेस सिनर्जिस (DOI: 10.2307 / 2666478)


1
भूखंडों का उद्देश्य, काफी हद तक, यह निर्धारित करेगा कि कौन से समाधान उपयुक्त हैं। फिर, क्या आप उनके साथ दिखाने की कोशिश कर रहे हैं?
whuber

@ शुभर अच्छा सवाल, हालांकि मेरा सीधा जवाब नहीं है। मैं EDA के लिए एक ग्राफिक प्रदान करने की कोशिश कर रहा हूं और एक अच्छे सामान्य डिफ़ॉल्ट की तलाश कर रहा हूं (और क्या अन्य विकल्प सतह के लिए पर्याप्त उपयोगी हैं)।
ज़ैन २ x

मैं सुझाव देना चाहूंगा कि आप कुछ डिफ़ॉल्ट को स्वीकार करने के बजाय अपने उद्देश्यों के अनुरूप प्लॉट्स को नियंत्रित करें।
whuber

मैं सुझाव दूंगा कि आपका "भारित क्षेत्र" संस्करण "आबादी के उपसमूह की तुलना करने के लिए अच्छा" था क्योंकि इससे पूरी आबादी का आकार प्राप्त करने के लिए चौड़ाई जोड़ने में समझदारी हो सकती है।
हेनरी

मैं वितरण के आकार के दृश्य प्रभाव को बनाए रखने के लिए समान क्षेत्रों को प्राथमिकता देता हूं। फिर नमूना आकार दिखाने वाले थर्मामीटर के साथ ग्राफ को पूरक करें, या केवल वायलिन के बगल में नमूना आकार के पाठ प्रतिनिधित्व का उपयोग करें।
फ्रैंक हरेल

जवाबों:


4

बॉक्स भूखंडों का उपयोग वितरण के योजनाबद्ध सारांश के लिए किया जाता है। वायलिन प्लॉट सिर्फ बॉक्स प्लॉट हैं जिसमें क्यू 1, क्यू 2 और क्यू 3 बॉक्स को कई प्रकार के क्वांटाइल्स द्वारा प्रतिस्थापित किया जाता है। इस कारण से, मुझे लगता है कि स्वीकृत अभ्यास पूरे समूहों में एक समान चौड़ाई का उपयोग करना है।

हालाँकि, आप एक अच्छा बिंदु लाते हैं: समूहों में घनत्व की तुलना कैसे की जानी चाहिए? इसका उत्तर इस बात पर निर्भर करता है कि क्या आप प्रत्येक समूह को देख रहे हैं क्योंकि यह स्वयं की जनसंख्या है या उप-जनसंख्या के रूप में।

ΣiPi=1


वायलिन भूखंडों को मूल रूप से हाइब्रिड बॉक्स प्लॉट और घनत्व ट्रेस के रूप में पेश और परिभाषित किया गया था। एक त्वरित Google से पता चलता है कि व्यवहार में कई भूखंडों को सार्वजनिक कर दिया गया है क्योंकि वायलिन भूखंड बॉक्स को छोड़ देते हैं और कई ऐसे किसी भी मात्रा को नहीं दिखाते हैं। इसलिए, यहाँ परिभाषाएँ खुली हैं।
निक कॉक्स

5

ईमानदारी से, मुझे लगता है कि आप इसे गलत दिशा से ले जा रहे हैं। सभी तीन भूखंड आपको स्पष्ट रूप से मूल्य के साथ जानकारी बताते हैं - अन्यथा, आप इस बात पर विचार नहीं करेंगे कि किस भूखंड का उपयोग करना है। खोजपूर्ण डेटा विश्लेषण आपके डेटा को समझने के बारे में है। जहां यह अपेक्षा के अनुरूप है। जहां यह नहीं है। यह कैसे कई चर पर आकार का है।

ईडीए करने के पूरे बिंदु का मूल्यांकन है कि क्या हमारी चूक, वे वितरण या कॉलिनियरिटी मान्यताओं, सांख्यिकीय मॉडल का उपयोग करने जा रहे थे, आदि अच्छी तरह से उचित हैं। जैसे, "डिफ़ॉल्ट" EDA की अवधारणा कुछ त्रुटिपूर्ण है।

उन सभी को देखें - या कम से कम सभी प्लॉट जो उस प्रश्न से संबंधित हैं जिसे आप पूछने का इरादा रखते हैं। EDA के स्तर पर "क्या दिलचस्प है" और "मैं क्या नज़रअंदाज़ करने जा रहा हूँ" में खुद को हैमस्ट्रिंग करने का कोई कारण नहीं है। और अगर हम केवल डिफॉल्ट के माध्यम से डेटा खिला रहे हैं, तो यह वास्तव में पहले स्थान पर ईडीए नहीं है।


EDA के बारे में ज्ञानवर्धक टिप्पणी के लिए +1, हालाँकि यह अभी भी स्पष्ट नहीं है (मेरे लिए) कि OP EDA के बाद है या नहीं ...
chl

@ ओपी की कुछ टिप्पणियों से पता चलता है कि आखिर वह क्या है। यदि यह सिर्फ "इनमे से कौन अधिक उपयोगी है" तो मुझे डरने वाला उत्तर और भी अस्पष्ट हो जाता है "अच्छा, आप क्या दिखाना चाहते हैं?"
फ़ोमाइट

आह, मैं उस टिप्पणी से चूक गया ... तो आपकी प्रतिक्रिया फिर से +1 के लायक है, लेकिन मैं नहीं कर सकता :(
chl

4

और बैंडविड्थ के बारे में क्या? क्या आपने उसके बारे में सोचा?

यदि आप पीडीएफ प्राप्त करने के लिए अपने सॉफ़्टवेयर की डिफ़ॉल्ट सेटिंग्स का उपयोग करते हैं, तो आप सबसे अधिक संभावना है कि एक गाऊस कर्नेल के इष्टतम बैंडविड्थ के लिए अंगूठे के नियम का उपयोग करें। यह 'इष्टतम बैंडविड्थ' तब प्रत्येक सबसेट के लिए अलग हो सकता है। अब अपने आप से पूछें, क्या आकार अभी भी तुलनीय हैं? यह हो सकता है, कि एक डबल चर के साथ एक ही चर (कर्नेल घनत्व अनुमान) को मापने में चलता है।

कर्नेल घनत्व के आकलन के लिए स्पष्ट नियम सही बैंडविड्थ (कुछ प्रकार के क्रॉस-सत्यापन) प्राप्त करने के लिए विकसित किए गए हैं, लेकिन वायलिन भूखंडों के लिए उन्हें ज्यादातर अनदेखा किया जाता है। महत्वपूर्ण हो सकता है, जब नमूना आकार बहुत भिन्न होता है।

मुझे अभी यह समस्या आ रही है। आपने इस बारे में क्या सोचा? आप इसे कैसे हल करते हैं? किसी भी टिप्पणी की बहुत सराहना की है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.