चरों के बीच संबंधों का पता लगाना काफी अस्पष्ट है, लेकिन इस तरह के स्कैप्लेट्स की जांच करने के दो और सामान्य लक्ष्य हैं जैसे मुझे लगता है;
- अंतर्निहित अव्यक्त समूहों (चर या मामलों के) को पहचानें।
- बाहरी लोगों को पहचानें (अविभाजित, द्विभाजित या बहुभिन्नरूपी स्थान में)।
दोनों डेटा को अधिक प्रबंधन योग्य सारांश में कम करते हैं, लेकिन अलग-अलग लक्ष्य होते हैं। अव्यक्त समूहों को पहचानें जो आमतौर पर डेटा में आयामों को कम करता है (जैसे पीसीए के माध्यम से) और फिर यह पता लगाता है कि क्या चर या मामले इस कम हुए स्थान में एक साथ क्लस्टर करते हैं। उदाहरण के लिए देखें अनुकूल (2002) या कुक एट अल। (1995)।
आउटलेर्स की पहचान करने का मतलब या तो किसी मॉडल को फिट करना और मॉडल से विचलन की साजिश करना (जैसे कि प्रतिगमन मॉडल से अवशिष्ट की साजिश करना) हो सकता है या डेटा को उसके मुख्य घटकों में कम कर सकता है और केवल उन बिंदुओं को उजागर करता है जो मॉडल या डेटा के मुख्य निकाय से विचलित होते हैं। एक या दो आयामों में एग बॉक्सप्लॉट्स आमतौर पर केवल व्यक्तिगत बिंदु दिखाते हैं जो टिका के बाहर होते हैं (विकम और स्ट्राइजेस्की, 2013)। अवशेषों को प्लॉट करने की अच्छी संपत्ति है कि यह भूखंडों (टके, 1977) को समतल कर देना चाहिए, इसलिए शेष बिंदु क्लाउड में रिश्तों का कोई भी सबूत "दिलचस्प" है। CV पर इस प्रश्न में बहुभिन्नरूपी आउटलेयर की पहचान के कुछ उत्कृष्ट सुझाव हैं।
इस तरह के बड़े SPLOMS का पता लगाने का एक सामान्य तरीका है कि सभी अलग-अलग बिंदुओं की साजिश न करें , लेकिन कुछ प्रकार के सरलीकृत सारांश और फिर शायद ऐसे बिंदुओं से बड़े पैमाने पर विचलन करते हैं, जैसे आत्मविश्वास दीर्घवृत्त, स्केग्नॉस्टिक सारांश (विल्किंसन और विल्स, 2008), बिवरेट बॉक्स-प्लॉट, समोच्च भूखंड। नीचे अंडाकार की साजिश रचने का एक उदाहरण दिया गया है जो रैखिक संघ का वर्णन करने के लिए सहवास और अतिसूक्ष्मता को परिभाषित करता है।
(स्रोत: statmethods.net )
किसी भी तरह से, इतने सारे चर के साथ एक वास्तविक आत्मघाती, इंटरैक्टिव साजिश को बुद्धिमान छंटाई (विल्किंसन, 2005) की आवश्यकता होगी और चर (ब्रश करने / लिंकिंग क्षमताओं के अलावा) को फ़िल्टर करने का एक सरल तरीका होगा। इसके अलावा किसी भी यथार्थवादी डेटासेट में अक्ष बदलने की क्षमता होनी चाहिए (जैसे लॉगरिदमिक स्केल पर डेटा को प्लॉट करना, जड़ों को ले जाकर डेटा बदलना)। गुड लक, और केवल एक ही प्लॉट के साथ न रहें
उद्धरण
- कुक, डायने, एंड्रियास बुजा, जेवियर कैबरेरा और कैथरीन हर्ले। 1995. भव्य दौरा और प्रक्षेपण खोज। कम्प्यूटेशनल और ग्राफिकल स्टैटिस्टिक्स जर्नल 4 (3): 155-172।
- अनुकूल, माइकल। 2002. पत्राचार: सहसंबंध मेट्रिसेस के लिए खोजपूर्ण प्रदर्शन। अमेरिकी सांख्यिकीविद् 56 (4): 316-324। पीडीएफ छाप ।
- टुके, जॉन। 1977. व्याख्यात्मक डेटा विश्लेषण। एडिसन-वेस्ले। पढ़ना, मास।
- विकम, हेडली और लिसा स्ट्राइजेवस्की। 2013. 40 साल के बॉक्सप्लेट्स ।
- विल्किंसन, लीलैंड और ग्राहम विल्स। 2008. स्केग्नॉस्टिक वितरण। कम्प्यूटेशनल और ग्राफिकल स्टैटिस्टिक्स जर्नल की पत्रिका 17 (2): 473-491।
- विल्किंसन, लीलैंड। 2005. ग्राफिक्स का व्याकरण । स्प्रिंगर। न्यूयॉर्क, एनवाई।