चरों के बीच संबंधों का पता लगाना काफी अस्पष्ट है, लेकिन इस तरह के स्कैप्लेट्स की जांच करने के दो और सामान्य लक्ष्य हैं जैसे मुझे लगता है;
- अंतर्निहित अव्यक्त समूहों (चर या मामलों के) को पहचानें।
- बाहरी लोगों को पहचानें (अविभाजित, द्विभाजित या बहुभिन्नरूपी स्थान में)।
दोनों डेटा को अधिक प्रबंधन योग्य सारांश में कम करते हैं, लेकिन अलग-अलग लक्ष्य होते हैं। अव्यक्त समूहों को पहचानें जो आमतौर पर डेटा में आयामों को कम करता है (जैसे पीसीए के माध्यम से) और फिर यह पता लगाता है कि क्या चर या मामले इस कम हुए स्थान में एक साथ क्लस्टर करते हैं। उदाहरण के लिए देखें अनुकूल (2002) या कुक एट अल। (1995)।
आउटलेर्स की पहचान करने का मतलब या तो किसी मॉडल को फिट करना और मॉडल से विचलन की साजिश करना (जैसे कि प्रतिगमन मॉडल से अवशिष्ट की साजिश करना) हो सकता है या डेटा को उसके मुख्य घटकों में कम कर सकता है और केवल उन बिंदुओं को उजागर करता है जो मॉडल या डेटा के मुख्य निकाय से विचलित होते हैं। एक या दो आयामों में एग बॉक्सप्लॉट्स आमतौर पर केवल व्यक्तिगत बिंदु दिखाते हैं जो टिका के बाहर होते हैं (विकम और स्ट्राइजेस्की, 2013)। अवशेषों को प्लॉट करने की अच्छी संपत्ति है कि यह भूखंडों (टके, 1977) को समतल कर देना चाहिए, इसलिए शेष बिंदु क्लाउड में रिश्तों का कोई भी सबूत "दिलचस्प" है। CV पर इस प्रश्न में बहुभिन्नरूपी आउटलेयर की पहचान के कुछ उत्कृष्ट सुझाव हैं।
इस तरह के बड़े SPLOMS का पता लगाने का एक सामान्य तरीका है कि सभी अलग-अलग बिंदुओं की साजिश न करें , लेकिन कुछ प्रकार के सरलीकृत सारांश और फिर शायद ऐसे बिंदुओं से बड़े पैमाने पर विचलन करते हैं, जैसे आत्मविश्वास दीर्घवृत्त, स्केग्नॉस्टिक सारांश (विल्किंसन और विल्स, 2008), बिवरेट बॉक्स-प्लॉट, समोच्च भूखंड। नीचे अंडाकार की साजिश रचने का एक उदाहरण दिया गया है जो रैखिक संघ का वर्णन करने के लिए सहवास और अतिसूक्ष्मता को परिभाषित करता है।
![कोरग्राम एलिप्स](https://i.stack.imgur.com/7mdFR.png)
(स्रोत: statmethods.net )
किसी भी तरह से, इतने सारे चर के साथ एक वास्तविक आत्मघाती, इंटरैक्टिव साजिश को बुद्धिमान छंटाई (विल्किंसन, 2005) की आवश्यकता होगी और चर (ब्रश करने / लिंकिंग क्षमताओं के अलावा) को फ़िल्टर करने का एक सरल तरीका होगा। इसके अलावा किसी भी यथार्थवादी डेटासेट में अक्ष बदलने की क्षमता होनी चाहिए (जैसे लॉगरिदमिक स्केल पर डेटा को प्लॉट करना, जड़ों को ले जाकर डेटा बदलना)। गुड लक, और केवल एक ही प्लॉट के साथ न रहें
उद्धरण
- कुक, डायने, एंड्रियास बुजा, जेवियर कैबरेरा और कैथरीन हर्ले। 1995. भव्य दौरा और प्रक्षेपण खोज। कम्प्यूटेशनल और ग्राफिकल स्टैटिस्टिक्स जर्नल 4 (3): 155-172।
- अनुकूल, माइकल। 2002. पत्राचार: सहसंबंध मेट्रिसेस के लिए खोजपूर्ण प्रदर्शन। अमेरिकी सांख्यिकीविद् 56 (4): 316-324। पीडीएफ छाप ।
- टुके, जॉन। 1977. व्याख्यात्मक डेटा विश्लेषण। एडिसन-वेस्ले। पढ़ना, मास।
- विकम, हेडली और लिसा स्ट्राइजेवस्की। 2013. 40 साल के बॉक्सप्लेट्स ।
- विल्किंसन, लीलैंड और ग्राहम विल्स। 2008. स्केग्नॉस्टिक वितरण। कम्प्यूटेशनल और ग्राफिकल स्टैटिस्टिक्स जर्नल की पत्रिका 17 (2): 473-491।
- विल्किंसन, लीलैंड। 2005. ग्राफिक्स का व्याकरण । स्प्रिंगर। न्यूयॉर्क, एनवाई।