एक ही बॉक्स और व्हिस्कर्स प्लॉट के साथ Anscombe- जैसे डेटासेट (माध्य / std / मंझला / MAD / मिनट / अधिकतम)


21

संपादित करें: जैसा कि इस सवाल को फुलाया गया है, एक सारांश: एक ही मिश्रित आंकड़ों (मतलब, मध्य, midrange और उनके संबंधित फैलाव, और प्रतिगमन) के साथ अलग-अलग सार्थक और व्याख्यात्मक डेटासेट खोजना।

Anscombe चौकड़ी ( उच्च आयामी डेटा को देखने का उद्देश्य देखें ? ) चार - डेटासेट का एक प्रसिद्ध उदाहरण है , समान सीमान्त / मानक विचलन (चार और चार , अलग से) और एक ही ओएलएस रैखिक फिट , प्रतिगमन और वर्गों के अवशिष्ट योग, और सहसंबंध गुणांक । प्रकार आँकड़े (सीमांत और संयुक्त), जबकि डेटासेट काफी अलग हैं, एक ही इस प्रकार हैं।xyxyR22

Anscombe की चौकड़ी

EDIT (ओपी टिप्पणियों से) छोटे डेटासेट आकार को छोड़कर, मुझे कुछ व्याख्याओं का प्रस्ताव देना चाहिए। सेट 1 को वितरित शोर के साथ मानक रैखिक (चक्कर, सही होने के लिए) के रूप में देखा जा सकता है। सेट 2 एक साफ रिश्ता दिखाता है जो एक उच्च-डिग्री फिट का एकक हो सकता है। सेट 3 एक स्पष्ट रेखीय सांख्यिकीय निर्भरता को दर्शाता है। सेट 4 अधिक मुश्किल है: करने के लिए प्रयास "भविष्यवाणी" से विफलता के लिए बाध्य कर लगता है। का डिज़ाइन मानों की अपर्याप्त सीमा के साथ एक हिस्टैरिसीस घटना को प्रकट कर सकता है, एक परिमाणीकरण प्रभाव ( को बहुत अधिक मात्रा में बढ़ाया जा सकता है), या उपयोगकर्ता ने आश्रित और स्वतंत्र चर को स्विच किया है।yxxx

इसलिए सारांश विशेषताएं बहुत अलग व्यवहार छिपाती हैं। सेट 2 को बहुपद फिट के साथ बेहतर तरीके से पेश किया जा सकता है। -प्रतिरोधी तरीकों ( या जैसे) के साथ 3 सेट करें , साथ ही सेट 4. एक आश्चर्य हो सकता है कि क्या अन्य लागत फ़ंक्शन या विसंगति संकेतक व्यवस्थित हो सकते हैं, या कम से कम डेटासेट भेदभाव में सुधार कर सकते हैं। EDIT (ओपी टिप्पणियों से): ब्लॉग पोस्ट जिज्ञासु रजिस्ट्रेशंस स्टेट:21

संयोग से, मुझे बताया गया है कि फ्रैंक अंसकॉम्ब ने कभी यह खुलासा नहीं किया कि वह डेटा के इन सेटों के साथ कैसे आया। यदि आपको लगता है कि सारांश के सभी आँकड़ों को प्राप्त करना एक आसान काम है और प्रतिगमन समान है, तो इसे आज़माएं!

में एक उद्देश्य Anscombe की चौकड़ी के समान के लिए बनायीं गयी डेटासेट , कई दिलचस्प डेटासेट एक ही quantile आधारित हिस्टोग्राम के साथ दिया जाता है, उदाहरण के लिए। मैंने सार्थक संबंध और मिश्रित आँकड़ों का मिश्रण नहीं देखा।

मेरा प्रश्न है: क्या द्विभाजित (या विज़ुअलाइज़ेशन, विज़ुअलाइज़ेशन रखने के लिए) Anscombe- जैसे डेटासेट हैं, जो समान आँकड़े होने के अलावा2 :

  • उनके भूखंड और बीच एक संबंध के रूप में व्याख्या करने योग्य हैं , जैसे कि कोई माप के बीच एक कानून की तलाश कर रहा था,xy
  • उनके पास समान (अधिक मजबूत) सीमान्त गुण (समान मध्य और पूर्ण विचलन का माध्यिका),1
  • वे एक ही बाउंडिंग बॉक्स है: एक ही मिनट, अधिकतम (और इसलिए प्रकार मध्य दूरी और मध्य अवधि सांख्यिकी)।

इस तरह के डेटासेट में प्रत्येक वैरिएबल पर समान "बॉक्स-एंड-व्हिस्कर्स" प्लॉट सारांश (न्यूनतम, अधिकतम, माध्यिका, माध्य निरपेक्ष विचलन / एमएडी, माध्य और एसटीडी) होगा, और यह अभी भी व्याख्या में काफी भिन्न होगा।

यह और भी दिलचस्प होगा अगर कुछ कम से कम निरपेक्ष प्रतिगमन डेटासेट के लिए समान थे (लेकिन शायद मैं पहले से ही बहुत पूछ रहा हूं)। जब वे मजबूत बनाम नहीं मजबूत प्रतिगमन के बारे में बात कर रहे हैं, तो वे एक चेतावनी के रूप में काम कर सकते हैं और रिचर्ड हैमिंग के उद्धरण को ध्यान में रखने में मदद कर सकते हैं:

कंप्यूटिंग का उद्देश्य अंतर्दृष्टि है, संख्या नहीं

EDIT (ओपी टिप्पणियों से) समान मुद्दों की पहचान सांख्यिकी के साथ डेटा उत्पन्न करने में की जाती है , लेकिन डिसिमिलर ग्राफिक्स , संगत चटर्जी और अर्कुट फ़ेरटा, द अमेरिकन स्टेटिस्टिशियन, 2007, या क्लोनिंग डेटा: बिल्कुल एक से अधिक रैखिक प्रतिगमन फिट, जे। ऑस्ट। N.-Z. स्टेट। जे। 2009।

चटर्जी (2007) में, उद्देश्य समान डेटा और प्रारंभिक डेटासेट से मानक विचलन के साथ उपन्यास जोड़े उत्पन्न करना है , जबकि विभिन्न "विसंगति / असमानता" उद्देश्य कार्यों को अधिकतम करना है। चूंकि ये फ़ंक्शन गैर-उत्तल या गैर-भिन्न हो सकते हैं, इसलिए वे आनुवंशिक एल्गोरिदम (जीए) का उपयोग करते हैं। ऑर्थो-सामान्यकरण में महत्वपूर्ण कदम शामिल हैं, जो कि माध्य और (यूनिट-) विचरण को बनाए रखने के साथ बहुत सुसंगत है। कागज के आंकड़े (आधा कागज़ की सामग्री) सुपरम्यूप इनपुट और जीए आउटपुट डेटा। मेरी राय है कि जीए आउटपुट मूल सहज व्याख्या का एक बहुत कुछ खो देते हैं।(x,y)

और तकनीकी रूप से, न तो मंझला और न ही मध्य दूरी संरक्षित है, और कागज renormalization प्रक्रियाओं है कि रक्षा करेगा उल्लेख नहीं है , 1 और आँकड़े।21


3
यदि आप एक ही बॉक्सप्लॉट्स के साथ डेटा सेट करने के ठीक बाद हैं, तो मैंने एक पेपर में विकास के आधार पर कुछ समय पहले एक प्रश्न के उत्तर में एक सेट दिया था। पकड़ो, मैं इसे खोद कर निकाल दूंगा। (edit) ... यहाँ । समान गुणों के साथ अधिक डेटा सेट बनाना आसान है ... मुझे पता है कि एक अन्य उत्तर में, यहां
Glen_b -Reinstate मोनिका

2
xy

xy

3
चटर्जी और Firat ( अमेरिकी सांख्यिकीविद् , 2007) , में से जुड़ा हुआ इस उत्तर के लिए इस सवाल का , एक नहीं बल्कि सामान्य आनुवंशिक एल्गोरिथ्म आप अपने उद्देश्यों के लिए एक सरल तरीके से अनुकूल करने के लिए सक्षम होना चाहिए प्रदान करते हैं।
एस। कोलासा - मोनिका

1
जब वितरण के क्षणों को नजरअंदाज कर दिया जाता है, तो भूखंड जनसंख्या के क्षणों के अर्थहीन होते हैं। मतलब, मानक विचलन, तिरछापन और अन्य जनसंख्या के क्षण अपेक्षित मूल्यों, मानक विचलन, तिरछापन और वितरण के अन्य क्षणों के अनुरूप नहीं होते हैं जो उन आबादी का सबसे अच्छा वर्णन करते हैं। जब ऊपर दिए गए भूखंडों को एक्स-वैल्यू और वाई-वैल्यू के वितरण के रूप में देखा जाता है, तो वे सभी अलग-अलग होते हैं और इसलिए अलग-अलग वितरण क्षण होते हैं। यह बदतर है कि सिर्फ अवशिष्ट संरचना की अनदेखी करना, जो शायद बिंदु था, कोई भी न तो अशुद्धता के साथ उपेक्षा कर सकता है।
कार्ल

जवाबों:


1

ठोस होने के लिए, मैं दो डेटासेट बनाने की समस्या पर विचार कर रहा हूं, जिनमें से प्रत्येक एक संबंध का सुझाव देता है, लेकिन प्रत्येक का संबंध अलग है, और फिर भी लगभग समान है:

  • मतलब x
  • मतलब वाई
  • एसडी एक्स
  • एसडी वाई
  • माध्य x
  • माध्य y
  • न्यूनतम एक्स
  • न्यूनतम वाई
  • अधिकतम एक्स
  • अधिकतम वाई
  • माध्यिका x के मध्य से पूर्ण विचलन
  • मा के y से माध्य पूर्ण विचलन
  • x पर y के सरल रैखिक प्रतिगमन से गुणांक

meany=0miny=maxy

उदाहरण के लिए विचार करें,

x019293949596979891y11201211120121

जो इस तरह एक ऊपर की ओर V- आकार का ग्राफ है:

ग्राफ

yy


अच्छा योगदान है। वास्तव में, मैं गिर गया क्षैतिज रेखा को धोखा देने वाली ओएलटी का एक सा है। फ़्लिपिंग एक अच्छा विचार है, फिर भी यदि डेटासेट अलग-अलग हैं, तो वे समान रहते हैं। लेकिन मुझे लगता है कि आपके पास एक अच्छा विचार है, शायद एक "एन" आकार और एक ही फैशन में "डब्ल्यू" आकार एक पथ की शुरुआत हो सकती है
लॉरेंट डुवल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.