संपादित करें: जैसा कि इस सवाल को फुलाया गया है, एक सारांश: एक ही मिश्रित आंकड़ों (मतलब, मध्य, midrange और उनके संबंधित फैलाव, और प्रतिगमन) के साथ अलग-अलग सार्थक और व्याख्यात्मक डेटासेट खोजना।
Anscombe चौकड़ी ( उच्च आयामी डेटा को देखने का उद्देश्य देखें ? ) चार - डेटासेट का एक प्रसिद्ध उदाहरण है , समान सीमान्त / मानक विचलन (चार और चार , अलग से) और एक ही ओएलएस रैखिक फिट , प्रतिगमन और वर्गों के अवशिष्ट योग, और सहसंबंध गुणांक । प्रकार आँकड़े (सीमांत और संयुक्त), जबकि डेटासेट काफी अलग हैं, एक ही इस प्रकार हैं।
EDIT (ओपी टिप्पणियों से) छोटे डेटासेट आकार को छोड़कर, मुझे कुछ व्याख्याओं का प्रस्ताव देना चाहिए। सेट 1 को वितरित शोर के साथ मानक रैखिक (चक्कर, सही होने के लिए) के रूप में देखा जा सकता है। सेट 2 एक साफ रिश्ता दिखाता है जो एक उच्च-डिग्री फिट का एकक हो सकता है। सेट 3 एक स्पष्ट रेखीय सांख्यिकीय निर्भरता को दर्शाता है। सेट 4 अधिक मुश्किल है: करने के लिए प्रयास "भविष्यवाणी" से विफलता के लिए बाध्य कर लगता है। का डिज़ाइन मानों की अपर्याप्त सीमा के साथ एक हिस्टैरिसीस घटना को प्रकट कर सकता है, एक परिमाणीकरण प्रभाव ( को बहुत अधिक मात्रा में बढ़ाया जा सकता है), या उपयोगकर्ता ने आश्रित और स्वतंत्र चर को स्विच किया है।
इसलिए सारांश विशेषताएं बहुत अलग व्यवहार छिपाती हैं। सेट 2 को बहुपद फिट के साथ बेहतर तरीके से पेश किया जा सकता है। -प्रतिरोधी तरीकों ( या जैसे) के साथ 3 सेट करें , साथ ही सेट 4. एक आश्चर्य हो सकता है कि क्या अन्य लागत फ़ंक्शन या विसंगति संकेतक व्यवस्थित हो सकते हैं, या कम से कम डेटासेट भेदभाव में सुधार कर सकते हैं। EDIT (ओपी टिप्पणियों से): ब्लॉग पोस्ट जिज्ञासु रजिस्ट्रेशंस स्टेट:
संयोग से, मुझे बताया गया है कि फ्रैंक अंसकॉम्ब ने कभी यह खुलासा नहीं किया कि वह डेटा के इन सेटों के साथ कैसे आया। यदि आपको लगता है कि सारांश के सभी आँकड़ों को प्राप्त करना एक आसान काम है और प्रतिगमन समान है, तो इसे आज़माएं!
में एक उद्देश्य Anscombe की चौकड़ी के समान के लिए बनायीं गयी डेटासेट , कई दिलचस्प डेटासेट एक ही quantile आधारित हिस्टोग्राम के साथ दिया जाता है, उदाहरण के लिए। मैंने सार्थक संबंध और मिश्रित आँकड़ों का मिश्रण नहीं देखा।
मेरा प्रश्न है: क्या द्विभाजित (या विज़ुअलाइज़ेशन, विज़ुअलाइज़ेशन रखने के लिए) Anscombe- जैसे डेटासेट हैं, जो समान आँकड़े होने के अलावा :
- उनके भूखंड और बीच एक संबंध के रूप में व्याख्या करने योग्य हैं , जैसे कि कोई माप के बीच एक कानून की तलाश कर रहा था,
- उनके पास समान (अधिक मजबूत) सीमान्त गुण (समान मध्य और पूर्ण विचलन का माध्यिका),
- वे एक ही बाउंडिंग बॉक्स है: एक ही मिनट, अधिकतम (और इसलिए प्रकार मध्य दूरी और मध्य अवधि सांख्यिकी)।
इस तरह के डेटासेट में प्रत्येक वैरिएबल पर समान "बॉक्स-एंड-व्हिस्कर्स" प्लॉट सारांश (न्यूनतम, अधिकतम, माध्यिका, माध्य निरपेक्ष विचलन / एमएडी, माध्य और एसटीडी) होगा, और यह अभी भी व्याख्या में काफी भिन्न होगा।
यह और भी दिलचस्प होगा अगर कुछ कम से कम निरपेक्ष प्रतिगमन डेटासेट के लिए समान थे (लेकिन शायद मैं पहले से ही बहुत पूछ रहा हूं)। जब वे मजबूत बनाम नहीं मजबूत प्रतिगमन के बारे में बात कर रहे हैं, तो वे एक चेतावनी के रूप में काम कर सकते हैं और रिचर्ड हैमिंग के उद्धरण को ध्यान में रखने में मदद कर सकते हैं:
कंप्यूटिंग का उद्देश्य अंतर्दृष्टि है, संख्या नहीं
EDIT (ओपी टिप्पणियों से) समान मुद्दों की पहचान सांख्यिकी के साथ डेटा उत्पन्न करने में की जाती है , लेकिन डिसिमिलर ग्राफिक्स , संगत चटर्जी और अर्कुट फ़ेरटा, द अमेरिकन स्टेटिस्टिशियन, 2007, या क्लोनिंग डेटा: बिल्कुल एक से अधिक रैखिक प्रतिगमन फिट, जे। ऑस्ट। N.-Z. स्टेट। जे। 2009।
चटर्जी (2007) में, उद्देश्य समान डेटा और प्रारंभिक डेटासेट से मानक विचलन के साथ उपन्यास जोड़े उत्पन्न करना है , जबकि विभिन्न "विसंगति / असमानता" उद्देश्य कार्यों को अधिकतम करना है। चूंकि ये फ़ंक्शन गैर-उत्तल या गैर-भिन्न हो सकते हैं, इसलिए वे आनुवंशिक एल्गोरिदम (जीए) का उपयोग करते हैं। ऑर्थो-सामान्यकरण में महत्वपूर्ण कदम शामिल हैं, जो कि माध्य और (यूनिट-) विचरण को बनाए रखने के साथ बहुत सुसंगत है। कागज के आंकड़े (आधा कागज़ की सामग्री) सुपरम्यूप इनपुट और जीए आउटपुट डेटा। मेरी राय है कि जीए आउटपुट मूल सहज व्याख्या का एक बहुत कुछ खो देते हैं।
और तकनीकी रूप से, न तो मंझला और न ही मध्य दूरी संरक्षित है, और कागज renormalization प्रक्रियाओं है कि रक्षा करेगा उल्लेख नहीं है , ℓ 1 और ℓ ∞ आँकड़े।