डेटा बिंदुओं के सबसेट के चयन के लिए स्वचालित प्रक्रिया w / सबसे मजबूत सहसंबंध?


15

क्या कुछ मानक प्रक्रिया (जैसे कि कोई इसे संदर्भ के रूप में उद्धृत कर सकता है) सबसे बड़े सहसंबंध (केवल दो आयामों के साथ) से बड़े पूल से डेटा बिंदुओं के सबसेट का चयन करने के लिए है?

उदाहरण के लिए, मान लें कि आपके पास 100 डेटा पॉइंट हैं। आप X और Y आयामों के साथ सबसे मजबूत सहसंबंध के साथ 40 अंकों का सबसेट चाहते हैं।

मुझे लगता है कि ऐसा करने के लिए कोड लिखना अपेक्षाकृत सरल होगा, लेकिन मैं सोच रहा हूं कि क्या इसके लिए कोई स्रोत है?


3
"मुझे लगता है कि ऐसा करने के लिए लेखन कोड अपेक्षाकृत सरल होगा"। आह? और आप ऐसा कैसे करेंगे?
user603

3
मुझे लगता है कि वह "सबसे अच्छा सबसेट सहसंबंध" का मतलब है; के सबसेट चयन ( कश्मीर = 40 उसके उदाहरण में) से बाहर डेटा बिंदुओं अपने एन ( एन = 100 उसके उदाहरण में) और सहसंबंध के अनुमान की गणना ρ ( एक्स , वाई ) (यह मानते हुए कि वह अंक के एक सबसेट पता करने के लिए होती सबसे अच्छा रैखिक सहसंबंध के साथ)। हालांकि, यह प्रक्रिया बड़े एन के लिए कम्प्यूटेशनल रूप से महंगी लगती है , क्योंकि आपको गणना करना होगा ( एनkk=40NN=100ρ(X,Y)N गुणांक का समय। (Nk)
नेस्टर

1
यदि आप चर के रैखिक संयोजनों को देखने के लिए तैयार हैं , तो विहित सहसंबंध वह है जो आप खोज रहे हैं। अन्यथा, सहसंबंध सुविधा चयन रुचि का हो सकता है। X
मॉन्सट

मुझे लगता है कि कुछ लोग मुझे गलत समझ सकते हैं। @ नेस्टर के लिए यह सही है। 100 आइटम हैं, प्रत्येक में एक एक्स मूल्य और एक वाई मूल्य है। मैं 40 का सबसेट ढूंढना चाहता हूं जिसमें X और Y मानों के बीच सबसे मजबूत सहसंबंध संभव है (w / रैखिक प्रतिगमन)। मैं संपूर्ण खोज स्थान का पता लगाने के लिए कोड लिख सकता हूं, लेकिन ऐसी विधि का समर्थन करने के लिए मैं क्या बताऊंगा? सभी संभावित सबसेट के बीच इष्टतम सहसंबंध को खोजने के लिए इसे क्या कहा जाता है?
जूली

1
क्या आप सहसंबंध को अधिकतम करने में रुचि रखते हैं या सबसे अच्छी फिट प्रतिगमन रेखा प्राप्त कर रहे हैं, उदाहरण के लिए, न्यूनतम अवशिष्ट विचरण द्वारा मापा जाता है? जब आप अपने डेटा बिंदुओं को चुनते हैं तो दोनों समान नहीं होते हैं।
जूलमैन

जवाबों:


17

मैं यह कहूंगा कि आपका तरीका इस विकिपीडिया लेख में वर्णित सामान्य श्रेणी में फिट बैठता है, जिसमें अन्य संदर्भ भी हैं यदि आपको बस विकिपीडिया से अधिक कुछ चाहिए। उस लेख के कुछ लिंक भी लागू होंगे।

अन्य शर्तें जो लागू हो सकती हैं (यदि आप कुछ और खोज करना चाहते हैं) "डेटा ड्रेजिंग" और "डेटा को स्वीकार करना जब तक यह स्वीकार नहीं करता" शामिल हैं।

ध्यान दें कि आप हमेशा 1 का सहसंबंध प्राप्त कर सकते हैं यदि आप सिर्फ 2 अंक चुनते हैं जिसमें समान x या y मान नहीं हैं। चांस पत्रिका में कुछ साल पहले एक लेख आया था जिसमें दिखाया गया था कि जब आपके पास एक x और y वैरिएबल है जिसमें अनिवार्य रूप से कोई सहसंबंध नहीं है, तो आप x का बिन खोजने का तरीका पा सकते हैं और वाई के भीतर औसतन एक बढ़ती या घटती प्रवृत्ति दिखा सकते हैं ( 2006, दृश्य रहस्योद्घाटन: परिणाम के दुर्भाग्यपूर्ण द्वैध के माध्यम से क्या नहीं है ढूँढना: मेंडल, पीपी। 49-52)। साथ ही एक पूर्ण सकारात्मक डेटासेट के साथ एक मध्यम सकारात्मक सहसंबंध दिखा रहा है जो एक नकारात्मक चयन से संबंधित एक सबसेट को चुनना संभव है। इनको देखते हुए, भले ही आपके पास वह प्रस्ताव करने का एक वैध कारण हो, जो आप किसी भी निष्कर्ष के खिलाफ उपयोग करने के लिए कोई संदेह दे रहे हैं।


द अमेरिकन स्टेटिस्टिशियन के लेख का नाम क्या है?
21-22

1
मैंने जहां लेख को देखा, वह गलत था, यह वास्तव में द अमेरिकन स्टेटिस्टिशियन के बजाय चांस पत्रिका में था। मैंने इसे ऊपर और सही किया है जिसमें वर्ष, शीर्षक और पृष्ठ संख्या शामिल हैं ताकि इच्छुक पक्ष आसानी से प्रतियां ढूंढ सकें।
ग्रेग स्नो

4

RANSAC एल्गोरिथ्म लगता है कि आप क्या चाहते हैं। मूल रूप से, यह मानता है कि आपके डेटा में इनर और आउटलेर्स का मिश्रण होता है, और डेटा को बार-बार नमूने के इनमेट को पहचानने की कोशिश करता है, इसके लिए एक मॉडल को फिट करता है, फिर मॉडल के हर दूसरे डेटा पॉइंट को फिट करने की कोशिश करता है। यहाँ इसके बारे में विकिपीडिया लेख है

आपके मामले में, आप कम से कम 40 बिंदुओं पर फिट होने वाले वर्तमान सर्वश्रेष्ठ मॉडल को सहेजते समय एल्गोरिथ्म को दोहरा सकते हैं, इसलिए यह आपको पूर्ण सर्वश्रेष्ठ सहसंबंध की गारंटी नहीं देगा, लेकिन इसे पास होना चाहिए।


1

मेरे पास एक ऐसे संदर्भ की कल्पना करने में कठिन समय है जिसमें यह अच्छा अभ्यास होगा, लेकिन एक पल के लिए मान लेते हैं कि आपके पास वास्तव में ऐसा करने का एक अच्छा कारण है।

एक जानवर बल एल्गोरिथ्म कुछ इस तरह हो सकता है:

  1. आप एन के अपने समग्र नमूने में से एन के सभी संभावित उप-नमूनों की गणना करते हैं। अधिकांश सांख्यिकीय पैकेजों में प्रतिस्थापन के बिना संयोजन की गणना करने के लिए कार्य हैं जो आपके लिए यह करेंगे।

  2. आप प्रत्येक एक उप-नमूने के लिए x और y के बीच सहसंबंध का अनुमान लगाते हैं और उस सेट से अधिकतम का चयन करते हैं।

मैंने इस प्रक्रिया के संदर्भ में मूल पोस्टर की टिप्पणी को देखा। मुझे यकीन नहीं है कि किसी के पास इस प्रक्रिया के लिए एक विशिष्ट नाम है, क्योंकि आप केवल अपने डेटासेट में सभी संभावित सहसंबंध का एक अनुभवजन्य वितरण पैदा कर रहे हैं और अधिकतम का चयन कर रहे हैं। बूटस्ट्रैपिंग करते समय इसी तरह के दृष्टिकोण का उपयोग किया जाता है, लेकिन उस मामले में आप अनुभवजन्य परिवर्तनशीलता में रुचि रखते हैं, आप अधिकतम के साथ जुड़े एक विशिष्ट उप-नमूना लेने के लिए उनका उपयोग नहीं करते हैं।


2
मुझे लगता है कि आपके पास तक पहुंच है1032N=100n=40

इसके बारे में डरपोक होने की जरूरत नहीं है :- पी। निष्पक्ष बिंदु।
डेविड

क्षमा करें ... मुझे वे आंकड़े पसंद हैं, हालांकि, क्योंकि वे हमें एक बेहतर एल्गोरिथ्म :-) के लिए बहुत सारे कमरे देते हैं।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.