RANSAC को सबसे अधिक व्यापक रूप से आंकड़ों में उपयोग क्यों नहीं किया जाता है?


26

कंप्यूटर विज़न के क्षेत्र से आने वाले, मैंने अक्सर मॉडल के फिटिंग के लिए RANSAC (रैंडम सैंपल कंसैन्स ) विधि का इस्तेमाल किया है जिसमें बहुत सारे आउटलेयर के साथ डेटा हो।

हालाँकि, मैंने कभी इसे सांख्यिकीविदों द्वारा उपयोग नहीं किया है, और मैं हमेशा इस धारणा के तहत रहा हूँ कि इसे "सांख्यिकीय-ध्वनि" विधि नहीं माना जाता था। ऐसा क्यों हैं? यह प्रकृति में यादृच्छिक है, जो विश्लेषण करना कठिन बनाता है, लेकिन इसलिए बूटस्ट्रैपिंग के तरीके हैं।

या बस अकादमिक साइलो का मामला एक दूसरे से बात नहीं कर रहा है?


1
मुझे आश्चर्य है कि कंप्यूटर विज़न मेथड्स बनाम स्टैटिस्टिक्स मेथड्स के बारे में एक बात: पहले में प्रदर्शन एक जरूरी है। हो सकता है कि प्रदर्शन और "शुद्धता" के बीच एक व्यापार-बंद हो, और कंप्यूटर दृष्टि और आंकड़ों में उन चर के लिए अलग-अलग वजन हो।
लुकास रीस

जवाबों:


10

मुझे लगता है कि यहां की कुंजी RANSAC में डेटा के एक बड़े हिस्से को छोड़ना है।

अधिकांश सांख्यिकीय अनुप्रयोगों में, कुछ वितरणों में भारी पूंछ हो सकती है, और इसलिए छोटे नमूना संख्याएं सांख्यिकीय अनुमान को कम कर सकती हैं। मजबूत अनुमान लगाने वाले डेटा को अलग-अलग तौल कर इसका आकलन करते हैं। दूसरी ओर RANSAC बाहरी लोगों को समायोजित करने के लिए कोई प्रयास नहीं करता है, यह उन मामलों के लिए बनाया गया है जहां डेटा बिंदु वास्तव में संबंधित नहीं हैं, न कि केवल गैर-सामान्य वितरित नहीं हैं।


1
बहुत बढ़िया जवाब। मैंने RANSAC को सीवी में सबसे ज्यादा इस्तेमाल किया है। यह सबसे अधिक व्यापक रूप से उपयोग किया जाता है जब हमें पता चलता है कि संबंधित माप में से कुछ बेहद अविश्वसनीय हैं। इसके अलावा, वास्तविक समय के प्रदर्शन और अन्य विचारों ने इस तकनीक को काफी लोकप्रिय बना दिया है क्योंकि इसे आसानी से समानांतर किया जा सकता है।
लुका

7

हमारे लिए, यह एक मजबूत प्रतिगमन का सिर्फ एक उदाहरण है - मेरा मानना ​​है कि इसका उपयोग सांख्यिकीविदों द्वारा भी किया जाता है, लेकिन शायद इतना व्यापक नहीं है क्योंकि इसके कुछ बेहतर ज्ञात विकल्प हैं।


1
क्या आप विकल्पों का उदाहरण दे सकते हैं? मैं उस पर गौर करना चाहता हूं।
बोसकेन

5
ज्यादातर ज्ञात और सरल मेडियन-मेडियन प्रतिगमन है, जो स्मार्ट कैलकुलेटर (Sigh!) से जाना जाता है। विकिपीडिया en.wikipedia.org/wiki/Robust_regression से परामर्श करें और हो सकता है कि CRAN का मजबूत कार्य देखें cran.r-project.org/web/views/Robust.html

क्या आरएएनएसएसी के विकल्प हैं जो न केवल आपको निष्पक्ष प्रतिगमन प्रदान करते हैं, बल्कि उन आंकड़ों के बिंदु भी हैं जिनसे मॉडल का अनुमान लगाया गया है? धन्यवाद
वेलेरियो

2

यह बैगिंग की तरह लगता है जो अक्सर इस्तेमाल की जाने वाली तकनीक है।


3
RANSAC बहुत अलग है - बैगिंग में, सभी नमूनों को किसी न किसी तरह से ध्यान में रखा जाता है। RANSAC का उपयोग उन मामलों में किया जाता है जहां 50% तक डेटा पूरी तरह से त्याग दिया जाना चाहिए।
nbubis

1

आप RANSAC के साथ डेटा को फेंक देते हैं, संभवतः इसे औचित्य दिए बिना, लेकिन मॉडल के फिट को बढ़ाने के आधार पर। बढ़े हुए फिट के लिए डेटा फेंकना आमतौर पर अलग होता है क्योंकि आप महत्वपूर्ण डेटा को ढीला कर सकते हैं। बिना किसी औचित्य के निष्कासन हमेशा समस्याग्रस्त होता है।

इसे सही ठहराना संभव है। उदाहरण के लिए, यदि आप जानते हैं कि डेटा को दिए गए पैटर्न का पालन करना चाहिए, लेकिन माप में त्रुटि के कारण पैटर्न से डेटा में विचलन भी होता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.