कैसे साबित करें कि कई गुना धारणा सही है?


9

मशीन लर्निंग में, यह अक्सर माना जाता है कि एक डेटा सेट एक चिकनी कम-आयामी कई गुना (कई गुना धारणा) पर है, लेकिन क्या यह साबित करने का कोई तरीका है कि कुछ शर्तों को संतुष्ट किया जाता है, तो डेटा सेट वास्तव में (लगभग) उत्पन्न होता है। एक कम आयामी चिकनी कई गुना से?

उदाहरण के लिए, एक डेटा अनुक्रम दिया गया जहां (विभिन्न कोणों के साथ चेहरे की छवियों का अनुक्रम कहें) और एक संबंधित लेबल अनुक्रम जहां (चेहरे के अनुक्रम के कोण कहें)। मान लीजिए जब और बहुत करीब हैं, तो उनके लेबल और भी बहुत करीब हैं, हम कल्पना कर सकते हैं कि यह संभव है कि{X1Xn}XiRd{y1yn}y1y2ynXiXi+1yiyi+1{X1Xn}एक कम आयामी कई गुना पर झूठ। क्या ये सच है? यदि हां, तो हम इसे कैसे साबित कर सकते हैं? या अनुक्रम को किन परिस्थितियों में संतुष्ट करने की आवश्यकता है ताकि कई गुना सच साबित हो सके?

जवाबों:


10

यह "स्पष्ट रूप से धारणा" के कई खातों को देखकर जल्दी से स्पष्ट हो जाता है, कि कई लेखक इसके अर्थ के बारे में विशेष रूप से सुस्त हैं। अधिक सावधान लोग इसे एक सूक्ष्म लेकिन बेहद महत्वपूर्ण चेतावनी के साथ परिभाषित करते हैं : यह कि डेटा कम-आयामी कई गुना पर या उसके करीब है।

यहां तक ​​कि जो लोग शामिल नहीं करते हैं "या क्लोज़" क्लॉज़ स्पष्ट रूप से कई गुना अनुमान के रूप में अपनाते हैं, गणितीय विश्लेषण करने के लिए सुविधाजनक है, क्योंकि उनके अनुप्रयोगों को डेटा और अनुमानित कई गुना के बीच विचलन पर विचार करना चाहिए । दरअसल, कई लेखकों बाद में इस तरह के प्रतिगमन पर विचार के रूप में विचलन, के लिए एक स्पष्ट तंत्र परिचय के खिलाफ जहां है कंस्ट्रेन्ड झूठ पर एक कई गुना लेकिन शामिल हो सकते हैं यादृच्छिक विचलन। यह मान के बराबर है कि tuples झूठ पासyxxMkRd y(xi,yi)करने के लिए, लेकिन जरूरी नहीं कि पर, एक डूबे हुए आयामी फार्म के कई गुनाk

(x,f(x))Mk×RRd×RRd+1

कुछ सुचारू (प्रतिगमन) फ़ंक्शन के लिए । हम सब देखने के बाद हो सकता है परेशान अंक है, जो केवल हैं के करीब का ग्राफ (एक झूठ बोल के रूप में, आयामी कई गुना) पर आयामी कई गुना , इस से "पर" भेद "बंद करने के लिए" सिद्धांत रूप में महत्वहीन हो सकता है के बारे में समझाने क्यों इस तरह मस्ती में मदद करता है।f:RdR(x,y)=(x,f(x)+ε)fkk+1Mk×R

अनुप्रयोगों के लिए "पर" और "करीब" के बीच का अंतर बेहद महत्वपूर्ण है। "करीब" अनुमति देता है कि डेटा कई गुना से विचलित हो सकता है। जैसे, यदि आप अनुमान लगाना चाहते हैं कि कई गुना है, तो डेटा और कई गुना के बीच विचलन की विशिष्ट मात्रा निर्धारित की जा सकती है। एक फिटेड मैनिफोल्ड दूसरे की तुलना में बेहतर होगा जब विचलन की विशिष्ट मात्रा कम होती है, क्रेटरिस पेरिबस।

आकृति

आंकड़ा डेटा के लिए कई गुना अनुमान दिखाता है (बड़े नीले डॉट्स): काला मैनिफोल्ड अपेक्षाकृत सरल है (केवल चार मापदंडों का वर्णन करने की आवश्यकता है), लेकिन केवल डेटा के "करीब" आता है, जबकि लाल बिंदीदार मैनिफ़ोल्ड डेटा फिट बैठता है पूरी तरह से लेकिन जटिल है (17 मापदंडों की आवश्यकता है)।

जैसा कि इस तरह की सभी समस्याओं में है, कई गुना वर्णन करने की जटिलता और फिट की अच्छाई (ओवरफिटिंग समस्या) के बीच एक व्यापार है। यह हमेशा ऐसा होता है कि एक-आयामी कई गुना डेटा को किसी भी परिमाण में फिट करने के लिए पाया जा सकता है पूरी तरह से (जैसा कि आंकड़े में लाल बिंदीदार कई गुना है, बस सभी बिंदुओं के माध्यम से एक चिकनी वक्र चलाएं। , किसी भी क्रम में: लगभग निश्चित रूप से यह खुद को प्रतिच्छेद नहीं करेगा, लेकिन अगर ऐसा होता है, तो इसे खत्म करने के लिए किसी भी ऐसे चौराहे के पड़ोस में वक्र पर दबाव डालें)। दूसरे चरम पर, यदि केवल सीमित वर्ग के कई गुना (जैसे कि सीधे यूक्लिडियन हाइपरप्लेन केवल) की अनुमति है, तो एक अच्छा फिट असंभव हो सकता है, आयामों की परवाह किए बिना, और डेटा और फिट के बीच विशिष्ट विचलन बड़े हो सकते हैं।Rd

यह कई गुना सीधा होने का अनुमान लगाने का एक व्यावहारिक और व्यावहारिक तरीका है: यदि कई गुना अनुमान से विकसित मॉडल / भविष्यवक्ता / वर्गीकरणकर्ता अच्छी तरह से काम करता है, तो यह धारणा उचित थी। इस प्रकार, प्रश्न में मांगी गई उपयुक्त शर्तें यह होंगी कि फिट की अच्छाई के कुछ प्रासंगिक उपाय स्वीकार्य रूप से छोटे होंगे। (क्या उपाय? यह समस्या पर निर्भर करता है और एक हानि फ़ंक्शन का चयन करने के लिए टेंटनमाउंट है।)

यह संभव है कि विभिन्न आयामों (उनके वक्रता पर विभिन्न प्रकार की बाधाओं के साथ) के आंकड़े कई बार फिट हो सकते हैं - और आयोजित आंकड़ों की भविष्यवाणी - समान रूप से अच्छी तरह से। सामान्य रूप से "अंतर्निहित" के बारे में कुछ भी "सिद्ध" नहीं किया जा सकता है , खासकर जब बड़े, गंदे, मानव डेटासेट के साथ काम कर रहे हों। हम सभी आमतौर पर इसके लिए उम्मीद कर सकते हैं कि यह फिटेड मैनिफोल्ड एक अच्छा मॉडल है।

यदि आप एक अच्छे मॉडल / भविष्यवक्ता / क्लासिफायरियर के साथ नहीं आते हैं, तो या तो कई गुना धारणा अवैध है, आप कई छोटे आयामों के कई गुना मान रहे हैं, या आपने पर्याप्त या अच्छी तरह से पर्याप्त नहीं देखा है।


1
+1 बहुत अच्छा। मुझे जोड़ने दें (बिना आपके विचार साझा किए) कि यह एक बार फिर से पता चलता है कि क्यों कई वर्षों में आंकड़ों में खेती की गई है, लेकिन यह उलझन में है, लेकिन अक्सर अस्पष्ट, तेज, चमकदार-नए के लिए बहुत महत्वपूर्ण है मशीन सीखने और डेटा विज्ञान की खिलौना दुनिया।
मोमो

5

किसी भी परिमित बिंदु को किसी भी कई गुना (प्रमेय संदर्भ की आवश्यकता पर फिट किया जा सकता है, मुझे यह याद नहीं है कि प्रमेय क्या है, मुझे बस यूनी से यह तथ्य याद है)।

यदि कोई नहीं चाहता है कि सभी बिंदुओं की पहचान की जाए, तो सबसे कम संभव आयाम 1 है।

एक साधारण उदाहरण के रूप में लें, N 2d अंक दिए गए हैं, कुछ N - 1 ऑर्डर बहुपद हैं, जहां सभी N बिंदु उस बहुपद पर स्थित हैं। इसलिए हमारे पास किसी भी 2d डेटासेट के लिए 1d कई गुना है। मुझे लगता है कि मनमाने आयामों के लिए तर्क समान है।

इसलिए, यह मुद्दा नहीं है, वास्तविक धारणाएं संरचना की सादगी / सरलता पर हैं, खासकर जब जुड़े हुए रिमैनियन मैनिफोल्ड्स को मैट्रिक रिक्त स्थान के रूप में मानते हैं। Ive इस मैनिफोल्ड hocus pocus पर पेपर पढ़े, और अगर आपने ध्यान से पढ़ा तो कुछ बहुत बड़ी धारणाएँ उभरती हैं!

की गई धारणाएँ तब होती हैं जब "निकटता" की प्रेरित परिभाषा "हमारे डेटासेट में जानकारी को संरक्षित करने के लिए" मान ली जाती है, लेकिन चूंकि यह औपचारिक रूप से सूचना सिद्धांत में परिभाषित नहीं है, परिणामी परिभाषा सुंदर तदर्थ है और वास्तव में एक बहुत बड़ी धारणा है। पार्टिकलर में समस्या यह प्रतीत होती है कि "क्लोजनेस" संरक्षित है, यानी दो करीबी बिंदु, पास रहें, लेकिन वह "दूर" नहीं है, और इसलिए दो "दूर" अंक दूर नहीं रहते हैं।

अंत में, मैं मशीन लर्निंग में इस तरह की चालाकी से बहुत सावधान रहूंगा जब तक कि इसके ज्ञात डेटा वास्तव में प्राकृतिक रूप से यूक्लिडियन न हों, जैसे दृश्य पैटर्न मान्यता। मैं इन दृष्टिकोणों को अधिक सामान्य समस्याओं के लिए उपयुक्त नहीं मानूंगा।


धन्यवाद! आपके उत्तर ने मुझे समस्या को बेहतर ढंग से समझने में मदद की। क्या आप यहाँ उल्लिखित कई गुना के बारे में कुछ कागजात सुझा सकते हैं?
विचार

क्षमा करें कोई भी
कैंटीन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.