प्रक्षेप का सांख्यिकीय औचित्य क्या है?


16

मान लीजिए कि हमारे पास दो बिंदु हैं (निम्नलिखित आंकड़ा: काले घेरे) और हम उनके (पार) के बीच एक तीसरे बिंदु के लिए एक मूल्य खोजना चाहते हैं। दरअसल हम अपने प्रायोगिक परिणामों, काले बिंदुओं के आधार पर इसका अनुमान लगाने जा रहे हैं। सबसे सरल मामला एक रेखा खींचना है और फिर मूल्य (यानी, रैखिक प्रक्षेप) का पता लगाना है। यदि हमारे पास सहायक बिंदु होते हैं जैसे, दोनों पक्षों में भूरे रंग के बिंदुओं के रूप में, हम उनसे लाभ प्राप्त करना पसंद करते हैं और एक गैर-रैखिक वक्र (हरा वक्र) फिट करते हैं।

सवाल यह है कि समाधान के रूप में रेड क्रॉस को चिह्नित करने के लिए सांख्यिकीय तर्क क्या है? अन्य क्रॉस (जैसे, पीले वाले) उत्तर क्यों नहीं हैं जहां वे हो सकते हैं? लाल को स्वीकार करने के लिए हमें किस तरह का अंतर्विरोध या (?) धक्का देता है?

मैं इस मूल प्रश्न के लिए अपने मूल प्रश्न का विकास करूंगा।

यहाँ छवि विवरण दर्ज करें


7
यह एक बहुत अच्छी तरह से प्रस्तुत और दिलचस्प सवाल है। समय श्रृंखला की अंतर्निहित दिशा के कारण आप समय श्रृंखला प्रक्षेप और प्रक्षेप के अन्य रूपों (जैसे विभाजन या स्थानिक प्रक्षेप) के बीच अंतर करना चाह सकते हैं।
whuber

1
मेरी प्रशंसा इस बहुत ही प्रेरक टिप्पणी पर जाती है।
डेवलपर

जवाबों:


14

फ़ंक्शन फिटिंग का कोई भी रूप, यहां तक ​​कि गैर-पैरामीट्रिक वाले (जो आम तौर पर शामिल वक्र की चिकनाई पर धारणा बनाते हैं), मान्यताओं को शामिल करते हैं, और इस प्रकार विश्वास की एक छलांग।

रैखिक प्रक्षेप का प्राचीन समाधान एक है कि 'बस काम करता है' जब आपके पास मौजूद डेटा ठीक-ठाक 'पर्याप्त' होता है (यदि आप एक घेरे को पर्याप्त रूप से देखते हैं, तो यह सपाट दिखता है - बस कोलंबस से पूछें), और संभव भी था कंप्यूटर युग से पहले (जो कई आधुनिक दिन के बंटवारे के समाधान के लिए मामला नहीं है)। यह मानने में आनाकानी करता है कि दो बिंदुओं के बीच '(समान रैखिक) द्रव्य' में फ़ंक्शन जारी रहेगा, लेकिन है कोई प्राथमिक कारण नहीं है (हाथ में अवधारणाओं के बारे में ज्ञान को छोड़कर)।

यह जल्दी से स्पष्ट हो जाता है जब आपके तीन (या अधिक) नॉनक्लियर पॉइंट होते हैं (जैसे कि जब आप ऊपर भूरे रंग के बिंदु जोड़ते हैं), तो उनमें से प्रत्येक के बीच रैखिक प्रक्षेप जल्द ही उन प्रत्येक में तेज कोनों को शामिल करेगा, जो आमतौर पर अवांछित है। यह वह जगह है जहाँ अन्य विकल्प कूदते हैं।

हालांकि, आगे के डोमेन ज्ञान के बिना, निश्चितता के साथ यह बताने का कोई तरीका नहीं है कि एक समाधान दूसरे की तुलना में बेहतर है (इसके लिए, आपको यह जानना होगा कि अन्य बिंदुओं का मूल्य क्या है, फ़ंक्शन को फिटिंग करने के उद्देश्य को हराना है पहले स्थान पर)।

उज्जवल पक्ष पर, और शायद आपके प्रश्न के लिए और अधिक प्रासंगिक हो, 'नियमितता शर्तों' के तहत (पढ़ें: मान्यताओं : अगर हम जानते हैं कि फ़ंक्शन उदाहरण के लिए चिकना है), दोनों रैखिक प्रक्षेप और अन्य लोकप्रिय समाधान 'उचित' साबित हो सकते हैं अनुमानों। फिर भी: इसके लिए मान्यताओं की आवश्यकता होती है, और इनके लिए, हमारे पास आमतौर पर आँकड़े नहीं होते हैं।


यह एक अच्छा उत्तर है और मेरे उम्मीदवार को उत्तर के रूप में चिह्नित किया जाना है। मैं समझ गया कि इस तरह के आम चुनाव का कोई औचित्य नहीं है, है ना?
डेवलपर

वास्तव में मेरा मानना ​​है कि कोई भी नहीं है, नहीं।
निक सब्बे

2
कुछ साहित्य (अच्छी तरह से ज्ञात डेटासेट के नमूनों को प्रक्षेपित करने के लिए प्रतियोगिताओं को शामिल करते हुए) इस उत्तर को आंशिक रूप से मान्य करते हैं, लेकिन पूरी तरह से नहीं। कोई भी डेटा के सांख्यिकीय विश्लेषण के माध्यम से डेटा के स्थानिक सहसंबंध के बारे में बहुत कुछ सीख सकता है, बिना किसी "नियमितता की स्थिति" के। क्या आवश्यक है डेटा के एक मॉडल के रूप में एक स्टोकेस्टिक प्रक्रिया के एक अहसास के नमूने के रूप में (1) एक परिकल्पना परिकल्पना और (ज्यादातर मामलों में) (2) कुछ प्रकार की स्थिर धारणा। इस ढांचे में प्रक्षेप एक उम्मीद की भविष्यवाणी बन जाता है, लेकिन यहां तक ​​कि nondifferentiable घटता अनुमति दी जाती है।
whuber

1
@ शुभंकर: मैं यहाँ अपने आराम क्षेत्र से बाहर हूँ, लेकिन आपकी टिप्पणी में "नियमितता की स्थिति" के बाद सब कुछ मान्यताओं की एक ठोस मात्रा की तरह पढ़ता है (स्थिरता एक नियमितता की स्थिति के लिए राशि होगी, नहीं?)। वास्तव में, मुझे लगता है कि यह इस बात पर निर्भर करेगा कि कार्यात्मक रूप में अनियमितताओं के संबंध में आपका नमूना आकार बड़ा है ... क्या आप एक पेपर का संदर्भ दे सकते हैं या यह पसंद नहीं है कि ऐसा कहां है?
निक सब्बे

2
आप मान्यताओं के बिना कुछ भी नहीं कर सकते, निक! लेकिन नियमितता (जैसे फ़ंक्शन की चिकनाई) आवश्यक नहीं है: यह डेटा से घटाया जा सकता है, कम से कम उस पैमाने पर जिस पर फ़ंक्शन का नमूना लिया जाता है। (स्‍पेसिटी की तुलना में स्‍टेशनरिटी बहुत ज्‍यादा माइलेज देने वाली है।) आप सही हैं कि लार्ज सैंपल की जरूरत होती है, लेकिन 30-50 के साथ सैंपल लोकेशन के साथ भी 2 डी में बहुत कुछ सीखा जा सकता है। साहित्य बड़ा है; उदाहरण के लिए, गणितीय भूविज्ञान के अधिकांश मुद्दे इसके लिए समर्पित हैं। एक कठोर परिचय के लिए, Cressie के स्थानिक आँकड़े देखें।
whuber

0

आप सबसे अच्छा फिट की लाइन के लिए रैखिक समीकरण को काम कर सकते हैं (जैसे। y = 0.4554x + 0.7525) हालांकि यह केवल तभी काम करेगा जब एक लेबल वाली धुरी थी। हालाँकि यह आपको अन्य बिंदुओं के संबंध में केवल सबसे अच्छा फिटिंग वाला सटीक उत्तर नहीं देगा।


लेकिन प्रतिगमन प्रक्षेप नहीं है
Scortchi - को पुनः स्थापित मोनिका

1
@Scortchi मेरा मानना ​​है कि प्रतिगमन को प्रक्षेप के रूप में समझा जा सकता है। हालांकि, एक समाधान के रूप में प्रतिगमन का प्रस्ताव सवाल का जवाब नहीं देता है, जो हमें यह बताने के लिए कहता है कि किसी भी प्रकार का प्रक्षेप्य न्यायसंगत क्यों है (और इसका औचित्य साबित करने के लिए आवश्यक मान्यताओं का वर्णन करने के लिए हमें आमंत्रित करता है)।
whuber

@ शुभकर्ता: धन्यवाद। मैं इंटरपोलेशन के बारे में सोच रहा था, कम से कम प्रोटोटाइप के रूप में, ज्वाइन- -डॉट्स - सांख्यिकी.स्टैकएक्सचेंज . com / a / 33662 / 17230
Scortchi - को पुनः स्थापित मोनिका

@Scortchi वह सूत्र मुख्य रूप से एक तालिका में प्रक्षेप की गणितीय अवधारणा को संबोधित करता है। अपने प्रश्न के लिए एक टिप्पणी में मैंने प्रक्षेप की पारंपरिक सांख्यिकीय समझ को इंगित किया , जो सूक्ष्म रूप से भिन्न है। प्रतिगमन दोनों दुनिया में काम करता है: एक प्रतिगमन फ़ंक्शन एक गणितीय प्रक्षेप (एक अच्छी तरह से परिभाषित फ़ंक्शन के लिए एक तालिका में नमूना है) के साथ-साथ एक सांख्यिकीय प्रक्षेपक के रूप में भी काम कर सकता है (एक स्टैथेस्टिक प्रक्रिया सशर्त के मूल्यों के सांख्यिकीय अनुमानों के माध्यम से) उस प्रक्रिया से प्राप्त मूल्यों की परिमित संख्या)।
whuber

1
@ कागदास परिमित डेटा से एक फ़ंक्शन को पूरी तरह से फिर से संगठित करने का एकमात्र तरीका इस फ़ंक्शन पर पर्याप्त प्रतिबंधों की आपूर्ति करना है कि डेटा पर सशर्त इसके लिए केवल एक उम्मीदवार है! विशेष रूप से, डेटा बिंदुओं की संख्या को देखते हुएn और फ़ंक्शन के समर्थन (लेकिन उन समर्थनों में इसके मूल्यों से स्वतंत्र) को देखते हुए, संभावित कार्यों के सेट में आयाम का परिमित-आयामी कई गुना होना चाहिए n
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.