एक्सट्रैपलेशन वी। इंटरपोलेशन


28

एक्सट्रपलेशन और इंटरपोलेशन के बीच अंतर क्या है, और इन शब्दों का उपयोग करने का सबसे सटीक तरीका क्या है?

उदाहरण के लिए, मैंने एक पेपर में एक बयान देखा है जिसमें प्रक्षेप का उपयोग किया गया है:

"प्रक्रिया बिन बिंदुओं के बीच अनुमानित कार्य के आकार को प्रक्षेपित करती है"

उदाहरण के लिए एक वाक्य जो एक्सट्रपलेशन और इंटरपोलेशन दोनों का उपयोग करता है:

पिछला चरण जहां हमने कर्नेल पद्धति का उपयोग करके प्रक्षेपित फ़ंक्शन को बाएं और दाएं तापमान पूंछ पर एक्सट्रपलेशन किया है।

क्या कोई व्यक्ति उन्हें भेद करने के लिए एक स्पष्ट और आसान तरीका प्रदान कर सकता है और मार्गदर्शन कर सकता है कि इन उदाहरणों का सही तरीके से उपयोग कैसे करें?




@ us @r11852 मुझे लगता है कि दो प्रश्न समान जमीन को कवर करते हैं, लेकिन अलग-अलग हैं क्योंकि यह एक प्रक्षेप के साथ इसके विपरीत पूछता है।
mkt -

प्रक्षेप और एक्सट्रपलेशन के बीच इस अंतर को आम तौर पर सहमत हुए तरीके से सख्ती से औपचारिक रूप दिया गया है, (जैसे, उत्तल पतवार के माध्यम से) या ये शब्द अभी भी मानवीय निर्णय और व्याख्या के अधीन हैं?
निक अल्जीरिया

जवाबों:


51

इसमें एक दृश्य व्याख्या जोड़ने के लिए: आइए कुछ बिंदुओं पर विचार करें जिन्हें आप मॉडल करने की योजना बनाते हैं।

यहाँ छवि विवरण दर्ज करें

उन्हें लगता है कि उन्हें एक सीधी रेखा के साथ अच्छी तरह से वर्णित किया जा सकता है, इसलिए आप उनके लिए एक रेखीय प्रतिगमन फिट करते हैं:

यहाँ छवि विवरण दर्ज करें

यह प्रतिगमन रेखा आपको दोनों को प्रक्षेपित करने देती है (आपके डेटा बिंदुओं के बीच अपेक्षित मान उत्पन्न करती है) और अतिरिक्त रूप से उत्पन्न करती है (आपके डेटा बिंदुओं की सीमा के बाहर अपेक्षित मान उत्पन्न करती है)। मैंने लाल रंग में एक्सट्रपलेशन और नीले रंग में इंटरपोलेशन के सबसे बड़े क्षेत्र पर प्रकाश डाला है। स्पष्ट होने के लिए, यहां तक ​​कि बिंदुओं के बीच के छोटे क्षेत्रों को भी प्रक्षेपित किया जाता है, लेकिन मैं केवल यहां बड़े पर प्रकाश डाल रहा हूं।

यहाँ छवि विवरण दर्ज करें

अतिरिक्त चिंता आम तौर पर एक चिंता का विषय क्यों है? क्योंकि आप आमतौर पर अपने डेटा की सीमा के बाहर संबंध के आकार के बारे में बहुत कम निश्चित हैं। विचार करें कि जब आप कुछ और डेटा पॉइंट (खोखले वृत्त) एकत्रित करते हैं तो क्या हो सकता है:

यहाँ छवि विवरण दर्ज करें

यह पता चला है कि रिश्ते को अपने परिकल्पित रिश्ते के साथ अच्छी तरह से कब्जा नहीं किया गया था। अतिरिक्त क्षेत्र में भविष्यवाणियां रास्ता बंद हैं। यहां तक ​​कि अगर आपने सटीक फ़ंक्शन का अनुमान लगाया था जो इस nonlinear संबंध का सही ढंग से वर्णन करता है, तो आपके डेटा ने आपके द्वारा nonlinearity को अच्छी तरह से कैप्चर करने के लिए पर्याप्त सीमा तक विस्तारित नहीं किया था, इसलिए आप अभी भी बहुत दूर हो सकते हैं। ध्यान दें कि यह न केवल रैखिक प्रतिगमन के लिए एक समस्या है, बल्कि किसी भी रिश्ते के लिए - यही कारण है कि एक्सट्रपलेशन खतरनाक माना जाता है।

फिट नहीं होने की वजह से प्रक्षेपित क्षेत्र में भविष्यवाणियां भी गलत हैं, लेकिन उनकी भविष्यवाणी में त्रुटि बहुत कम है। इस बात की कोई गारंटी नहीं है कि आपके बिंदुओं (यानी प्रक्षेप का क्षेत्र) के बीच अप्रत्याशित संबंध नहीं होगा, लेकिन यह आमतौर पर कम संभावना है।


मैं जोड़ूंगा कि एक्सट्रपलेशन हमेशा एक भयानक विचार नहीं है - यदि आप अपने डेटा की सीमा के बाहर एक छोटे से बिट को एक्सट्रपलेशन करते हैं, तो आप शायद बहुत गलत नहीं होंगे (हालांकि यह संभव है!)। जिन पूर्वजों का दुनिया का कोई अच्छा वैज्ञानिक मॉडल नहीं था, अगर वे पूर्वानुमान लगाते कि सूर्य अगले दिन और फिर उसके अगले दिन (हालांकि भविष्य में एक दिन भी विफल हो जाएगा) तो यह गलत नहीं होगा।

और कभी-कभी, एक्सट्रपलेशन भी जानकारीपूर्ण हो सकता है - उदाहरण के लिए, वायुमंडलीय सीओ में घातीय वृद्धि के साधारण अल्पकालिक एक्सट्रपलेशन पिछले कुछ दशकों में यथोचित रूप से सटीक हैं। यदि आप एक ऐसे छात्र थे, जिनके पास वैज्ञानिक विशेषज्ञता नहीं थी, लेकिन वे एक कठिन, अल्पकालिक पूर्वानुमान चाहते थे, तो इससे आपको काफी उचित परिणाम प्राप्त होते थे। लेकिन आपके डेटा से आप जितना दूर एक्सट्रपलेट करते हैं, उतनी ही संभावना है कि आपकी भविष्यवाणी विफल होने की संभावना है, और विनाशकारी रूप से विफल हो, जैसा कि इस महान धागे में बहुत अच्छी तरह से वर्णित है: एक्सट्रपलेशन के साथ क्या गलत है? (मुझे याद दिलाने के लिए @JMisnotastatistician का धन्यवाद)।2

टिप्पणियों के आधार पर संपादित करें: चाहे इंटरपोलिंग हो या एक्सट्रपॉलिंग, हमेशा जमीनी उम्मीदों के लिए कुछ सिद्धांत रखना सबसे अच्छा होता है। यदि सिद्धांत-मुक्त मॉडलिंग की जानी चाहिए, तो प्रक्षेप से जोखिम आमतौर पर एक्सट्रपलेशन से कम होता है। उन्होंने कहा कि जैसे-जैसे डेटा पॉइंट्स के बीच अंतर बढ़ता जाता है, इंटरपोल भी अधिक से अधिक जोखिम से भरा होता जाता है।


5
मुझे आपका उत्तर पसंद है, और इसे पूरक के रूप में मेरा मानना ​​है और किसी भी तरह से प्रतिस्पर्धा में नहीं है। लेकिन कुछ पाठकों के लिए महत्वपूर्ण एक छोटा बिंदु, यह है कि लाल और हरे रंग काफी कठिन हैं कुछ लोगों के लिए नेत्रहीन भेद करना।
निक कॉक्स

1
@NickCox अच्छी बात है, इसे बढ़ाने के लिए धन्यवाद - मैंने अब रंग योजना बदल दी है।
mkt - मोनिका

1
@leftractionabout मेरी बात यह थी कि कीलिंग वक्र पैटर्न इतना मजबूत है कि अर्थशास्त्र और भौतिकी की अनदेखी करने वाले एक्सट्रपलेशन अभी भी कुछ दशकों से वर्षों के पैमाने पर यथोचित रूप से सटीक हैं। मैंने scale पिछले कुछ दशकों ’को ठीक-ठीक नोट किया क्योंकि यह उस समय का पैमाना है जिस पर हमारे पास उच्च-रिज़ॉल्यूशन के माप हैं। यह एक उदाहरण है जहां एक्सट्रपलेशन ने आपको बुरी तरह से गलत नहीं किया होगा और मुझे लगता है कि यह ध्यान देने योग्य है। मुझे लगता है कि यह दावा करना गलत होगा कि यह जवाब सिद्धांत-मुक्त एक्सट्रपलेशन की वकालत कर रहा है।
mkt -

1
संबंधित रूप से, मैंने इस जवाब में तालेब के "टर्की उदाहरण" को उन लोगों के लिए एक चेतावनी के रूप में दिया जो कि एक्सट्रपलेशन का उपयोग करते हैं।
JM एक सांख्यिकीविद

1
जब आप ओवरफिटिंग करते हैं तो एक्सट्रैपलेशन विशेष रूप से समस्याग्रस्त होता है; एक बहुपद मॉडल के साथ, उदाहरण के लिए, डेटा सेट के बाहर काफी ऊपर जाने के परिणामस्वरूप उच्चतम ऑर्डर शब्द उड़ जाएगा।
२०:१

21

संक्षेप में प्रक्षेप डेटा समर्थन के भीतर या मौजूदा ज्ञात डेटा बिंदुओं के बीच एक ऑपरेशन है ; एक्सट्रपलेशन है डेटा समर्थन परे । अन्यथा, मानदंड है: लापता मूल्य कहां हैं?

भेद का एक कारण यह है कि एक्सट्रपलेशन आमतौर पर अच्छा करने के लिए अधिक कठिन होता है, और यहां तक ​​कि खतरनाक भी, अगर व्यावहारिक रूप से नहीं। यह हमेशा सच नहीं होता है: उदाहरण के लिए, नदी की बाढ़ को माप या निर्वहन (यहां तक ​​कि ऊर्ध्वाधर स्तर) को मापने के साधन को मापा जा सकता है, मापा रिकॉर्ड में एक छेद को फाड़ सकता है। उन परिस्थितियों में, डिस्चार्ज या स्टेज का प्रक्षेप भी मुश्किल होता है और डेटा सपोर्ट के भीतर होने से ज्यादा मदद नहीं मिलती है।

लंबे समय में, गुणात्मक परिवर्तन आमतौर पर मात्रात्मक परिवर्तन को प्रभावित करता है। 1900 के आस-पास इस बात की बहुत चिंता थी कि घोड़ों द्वारा खींचे जाने वाले ट्रैफ़िक में वृद्धि ज्यादातर अवांछित पलायन वाले शहरों को प्रभावित करेगी। उत्सर्जन में घातांक को आंतरिक दहन इंजन और इसके विभिन्न घातांक द्वारा अलग किया गया था।

एक प्रवृत्ति एक प्रवृत्ति है एक प्रवृत्ति है,
लेकिन सवाल यह है कि क्या यह झुक जाएगा?
क्या यह
कुछ अप्रत्याशित बल के माध्यम से अपने पाठ्यक्रम को बदल देगा
और समय से पहले समाप्त हो जाएगा?

- अलेक्जेंडर केयर्नक्रॉस

केयर्नक्रॉस, ए। 1969. आर्थिक पूर्वानुमान। द इकोनॉमिक जर्नल , 79: 797-812। doi: 10.2307 / 2229792 (p.797 पर उद्धरण)


1
अच्छा उत्तर। व्याख्या नाम में वहीं है - प्रक्षेप = भीतर चिकनी करने के लिए, एक्सट्रपलेशन = से परे चिकनी करने के लिए।
परमाणु वांग

1
IMO यह सही उत्तर है। "डेटा समर्थन" महत्वपूर्ण बिट है; यहां तक ​​कि अगर आप जिस बिंदु पर जाना चाहते हैं, वह दो मापा लोगों के बीच है तो यह अभी भी डेटा समर्थन के बाहर झूठ हो सकता है। उदाहरण के लिए, यदि आपके पास रोमन प्राचीन काल और आधुनिक दिनों में लोगों के लिए समृद्धि डेटा है, लेकिन बीच में नहीं है, तो मध्य युग में प्रक्षेप करना बहुत समस्याग्रस्त होगा। मैं इस एक्सट्रपलेशन को कॉल करूंगा। OTOH, यदि आपके पास पूरे समय अवधि के दौरान समान रूप से लेकिन समान रूप से डेटा बिखरा हुआ है, तो किसी विशेष वर्ष के लिए प्रक्षेपित करना अधिक प्रशंसनीय है।
लेफ्टरनैबाउट

1
@leftaroundabout सिर्फ इसलिए कि डेटा में एक बड़े अंतर पर इंटरपोलेशन किया जा सकता है, यह एक्सट्रपलेशन नहीं करता है। आप प्रक्रिया की सलाह देने की प्रक्रिया के लिए खुद को गलत समझ रहे हैं। कभी-कभी प्रक्षेप एक बुरा विचार भी है।
mkt -

1
@mkt: मैं लेफ्टअर्नबाउट के साथ जा रहा हूं कि उनके पहले उदाहरण को एक्सट्रपलेशन माना जा सकता है, क्योंकि इंटरपोलेशन बनाम एक्सट्रपलेशन वास्तव में परिभाषित नहीं है जैसा कि हम सोचना चाहते हैं। चर का एक साधारण परिवर्तन प्रक्षेप को एक्सट्रपलेशन में बदल सकता है। उनके उदाहरण में, कच्चे समय के बजाय दूरी कार्यों की तरह कुछ का उपयोग करने का मतलब है कि कच्चे समय में हम प्रक्षेप कर रहे हैं, दूरियों में हम अतिरिक्त कर रहे हैं ... और कच्चे समय का उपयोग करना शायद एक बुरा विचार होगा।
क्लिफ एबी

1
यह मेरा जवाब है। मुझे इसे योग्य बनाने की आवश्यकता नहीं है। प्रक्षेप और एक्सट्रपलेशन के बीच एक व्यापक अंतर यह तय नहीं करता है कि यह तय करना थोड़ा मुश्किल है। यदि आपके पास डेटा स्पेस के बीच में एक बड़ा छेद है, तो लेबलिंग किसी भी तरह से जा सकती है। जैसा कि कुछ वैग ने बताया, यह तथ्य कि दिन का अंत और रात की शुरुआत एक-दूसरे में धुंधला हो जाना, दिन और रात के बीच का अंतर व्यर्थ या बेकार नहीं करता।
निक कॉक्स

12

TL; DR संस्करण:

  • मौजूदा डेटा बिंदुओं के बीच इंटर पोलेशन होता है।
  • उनके बाहर अतिरिक्त ध्रुवीकरण होता है।

स्मरक: में terpolation => में पक्ष।

एफडब्ल्यूआईडब्ल्यू: प्रीफिक्स इंटर- का अर्थ है , और अतिरिक्त- का मतलब है परेअंतर राज्यीय राजमार्गों के बारे में भी सोचें जो हमारे ग्रह से परे राज्यों या अतिरिक्त क्षेत्रों के बीच जाते हैं।


1

उदाहरण:

अध्ययन: 6-15 वर्ष की आयु की लड़कियों के लिए उम्र पर एक सरल रैखिक प्रतिगमन फिट करना चाहते हैं। नमूना आकार 100 है, आयु की गणना (मापने की तिथि - जन्म तिथि) / 365.25 से की जाती है।

डेटा संग्रह के बाद, मॉडल फिट है और अवरोधन b0 और ढलान b1 का अनुमान प्राप्त करें। इसका मतलब है कि हमारे पास E (ऊंचाई | आयु) = b0 + b1 * आयु है।

जब आप 13 वर्ष की आयु के लिए औसत ऊंचाई चाहते हैं, तो आप पाते हैं कि आपके 100 लड़कियों के नमूने में कोई 13 वर्ष की लड़की नहीं है, उनमें से एक 12.83 वर्ष की है और एक 13.24 वर्ष की है।

अब आप आयु = 13 को सूत्र E (ऊंचाई | आयु) में प्लग करें = b0 + b1 * आयु। इसे इंटरपोलेशन कहा जाता है क्योंकि 13 साल पुराने मॉडल को फिट करने के लिए आपके डेटा की सीमा को कवर किया गया है।

यदि आप 30 वर्ष की आयु के लिए औसत ऊंचाई प्राप्त करना चाहते हैं और उस सूत्र का उपयोग करते हैं, जिसे एक्सट्रपलेशन कहा जाता है, क्योंकि 30 की उम्र आपके डेटा द्वारा कवर की गई आयु की सीमा से बाहर है।

यदि मॉडल में कई कोवरिएट्स हैं, तो आपको सावधान रहने की आवश्यकता है क्योंकि यह उस सीमा को खींचना मुश्किल है जो डेटा को कवर करता है।

आंकड़ों में, हम एक्सट्रपलेशन की वकालत नहीं करते हैं।


"आंकड़ों में, हम एक्सट्रपलेशन की वकालत नहीं करते हैं।" समय श्रृंखला विश्लेषण का एक बड़ा अंश ठीक यही करता है ....
निक कॉक्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.