भविष्यवाणी करने के लिए प्रतिगमन मॉडल का उपयोग करना: कब रोकना है?


9

मैंने पूर्वानुमान बनाने के लिए अपने प्रयोग के उपायों से एक सरल रैखिक प्रतिगमन मॉडल की गणना की। मैंने पढ़ा है कि आपको उन बिंदुओं के लिए भविष्यवाणियों की गणना नहीं करनी चाहिए जो उपलब्ध आंकड़ों से बहुत दूर हैं। हालांकि, मुझे यह जानने में कोई मार्गदर्शन नहीं मिला कि मैं कितना एक्सट्रपलेट कर सकता हूं। उदाहरण के लिए, यदि मैं 50GB की डिस्क आकार के लिए पढ़ने की गति की गणना करता हूं, तो मुझे लगता है कि परिणाम वास्तविकता के करीब होगा। 100GB, 500GB की डिस्क आकार के बारे में क्या? मुझे कैसे पता चलेगा कि मेरी भविष्यवाणियां वास्तविकता के करीब हैं?

मेरे प्रयोग के विवरण हैं:

मैं विभिन्न डिस्क आकार का उपयोग करके किसी सॉफ़्टवेयर की रीडिंग गति को माप रहा हूं। अब तक मैंने इसे प्रयोगों के बीच 5GB की डिस्क आकार (कुल 6 उपायों) के साथ 5GB से 30GB तक मापा है।

मेरे परिणाम रैखिक हैं और मानक त्रुटियां छोटी हैं, मेरी राय में।


2
मुझे लगता है कि उपयोगी उत्तर प्राप्त करने के लिए आपको अपने दूसरे वाक्य को बहुत विस्तारित करने और स्पष्ट करने की आवश्यकता होगी।
rolando2

rolando2 सही है। आपका क्या मतलब है "बहुत सारी भविष्यवाणियाँ"?
डेविड रॉबिन्सन

मुझे उन सटीक शब्दों का पता नहीं चल सकता है, जो मेरे द्वारा पढ़े गए दस्तावेज़ में उपयोग किए गए हैं। विचार "मेरे मूल उपायों से बहुत दूर है"। तो मैं 30 जीबी डिस्क के साथ पढ़ने की गति को मापता हूं। अगर मैं 100GB डिस्क के लिए पढ़ने की गति की भविष्यवाणी करता हूं, तो क्या यह "बहुत दूर" है?
फलांफ्लद

शामिल मुद्दों को रेखांकित करने के लिए गंग का जवाब पर्याप्त है। एक अतिरिक्त बात जो आपके विशिष्ट मामले में मदद कर सकती है वह है पठन सॉफ्टवेयर में शामिल शारीरिक प्रक्रिया पर विचार करना। किस तरह के ऑपरेशन किए जाने की जरूरत है? क्या रीडिंग प्रक्रिया के हिस्से के रूप में सॉफ़्टवेयर को डिस्क को व्यवस्थित या सॉर्ट करने की आवश्यकता है? ये प्रश्न रैखिकता की धारणा के लिए कुछ नींव प्रदान करने में मदद करेंगे
संभावना

जवाबों:


19

आपके द्वारा खोजा जा रहा शब्द 'एक्सट्रपलेशन' है। समस्या यह है कि आपके पास कितना भी डेटा हो, और डिस्क आकार पर आपके समापन बिंदु (यानी, 5 और 30 के बीच) के बीच आपके पास कितने मध्यवर्ती स्तर हैं, यह हमेशा संभव है कि वास्तविक अंतर्निहित फ़ंक्शन में कुछ हद तक वक्रता हो , कि तुम बस का पता लगाने की शक्ति नहीं है। नतीजतन, जब आप समापन बिंदु से बहुत अधिक बाहर निकलते हैं, तो वक्रता की एक छोटी सी डिग्री बढ़ जाती है, जिसमें सही कार्य आपके फिट लाइन से आगे और आगे बढ़ता है। एक और संभावना यह है कि वास्तव में सही कार्य पूरी तरह से जांच की गई सीमा के भीतर है, लेकिन यह कि आपके अध्ययन में अंतिम बिंदु से कुछ दूरी पर एक परिवर्तन-बिंदु है। इस तरह की चीजों से इंकार करना असंभव है; प्रश्न है, यदि वे वास्तविक हैं तो उनकी संभावना कितनी गलत है और आपकी भविष्यवाणी कितनी गलत होगी? मैं नहीं जानता कि उन प्रश्नों का विश्लेषणात्मक उत्तर कैसे दिया जाए। मेरा कूबड़ यह है कि जब अध्ययन की सीमा [५, ३०] थी, तो ५०० एक बहुत लंबा रास्ता है, लेकिन यह सोचने का कोई वास्तविक कारण नहीं है कि मेरे कूबड़ आपके मुकाबले अधिक सार्थक हैं। भविष्यवाणी अंतरालों की गणना करने के लिए मानक सूत्र आपको एक विस्तृत अंतराल दिखाएगा जैसे ही आप दूर जाते हैंx¯ , यह देखते हुए कि अंतराल ऐसा लगता है कि सहायक हो सकता है। फिर भी, आप को ध्यान में रखना चाहिए कि आप एक सैद्धांतिक धारणा है कि लाइन वास्तव में पूरी तरह से सीधे है, और के लिए बाहर सभी तरह इस तरह के रहता है बना रहे हैं -value आप भविष्यवाणी के लिए प्रयोग करेंगे। उस भविष्यवाणी की वैधता डेटा और फिट दोनों पर आकस्मिक है, और यह धारणा है। x


2
पूरी तरह से सहमत (+1)। इस प्रश्न का उत्तर सख्ती से सांख्यिकीय नहीं हो सकता है। एक सॉफ्टवेयर और कंप्यूटर इंजीनियर से बात करना यहाँ प्रासंगिक होगा!
डोमिनिक कोमोटिस

उत्तर के लिए धन्यवाद, यह वास्तव में उपयोगी है। मैं स्वयं पढ़ाया जा रहा हूँ इसलिए मुझे काफी बुनियादी ज्ञान याद आ रहा है (जैसे शब्दावली जानना)।
फलांफेल

क्या विश्वास अंतराल की चौड़ाई के व्युत्क्रम को भविष्यवाणी के "ताकत" के किसी प्रकार के संकेतक नहीं माना जा सकता है? जाहिर है आपको इसका उपयोग करने के लिए कुछ मनमाने मूल्यों को
चुनना

2
@ naught101, यदि आप यह मानने को तैयार हैं कि प्रतिगमन रेखा पूरी तरह से सीधी है, तो भविष्यवाणी अंतराल की चौड़ाई को भविष्यवाणी की ताकत का एक उपाय माना जा सकता है, (w / व्यापक अंतराल कमजोर भविष्यवाणियों का संकेत देता है), लेकिन यह अभी भी है उस धारणा पर आकस्मिक।
गूँग - मोनिका

7

मुझे @ गंग के उत्कृष्ट उत्तर में कुछ अंक जोड़ने चाहिए:

  • आपके क्षेत्र के आधार पर, प्रासंगिक मानदंड हो सकते हैं (जैसा कि DIN / EN या ISO)। यह शायद हार्ड डिस्क पढ़ने की गति की भविष्यवाणी करने वाला मुद्दा नहीं है, लेकिन उदाहरण के लिए विश्लेषणात्मक रसायन विज्ञान में नियम कोई एक्सट्रपलेशन नहीं है । अवधि। यदि आप 500 जीबी तक जाना चाहते हैं, तो जाकर 500 जीबी तक कुछ माप कर सकते हैं।

  • एक रैखिक मॉडल की स्थापना के सामान्य तरीके की दो महत्वपूर्ण धारणाएं हैं

    • जाहिर है, कि फ़ंक्शन रैखिक है। व्यवहार में यह आमतौर पर एक बहुत अच्छी धारणा नहीं है कि रैखिकता अनंत तक फैली हुई है। यदि आप हार्ड डिस्क की मात्रा से बड़ी मात्रा में पढ़ते हैं, तो क्या आप अभी भी रैखिकता खोजने की उम्मीद कर सकते हैं?

    • आमतौर पर, होमोसकेडिसिटी को भी ग्रहण किया जाता है। इसका मतलब यह है कि त्रुटि / शोर की पूर्ण मात्रा निर्भर ( ) चर पर निर्भर नहीं करती है , यहां: पढ़ने के लिए डेटा की मात्रा। मुझे हार्ड डिस्क रीडिंग के बारे में निश्चित नहीं है, लेकिन मैं अनुभव करता हूं (रसायन विज्ञान / रसायन विज्ञान) आमतौर पर निरंतर निरपेक्ष और निरंतर सापेक्ष शोर (या शोर के विभिन्न स्रोतों के कारण अधिक जटिल व्यवहार) के बीच कुछ होता है। शोर शासन की निरंतर निरपेक्ष राशि से किसी भी विचलन का मतलब होगा कि एक्सट्रपलेशन के लिए भविष्यवाणी अंतराल सकल गलत हैं - आमतौर पर वे बहुत संकीर्ण होंगे।x

  • यहां तक ​​कि अगर इन मान्यताओं को पूरा किया जाता है, तो विचार करें कि वास्तव में उस तरह के एक्सट्रपलेशन के लिए भविष्यवाणी अंतराल कितना बड़ा है:

    एलएम अंशांकन रेंज एलएम एक्सट्रपलेशन

    (मेरे पास एक बहुत अच्छा माप का कुछ वास्तविक अंशांकन डेटा लिया और इसे आपकी समस्या के लिए अनुकूलित किया)।
    ध्यान दें कि में भविष्यवाणी अंतराल = 500 पहले से ही है दो बार बड़े रूप में कुल अंतर के रूप में अपने अंशांकन डेटा फैला! यदि आपके पास इस तरह का बहुत अच्छा रैखिक डेटा सेट नहीं है, तो भविष्यवाणी अंतराल बस "विस्फोट" होगा।xt


1
+1, विशेष रूप से समरूपता धारणा यहाँ चर्चा के लिए एक अच्छा अतिरिक्त है। (छोटा नोट, "Dot।" से, क्या आपका मतलब पीरियड है ? पिछले वाक्य में बताए गए नियम की अंतिमता पर जोर देने के तरीके के रूप में?)
गंग - मोनिका

@ गुंग: यदि अवधि शब्द है, तो मेरा मतलब है कि :-) धन्यवाद।
SX

2
एक अवधि "डॉट" को कॉल करना केवल कंप्यूटर शब्दावली में और विशेष रूप से यूआरएल के लिए उपयोग किया जाता है (उदाहरण के लिए, "आंकड़े डॉट स्टैकएक्सचेंज डॉट कॉम")। यह अंग्रेजी में एक काफी नया उपयोग है, शायद लगभग 20 साल पुराना है।
गूँग - मोनिका

1
आपके अतिरिक्त बिंदुओं के लिए धन्यवाद। मैंने कुछ समय पहले अपना काम पूरा कर लिया था, लेकिन मुझे उम्मीद है कि इस प्रश्न के दोनों उत्तर अन्य छात्रों की मदद करेंगे!
फलांफिल्ले
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.