कम से कम वर्गों का प्रश्न


11

मैं वैज्ञानिक संगणना पर एक पाठ्यक्रम ले रहा हूं, और हम सिर्फ कम से कम वर्गों सन्निकटन गए। मेरा सवाल विशेष रूप से बहुपद का उपयोग कर सन्निकटन के बारे में है। मैं समझता हूं कि यदि आपके पास n + 1 डेटा बिंदु हैं, तो आप डिग्री n का एक अद्वितीय बहुपद पा सकते हैं जो इन सभी बिंदुओं का वर्णन करता है। लेकिन मैं यह भी देख सकता हूं कि यह हमेशा आदर्श क्यों नहीं है। आप इस तरह के दृष्टिकोण के साथ डेटा बिंदुओं के बीच बहुत शोर कर सकते हैं। मुझे लगता है कि कम डिग्री बहुपद प्राप्त करना अच्छा है जो आपके डेटा को अच्छी तरह से अनुमान लगाता है।

मेरा सवाल है: आप अभ्यास में कैसे तय करते हैं कि आप किस बहुपद का उपयोग करने जा रहे हैं? क्या अंगूठे का एक नियम है, या यह केवल हाथ पर समस्या पर निर्भर करता है? क्या हमें अधिक या कम डिग्री के बीच निर्णय लेते समय विभिन्न ट्रेडऑफ को ध्यान में रखना होगा? या मैं यहाँ कुछ गलत समझ रहा हूँ?

अग्रिम में धन्यवाद।


2
मुझे लगता है कि लोग तटरेखा प्रक्षेप en.wikipedia.org/wiki/Spline_interpolation जैसी चीजों का उपयोग करते हैं ताकि कम ऑर्डर वाले पोल का उपयोग किया जाए, लेकिन वे समग्र डोमेन पर एक दूसरे के साथ अच्छी तरह से फिट होते हैं। इस तरह से एक व्यक्ति को समग्र बहुपद आदेश के लिए अनुमान लगाने की आवश्यकता नहीं है।
नासिर

लिंक के लिए धन्यवाद। हम अभी तक अधिक मात्रा में नहीं गए हैं, इसलिए यह दिलचस्प पढ़ना है।
उदय प्रमोद

यह वास्तव में क्या है जो आप करना चाहते हैं? क्या आप बिंदुओं को प्रक्षेपित करने या दिए गए डेटा को फिट करने की कोशिश कर रहे हैं? उदाहरण के लिए, डेटा को प्रक्षेपित करना व्यर्थ है जिसमें शोर के साथ एक सामान्य वितरण होता है। पूर्व के लिए, नासिर का जवाब अच्छा है। उत्तरार्द्ध के लिए, फिट फ़ंक्शन पूरी तरह से हाथ में समस्या पर निर्भर करता है और कई मामलों में बहुपद नहीं है।
15 अक्टूबर को शिकारी

इस प्रश्न के उत्तर में आपकी रुचि हो सकती है ।
बोर्ट

जवाबों:


18

प्रक्षेप और वक्र फिटिंग का सबसे महत्वपूर्ण पहलू यह समझना है कि उच्च क्रम बहुपद फिट क्यों एक मुद्दा हो सकता है और अन्य विकल्प क्या हैं और तब आप समझ सकते हैं कि वे कब हैं / एक अच्छा विकल्प नहीं है।

उच्च क्रम बहुपद के साथ कुछ मुद्दे:

  • बहुपद स्वाभाविक रूप से दोलकीय कार्य हैं। जैसे ही बहुपद का क्रम बढ़ता है, दोलनों की संख्या बढ़ जाती है और ये दोलन और अधिक गंभीर हो जाते हैं। मैं यहां सरलीकृत कर रहा हूं, कई और काल्पनिक जड़ों की संभावना इसे और अधिक जटिल बनाती है, लेकिन बिंदु समान है।

  • बहुपद दृष्टिकोण +/- बहुपद क्रम के बराबर दर पर अनंतता है क्योंकि x +/- अनंत तक जाता है। यह अक्सर एक वांछित व्यवहार नहीं है।

  • उच्च क्रम बहुपद के लिए बहुपद गुणांक का कम्प्यूटिंग आमतौर पर एक बीमार स्थिति है। इसका मतलब है कि छोटी त्रुटियां (जैसे कि आपके कंप्यूटर में गोलाई) उत्तर में बड़े बदलाव पैदा कर सकती हैं। रैखिक प्रणाली को हल किया जाना चाहिए जिसमें एक वैंडर्मोंडे मैट्रिक्स शामिल है जो आसानी से बीमार हो सकता है।

मुझे लगता है कि शायद इस मुद्दे का दिल वक्र फिटिंग और प्रक्षेप के बीच का अंतर है

इंटरपोलेशन का उपयोग तब किया जाता है जब आप मानते हैं कि आपका डेटा बहुत सटीक है, इसलिए आप चाहते हैं कि आपका फ़ंक्शन डेटा बिंदुओं से बिल्कुल मेल खाए। जब आपको अपने डेटा बिंदुओं के बीच मूल्यों की आवश्यकता होती है, तो आमतौर पर एक चिकनी फ़ंक्शन का उपयोग करना सबसे अच्छा होता है जो डेटा की स्थानीय प्रवृत्ति से मेल खाता है। क्यूबिक या हर्माइट स्प्लिन अक्सर इस तरह की समस्या के लिए एक अच्छा विकल्प होते हैं क्योंकि वे गैर-स्थानीय (किसी दिए गए बिंदु से दूर डेटा बिंदुओं पर अर्थ) परिवर्तनों या डेटा में त्रुटियों के प्रति बहुत कम संवेदनशील होते हैं और एक बहुपद की तुलना में कम दोलनशील होते हैं। निम्नलिखित डेटा सेट पर विचार करें:

x = 1   2   3   4   5   6   7   8   9  10
y = 1   1 1.1   1   1   1   1   1   1   1

प्रक्षेप
एक बहुपद फिट में बहुत बड़े दोलनों होते हैं, विशेष रूप से डेटा सेट के किनारों के पास, एक हर्मीट स्लाइन की तुलना में।

दूसरी ओर, कम से कम वर्गों का सन्निकटन एक वक्र फिटिंग हैतकनीक। वक्र फिटिंग का उपयोग तब किया जाता है जब आपको अपने डेटा की अपेक्षित कार्यक्षमता के बारे में कुछ पता होता है, लेकिन आपको सभी डेटा बिंदुओं से गुजरने के लिए अपने फ़ंक्शन की आवश्यकता नहीं होती है। यह विशिष्ट है जब डेटा में माप त्रुटियां या अन्य गड़बड़ी हो सकती हैं या जब आप डेटा के सामान्य रुझान को निकालना चाहते हैं। कम से कम वक्र वर्ग के लिए बहुपद का उपयोग करके कम से कम एक वर्ग में अक्सर अनुमान लगाया जाता है क्योंकि यह एक रेखीय प्रणाली का परिणाम है जो आपके पाठ्यक्रम में पहले सीखी गई तकनीकों का उपयोग करके हल करने के लिए अपेक्षाकृत सरल है। हालांकि, कम से कम वर्गों की तकनीकें बहुपद फिट की तुलना में बहुत अधिक सामान्य हैं और किसी भी वांछित फ़ंक्शन को डेटा सेट में फिट करने के लिए उपयोग किया जा सकता है। उदाहरण के लिए, यदि आप अपने डेटा सेट में घातीय वृद्धि की प्रवृत्ति की अपेक्षा करते हैं,

अंत में, अपने डेटा को फिट करने के लिए सही फ़ंक्शन का चयन करना उतना ही महत्वपूर्ण है जितना सही ढंग से प्रक्षेप या कम से कम वर्गों की गणना करना। ऐसा करने से भी (सतर्क) अतिरिक्त होने की संभावना है। निम्नलिखित स्थिति पर विचार करें। 2000-2010 से अमेरिका के लिए जनसंख्या डेटा (लाखों लोगों में) दिया गया:

Year:  2000   2001   2002   2003   2004   2005   2006   2007   2008   2010
Pop.: 284.97 287.63 290.11 292.81 295.52 298.38 301.23 304.09 306.77 309.35

एक घातीय रैखिककृत कम से कम वर्ग फिट N(t)=A*exp(B*t)या 10 वीं क्रम बहुपद इंटरपोलेंट का उपयोग निम्नलिखित परिणाम देता है:
जनसंख्या की साजिश

अमेरिकी जनसंख्या वृद्धि काफी घातीय नहीं है, लेकिन मैं आपको बेहतर फिट का न्यायाधीश बनने दूँगा।


1
एक बिंदु मैं आपके अमेरिकी आबादी के ग्राफ के साथ बनाऊंगा, मेमोरी से डोमेन में एक अच्छा फिट होने का मतलब यह नहीं है कि यह अच्छी तरह से एक्सट्रपलेट करेगा। उस प्रकाश में, उस क्षेत्र के बाहर बड़ी बहुपद त्रुटियों को दिखाना भ्रामक हो सकता है जहां आपके पास डेटा है।
डेरिल

@ डेरिल सहमत, इसीलिए मैंने इस बात पर जोर दिया कि एक्सट्रपलेशन को सावधानी से किया जाना चाहिए और उस मामले में एक उपयुक्त फ़ंक्शन चुनना महत्वपूर्ण है।
डग लिपिंस्की

@DougLipinski व्यावहारिक उत्तर के लिए धन्यवाद। क्या आप समझा सकते हैं कि कम से कम वर्गों के विरोध में रैखिक कम से कम वर्गों से आपका क्या मतलब है?
बेला83

@ bela83 उचित रूप से उत्तर दे रहा है कि एक टिप्पणी के लिए बहुत लंबा होगा। मुझे लगता है कि यदि आप इसे पूछना चाहते हैं तो यह बहुत अच्छा नया प्रश्न होगा।
डौग लिपिंस्की

@DougLipinski मैं इसे आज़माऊँगा!
bela83

2

बहुत अवैज्ञानिक, लेकिन अंगूठे का एक अच्छा नियम यह है कि 3 जी डिग्री बहुपद आमतौर पर एक अच्छी शुरुआत है, और व्यवहार में मैंने कभी भी किसी को भी 6 वीं डिग्री से अधिक का उपयोग करते नहीं देखा है।

"आदर्श" बहुपद सबसे कम क्रम वाला होगा जो आपके उद्देश्य के लिए पर्याप्त रूप से नीरव डेटा का प्रतिनिधित्व करता है।

यदि आपका डेटा इसे अनुमति देने के लिए काफी छोटा है (यह आमतौर पर है), तो आप उच्च क्रम बहुपद के साथ फिटिंग की कोशिश कर सकते हैं जब तक कि आप दोलन देखना शुरू नहीं करते हैं, जो "ओवरफिटिंग" का संकेत है।

एक विकल्प एक चौरसाई तख़्ता होगा , लेकिन यह बहुत कुछ आवेदन पर निर्भर करता है। विभाजन और चौरसाई विभाजन केवल प्रक्षेप के लिए अच्छे हैं। शोर डेटा के लिए मैं बहुपदों को चौरसाई करने के लिए बहुपद फिट बैठता है पसंद करते हैं, लेकिन मैं जिस डेटा के साथ काम करता हूं वह आम तौर पर बहुपद द्वारा अच्छी तरह से अनुमानित होता है।


1

एक शालीनतापूर्ण-प्रभावी दृष्टिकोण जो मैंने बहुपद सन्निकटन के साथ प्रयोग किया है, वह है विभिन्न डिग्री (जैसे, 1 से 10 तक) के लिए कम से कम वर्गों के बहुपद की गणना करना और फिर उस वक्र को चुनना जो बिंदुओं पर औसत चुकता त्रुटि को लगातार कम करता है (जब आपके डेटा सेट में x) अंक द्वारा क्रमबद्ध। यह बहुत गंभीर दोलनों के साथ घटता को बाहर निकालने में मदद करता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.