किसी मॉडल को फिट करते समय हम आम तौर पर वर्ग त्रुटियों (SSE) की राशि को कम से कम क्यों चुनते हैं?


23

प्रश्न बहुत सरल है: क्यों, जब हम अपने डेटा को रैखिक या गैर-रैखिक के लिए एक मॉडल फिट करने की कोशिश करते हैं, तो क्या हम आमतौर पर मॉडल पैरामीटर के लिए हमारे अनुमानक को प्राप्त करने के लिए त्रुटियों के वर्गों का योग कम करने की कोशिश करते हैं? न्यूनतम करने के लिए कुछ अन्य उद्देश्य फ़ंक्शन क्यों नहीं चुना जाता है? मैं समझता हूं कि, तकनीकी कारणों से, द्विघात फ़ंक्शन कुछ अन्य कार्यों की तुलना में अच्छा है, उदाहरण के लिए, पूर्ण विचलन का योग। लेकिन यह अभी भी बहुत ठोस जवाब नहीं है। इस तकनीकी कारण के अलावा, विशेष रूप से लोग दूरस्थ कार्य के इस 'यूक्लिडियन प्रकार' के पक्ष में क्यों हैं? क्या उसके लिए कोई विशिष्ट अर्थ या व्याख्या है?

मेरी सोच के पीछे का तर्क निम्नलिखित है:

जब आपके पास एक डेटासेट होता है, तो आप पहले अपने मॉडल को कार्यात्मक या वितरण संबंधी मान्यताओं का एक सेट बनाकर कहते हैं (कहते हैं, कुछ पल की स्थिति लेकिन संपूर्ण वितरण नहीं)। आपके मॉडल में, कुछ पैरामीटर हैं (मान लें कि यह पैरामीट्रिक मॉडल है), तो आपको इन मापदंडों का लगातार अनुमान लगाने का एक तरीका खोजने की जरूरत है और उम्मीद है, आपके अनुमानक के पास कम विचरण और कुछ अन्य अच्छे गुण होंगे। चाहे आप एसएसई या एलएडी या कुछ अन्य उद्देश्य समारोह को कम करते हैं, मुझे लगता है कि वे एक सुसंगत अनुमानक प्राप्त करने के लिए सिर्फ अलग-अलग तरीके हैं। इस तर्क के बाद, मैंने सोचा कि लोग कम से कम वर्ग का उपयोग करें 1) यह मॉडल 2 के संगत अनुमानक का उत्पादन करता है) कुछ और जो मुझे नहीं पता है।

अर्थमिति में, हम जानते हैं कि रेखीय प्रतिगमन मॉडल में, यदि आप मानते हैं कि त्रुटि की स्थिति में पूर्वसूचक और समरूपता पर 0 मतलब कंडीशनिंग है और त्रुटियां एक दूसरे के साथ असंबंधित हैं, तो वर्ग त्रुटि का योग कम से कम आपको आपके मॉडल का एक अनुमानक अनुमानक देगा। पैरामीटर और गॉस-मार्कोव प्रमेय द्वारा, यह अनुमानक BLUE है। तो यह सुझाव देगा कि यदि आप कुछ अन्य उद्देश्य फ़ंक्शन को कम से कम चुनना चाहते हैं जो एसएसई नहीं है, तो इस बात की कोई गारंटी नहीं है कि आपको अपने मॉडल पैरामीटर का एक सुसंगत अनुमानक मिलेगा। क्या मेरी समझ सही है? यदि यह सही है, तो एसएसई को कम करने के बजाय कुछ अन्य उद्देश्य फ़ंक्शन को संगति द्वारा उचित ठहराया जा सकता है, जो स्वीकार्य है, वास्तव में, द्विघात फ़ंक्शन को अच्छा कहने से बेहतर है।

Pratice में, मैंने वास्तव में कई मामलों को देखा, जहां लोग सीधे पहले मॉडल को स्पष्ट रूप से निर्दिष्ट किए बिना वर्ग त्रुटियों की राशि को कम कर देते हैं, उदाहरण के लिए, त्रुटि शब्द पर वितरण संबंधी धारणाएं (पल धारणाएं)। तब मुझे यह प्रतीत होता है कि इस पद्धति का उपयोगकर्ता बस यह देखना चाहता है कि वर्ग दूरी फ़ंक्शन के संदर्भ में डेटा 'मॉडल' के करीब कैसे आता है (मैं उद्धरण चिह्नों का उपयोग करता हूं क्योंकि मॉडल की धारणाएं शायद अधूरी हैं)।

एक संबंधित प्रश्न (इस वेबसाइट से संबंधित) भी है: क्यों, जब हम क्रॉस-वैलिडेशन का उपयोग करके विभिन्न मॉडलों की तुलना करने की कोशिश करते हैं, तो क्या हम फिर से एसएसई का उपयोग न्याय मानदंड के रूप में करते हैं? यानी, वह मॉडल चुनें जिसमें कम से कम SSE हो? एक और कसौटी क्यों नहीं?


जवाबों:


14

जबकि आपका प्रश्न साइट के कई अन्य प्रश्नों के समान है, लेकिन इस प्रश्न के पहलुओं (जैसे कि आपकी निरंतरता पर जोर) से मुझे लगता है कि वे डुप्लिकेट होने के लिए पर्याप्त रूप से करीब नहीं हैं।

न्यूनतम करने के लिए कुछ अन्य उद्देश्य फ़ंक्शन क्यों नहीं चुना जाता है?

क्यों नहीं, वास्तव में? यदि आप उद्देश्य कम से कम वर्गों से भिन्न हैं, तो आपको इसके बजाय अपने उद्देश्य को संबोधित करना चाहिए!

फिर भी, कम से कम वर्गों अच्छा गुण की एक संख्या (कम से कम नहीं, का आकलन करने के लिए एक अंतरंग संबंध नहीं है का मतलब है , जो कई लोगों को चाहते हैं, और एक सादगी जो इसे एक स्पष्ट पहली पसंद जब शिक्षण या नए विचारों को लागू करने की कोशिश कर रहा है)।

इसके अलावा, कई मामलों में लोगों के पास एक स्पष्ट उद्देश्य कार्य नहीं होता है, इसलिए आसानी से उपलब्ध और व्यापक रूप से समझा जाने वाला विकल्प चुनने का एक फायदा है।

उस ने कहा, कम से कम वर्गों में कुछ कम-अच्छा गुण (उदाहरण के लिए संवेदनशीलता, उदाहरण के लिए) हैं - इसलिए कभी-कभी लोग अधिक मजबूत मानदंड पसंद करते हैं।

वर्गाकार त्रुटि का योग कम से कम आप अपने मॉडल मापदंडों के अनुरूप अनुमानक देंगे

कम से कम वर्गों के लिए एक आवश्यकता नहीं है। संगति एक बहुत उच्च बाधा नहीं है - बहुत सारे अनुमानक सुसंगत होंगे। लगभग सभी अनुमानक जो लोग अभ्यास में उपयोग करते हैं, सुसंगत हैं।

और गॉस-मार्कोव प्रमेय द्वारा, यह अनुमानक BLUE है।

लेकिन उन स्थितियों में जहां सभी रैखिक अनुमानक खराब हैं (जैसा कि अत्यधिक भारी-पूंछ के तहत मामला होगा, कहते हैं), सबसे अच्छा में बहुत फायदा नहीं है।

यदि आप कुछ अन्य उद्देश्य फ़ंक्शन को कम से कम चुनना चाहते हैं जो SSE नहीं है, तो इस बात की कोई गारंटी नहीं है कि आपको अपने मॉडल पैरामीटर के अनुरूप अनुमानक मिलेंगे। क्या मेरी समझ सही है?

लगातार अनुमान लगाने वालों को ढूंढना मुश्किल नहीं है, इसलिए ऐसा नहीं है कि कम से कम वर्गों का विशेष रूप से अच्छा औचित्य नहीं है

क्यों जब हम क्रॉस सत्यापन के उपयोग से विभिन्न मॉडलों की तुलना करने की कोशिश करते हैं, तो हम फिर से, एसएसई का उपयोग निर्णय मानदंड के रूप में करते हैं? [...] अन्य मानदंड क्यों नहीं?

यदि आपका उद्देश्य किसी और चीज़ से बेहतर परिलक्षित होता है, तो वास्तव में क्यों नहीं?

कम से कम वर्गों की तुलना में अन्य उद्देश्य कार्यों का उपयोग करने वाले लोगों की कमी नहीं है। यह एम-आकलन में आता है, कम से कम-ट्रिम किए गए अनुमानकों में, क्वांटाइल रिग्रेशन में, और जब लोग लिनेक्स नुकसान कार्यों का उपयोग करते हैं, तो बस कुछ का नाम लेने के लिए।

सोच रहा था कि जब आपके पास कोई डेटासेट होता है, तो आप सबसे पहले अपना मॉडल सेट करते हैं, यानी कार्यात्मक या वितरण संबंधी मान्यताओं का एक सेट बनाते हैं। आपके मॉडल में, कुछ पैरामीटर हैं (मान लें कि यह पैरामीट्रिक मॉडल है),

संभवतः कार्यात्मक मान्यताओं के पैरामीटर वही हैं जो आप अनुमान लगाने की कोशिश कर रहे हैं - किस मामले में, कार्यात्मक धारणाएं हैं जो आप कम से कम वर्ग (या जो कुछ भी) आसपास करते हैं ; वे कसौटी का निर्धारण नहीं करते हैं, वे मानदंड का आकलन कर रहे हैं।

दूसरी ओर, यदि आपके पास एक वितरण संबंधी धारणा है, तो आपके पास अधिक उपयुक्त उद्देश्य फ़ंक्शन के बारे में बहुत सारी जानकारी है - संभवतः, उदाहरण के लिए, आप अपने मापदंडों का कुशल अनुमान प्राप्त करना चाहेंगे - जो कि बड़े नमूनों में होगा आपको MLE की ओर ले जाने के लिए करते हैं, (हालांकि संभवतः कुछ मामलों में एक मजबूत ढांचे में एम्बेडेड)।

फिर आपको इन मापदंडों का लगातार अनुमान लगाने का एक तरीका खोजने की आवश्यकता है। चाहे आप SSE या LAD या किसी अन्य उद्देश्य फ़ंक्शन को कम से कम करें,

LAD एक मात्रात्मक अनुमानक है। यह पैरामीटर का एक सुसंगत अनुमानक है, इसे उन स्थितियों में अनुमान लगाना चाहिए जिनमें यह होने की उम्मीद की जानी चाहिए, उसी तरह जो कम से कम वर्ग है। (यदि आप देखते हैं कि आप कम से कम चौकों के लिए क्या निरंतरता दिखाते हैं, तो कई अन्य सामान्य अनुमानकर्ताओं के लिए इसके अनुरूप परिणाम हैं। लोग शायद ही असंगत अनुमानकों का उपयोग करते हैं, इसलिए यदि आप एक अनुमानक को व्यापक रूप से चर्चा करते हुए देखते हैं, जब तक कि वे इसकी असंगति के बारे में बात नहीं कर रहे हैं, यह लगभग है। निश्चित रूप से संगत। *)

* कहा कि, संगति जरूरी संपत्ति नहीं है। आखिरकार, मेरे नमूने के लिए, मेरे पास कुछ विशेष नमूना आकार हैं, न कि नमूने के आकार का एक क्रम अनंत तक। पास मेरे लिए क्या गुण हैं, कुछ असीम रूप से बड़ा नहीं है जो मेरे पास नहीं है और मैं कभी नहीं देखूंगा । लेकिन जब हमें असंगति होती है तो बहुत अधिक देखभाल की आवश्यकता होती है - हमारे पास = 20 पर एक अच्छा अनुमानक हो सकता है, लेकिन यह = 2000 में भयानक हो सकता है ; कुछ अर्थों में अधिक प्रयास की आवश्यकता होती है, यदि हम सुसंगत अनुमानकों का उपयोग करना चाहते हैं।n n nnnnn

यदि आप घातांक के माध्य का अनुमान लगाने के लिए LAD का उपयोग करते हैं, तो यह उसके लिए सुसंगत नहीं होगा (हालाँकि इसके अनुमान का तुच्छ मापक होगा) - लेकिन यदि आप एक घातीय के माध्य का अनुमान लगाने के लिए कम से कम वर्गों का उपयोग करते हैं तो उसी टोकन से , यह उस (और फिर से, एक तुच्छ rescaling कि फिक्सेस) के लिए संगत नहीं होगा।


मुझे लगता है कि मैंने अपनी चिंता स्पष्ट रूप से व्यक्त नहीं की। मैं सोच रहा था कि जब आपके पास एक डेटासेट होता है, तो आप सबसे पहले अपना मॉडल सेट करते हैं, यानी कार्यात्मक या वितरण संबंधी मान्यताओं का एक सेट बनाते हैं। आपके मॉडल में, कुछ पैरामीटर हैं (मान लें कि यह पैरामीट्रिक मॉडल है), तो आपको इन मापदंडों का लगातार अनुमान लगाने का एक तरीका खोजने की आवश्यकता है। चाहे आप एसएसई या एलएडी या कुछ अन्य उद्देश्य समारोह को कम करते हैं, मुझे लगता है कि वे अनुमान लगाने वाले के लिए सिर्फ अलग तरीके हैं। इस तर्क के बाद, मैंने सोचा कि लोग कम से कम वर्ग का उपयोग करें 1) यह मॉडल 2 के लगातार अनुमानक का उत्पादन करता है) कुछ और
केविनकिम

संभवतः कार्यात्मक मान्यताओं के पैरामीटर वही हैं जो आप अनुमान लगाने की कोशिश कर रहे हैं - किस मामले में, कार्यात्मक धारणाएं हैं जो आप कम से कम वर्ग (या जो कुछ भी) आसपास करते हैं; वे कसौटी निर्धारित नहीं करते हैं। दूसरी ओर, यदि आपके पास एक वितरण संबंधी धारणा है, तो आपके पास अधिक उपयुक्त उद्देश्य फ़ंक्शन के बारे में बहुत सारी जानकारी है - संभवतः, उदाहरण के लिए, आप अपने मापदंडों का कुशल अनुमान प्राप्त करना चाहेंगे - जो कि बड़े नमूनों में होगा आपको MLE की ओर ले जाने के लिए करते हैं, (हालांकि संभवतः कुछ मामलों में एक मजबूत ढांचे में एम्बेडेड)।
Glen_b -Reinstate मोनिका

यह जवाब मेरी मानसिकता में फिट बैठता है। लेकिन मेरा अभी भी एक सवाल है, 'कसौटी का निर्धारण नहीं करते' से आपका क्या तात्पर्य है? क्या इसका मतलब यह है कि उदाहरण के लिए, रेखीय प्रतिगमन 101 में अर्थमितीय 101 में, कार्यात्मक (कोई वितरणात्मक) धारणा के तहत, सुसंगत अनुमानक प्राप्त करने के लिए, आपको ओल्स का उपयोग करने के लिए मिला है, आप कुछ मध्यस्थ उद्देश्य फ़ंक्शन का उपयोग कम से कम करने के लिए नहीं कर सकते हैं, क्योंकि नहीं वहाँ से लगातार अनुमान लगाने वाले के लिए गारंटी?
केविनकिम

"निर्धारित न करें" पर - मुझे अपने उत्तर में विस्तार करने दें। संगति पर: मैंने अपने उत्तर में विपरीत बात कही। मुझे इसे फिर से बताने दें: कम से कम वर्ग स्थिरता के लिए एक आवश्यकता नहीं है। इसमें वह स्थिति शामिल है जिसका आपने अभी उल्लेख किया है; वैकल्पिक अनुमानकों की एक अनंतता है जो सुसंगत होगी। लगभग सभी अनुमानक जो लोग अभ्यास में उपयोग करते हैं, सुसंगत हैं। मैं अपना उत्तर अधिक स्पष्ट होने के लिए संपादित करूँगा।
Glen_b -Reinstate मोनिका

आपके अद्यतित उत्तर के लिए, अंतिम पैराग्राफ, इसलिए कुछ मॉडलों के लिए, कुछ ऐसे तरीके हैं जो WON'T आपके मॉडल मापदंडों के लिए सुसंगत मापदंडों का उत्पादन करते हैं, हालाँकि आप वैसे भी उन तरीकों को लागू कर सकते हैं और संकलन आपको कुछ संख्याएँ देंगे, है ना? तो क्या मैं कह सकता हूं कि मॉडल के लोगों के लिए, मॉडल में मापदंडों के लिए अनुमानकों को प्राप्त करने के लिए, लोग मनमाने ढंग से इसके तकनीकी अच्छे गुणों के आधार पर JUST को अनुकूलित करने के लिए एक उद्देश्य फ़ंक्शन का चयन नहीं कर सकते हैं?
केविनकिम

5

आपने एक सांख्यिकी प्रश्न पूछा, और मुझे उम्मीद है कि मेरे नियंत्रण प्रणाली के इंजीनियर का जवाब एक अलग दिशा से पर्याप्त ज्ञान प्राप्त करने के लिए एक छुरा है।

नियंत्रण प्रणाली इंजीनियरिंग के लिए यहां एक "विहित" सूचना-प्रवाह रूप है: यहाँ छवि विवरण दर्ज करें

"आर" संदर्भ मूल्य के लिए है। यह एक त्रुटि "ई" का उत्पादन करने के लिए आउटपुट "वाई" के "एफ" रूपांतरण के साथ अभिव्यक्त किया गया है। यह त्रुटि कंट्रोलर के लिए इनपुट है, जिसे कंट्रोल ट्रांसफर फ़ंक्शन "C" द्वारा प्लांट "P" के लिए कंट्रोल इनपुट में बदल दिया जाता है। मनमाना पौधों को लागू करने के लिए यह सामान्य रूप से पर्याप्त है। "प्लांट" क्रूज़ कंट्रोल के लिए कार का इंजन हो सकता है, या उलटा-पेंडुलम के इनपुट का कोण हो सकता है।

मान लें कि आपके पास निम्न चर्चा के लिए उपयुक्त घटना, वर्तमान स्थिति और एक वांछित अंत स्थिति के साथ एक ज्ञात हस्तांतरण समारोह के साथ एक संयंत्र है। ( तालिका २.१ पीपी ६ table ) अनूठे रास्तों की एक अनंत संख्या है जो विभिन्न इनपुट के साथ प्रणाली, प्रारंभिक से अंतिम अवस्था तक प्राप्त करने के लिए पार कर सकती है। पाठ्यपुस्तक नियंत्रण इंजीनियर "इष्टतम दृष्टिकोण" में समय इष्टतम ( कम से कम समय / बैंग-बैंग ), दूरी इष्टतम (सबसे छोटा रास्ता), बल इष्टतम (सबसे कम अधिकतम इनपुट परिमाण), और ऊर्जा इष्टतम (न्यूनतम कुल ऊर्जा इनपुट) शामिल हैं।

जैसे अनंत मार्ग हैं, वैसे ही अनंत संख्या में "आशावादी" भी हैं - जिनमें से प्रत्येक उन रास्तों में से एक का चयन करता है। यदि आप एक रास्ता चुनते हैं और कहते हैं कि यह सबसे अच्छा है, तो आप स्पष्ट रूप से "अच्छाई का माप" या "इष्टतमता का माप" उठा रहे हैं।

मेरी व्यक्तिगत राय में, मुझे लगता है कि लोग एल -2 मानदंड (उर्फ ऊर्जा इष्टतम, उर्फ ​​कम से कम चुकता त्रुटि) को पसंद करते हैं, क्योंकि यह सरल, समझाने में आसान, निष्पादित करने में आसान, छोटे लोगों की तुलना में बड़ी त्रुटियों के खिलाफ अधिक काम करने की संपत्ति है, और शून्य पूर्वाग्रह के साथ छोड़ देता है। एच-इनफिनिटी मानदंडों पर विचार करें जहां विचरण को कम किया जाता है और पूर्वाग्रह को विवश किया जाता है लेकिन शून्य नहीं। वे काफी उपयोगी हो सकते हैं, लेकिन वे वर्णन करने के लिए अधिक जटिल हैं, और कोड के लिए अधिक जटिल हैं।

मुझे लगता है कि L2- मानदंड, उर्जा को कम करने वाला इष्टतम मार्ग, उर्फ ​​कम से कम चुकता त्रुटि फिट, आसान है और आलसी अर्थ में यह अनुमान लगाता है कि "बड़ी त्रुटियां अधिक खराब होती हैं, और छोटी त्रुटियां कम खराब होती हैं"। वस्तुतः इसे तैयार करने के लिए एल्गोरिथम तरीके की एक अनंत संख्या है, लेकिन चुकता त्रुटि सबसे सुविधाजनक में से एक है। इसके लिए केवल बीजगणित की आवश्यकता होती है, इसलिए अधिक लोग इसे समझ सकते हैं। यह (लोकप्रिय) बहुपद स्थान में काम करता है। ऊर्जा-इष्टतम भौतिकी के बहुत से अनुरूप है जो हमारी कथित दुनिया को समाहित करता है, इसलिए यह "परिचित महसूस करता है"। यह गणना करने के लिए शालीनता से तेज है और स्मृति पर बहुत भयानक नहीं है।

अगर मुझे अधिक समय मिलता है तो मैं चित्र, कोड या ग्रंथ सूची संदर्भ रखना चाहूंगा।


1

SSESSER2SST

R2=1SSESST

R2R2RMSE

R2R2SSESSEPRESS, जो पोस्ट के अंत में आपके प्रश्न के लिए प्रासंगिक हैं।

SSE


2
R2R2

R2R2

R2

R2

0

आप कम से कम वर्ग फिटिंग के बजाय अधिकतम त्रुटि को कम से कम करने पर भी ध्यान दे सकते हैं। विषय पर पर्याप्त साहित्य है। एक खोज शब्द के लिए, "टचेबेकव" का प्रयास करें "चेबीशेव" बहुपद।


1
अधिकतम एक एल-इन्फिनिटी मानदंड है। यदि आप नूतन / फॉर्म्युलाइज़ / यूरेका को देखते हैं, तो उनके पास इंटरकार्टाइल एफ़ल एरर, हिंग लॉस लॉस, आरओसी-एयूसी, और हस्ताक्षरित अंतर सहित लागत क्रियाओं (त्रुटि रूपों) का एक अच्छा चिड़ियाघर है। formulize.nutonian.com/documentation/eureqa/general-reference/…
EngrStudent -

0

ऐसा लगता है कि लोग चौकों का उपयोग करते हैं क्योंकि यह रैखिक बीजगणित क्षेत्र के भीतर होने की अनुमति देता है और उत्तल अनुकूलन जैसे अन्य अधिक जटिल सामान को नहीं छूता है जो अधिक शक्तिशाली है, लेकिन यह अच्छा बंद-रूप समाधानों के बिना हमें हल करता है।

इस गणित क्षेत्र से भी विचार किया गया है, जिसका नाम उत्तल अनुकूलन है, बहुत अधिक नहीं फैला है।

"... हम वस्तुओं के वर्ग की परवाह क्यों करते हैं। ईमानदार होने के लिए क्योंकि हम इसका विश्लेषण कर सकते हैं ... यदि आप कहते हैं कि यह ऊर्जा के अनुरूप है और वे इसे खरीदते हैं तो जल्दी से आगे बढ़ें ...." - https: / /youtu.be/l1X4tOoIHYo?t=1416 , EE263, L8, 23:36।

यहाँ भी स्टीफन पी। बॉयड ने 2008 में वर्णन किया है कि लोग हथौड़ा और एडहॉक का उपयोग करते हैं: L20, 01:05:15 - https://youtu.be/qoCa7kMLXNg?t=3916


0

एक और बात:

p(t|x,w,β)=N(t|y(x,w),β1)
{x,t}w
p(t|x,w,β)=n=1NN(tn|y(xn,w),β1).
β2n=1N{y(xn,w)tn}2+N2lnβN2ln(2π)
wβ
12n=1N{y(xn,w)tn}2.
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.