प्रश्न बहुत सरल है: क्यों, जब हम अपने डेटा को रैखिक या गैर-रैखिक के लिए एक मॉडल फिट करने की कोशिश करते हैं, तो क्या हम आमतौर पर मॉडल पैरामीटर के लिए हमारे अनुमानक को प्राप्त करने के लिए त्रुटियों के वर्गों का योग कम करने की कोशिश करते हैं? न्यूनतम करने के लिए कुछ अन्य उद्देश्य फ़ंक्शन क्यों नहीं चुना जाता है? मैं समझता हूं कि, तकनीकी कारणों से, द्विघात फ़ंक्शन कुछ अन्य कार्यों की तुलना में अच्छा है, उदाहरण के लिए, पूर्ण विचलन का योग। लेकिन यह अभी भी बहुत ठोस जवाब नहीं है। इस तकनीकी कारण के अलावा, विशेष रूप से लोग दूरस्थ कार्य के इस 'यूक्लिडियन प्रकार' के पक्ष में क्यों हैं? क्या उसके लिए कोई विशिष्ट अर्थ या व्याख्या है?
मेरी सोच के पीछे का तर्क निम्नलिखित है:
जब आपके पास एक डेटासेट होता है, तो आप पहले अपने मॉडल को कार्यात्मक या वितरण संबंधी मान्यताओं का एक सेट बनाकर कहते हैं (कहते हैं, कुछ पल की स्थिति लेकिन संपूर्ण वितरण नहीं)। आपके मॉडल में, कुछ पैरामीटर हैं (मान लें कि यह पैरामीट्रिक मॉडल है), तो आपको इन मापदंडों का लगातार अनुमान लगाने का एक तरीका खोजने की जरूरत है और उम्मीद है, आपके अनुमानक के पास कम विचरण और कुछ अन्य अच्छे गुण होंगे। चाहे आप एसएसई या एलएडी या कुछ अन्य उद्देश्य समारोह को कम करते हैं, मुझे लगता है कि वे एक सुसंगत अनुमानक प्राप्त करने के लिए सिर्फ अलग-अलग तरीके हैं। इस तर्क के बाद, मैंने सोचा कि लोग कम से कम वर्ग का उपयोग करें 1) यह मॉडल 2 के संगत अनुमानक का उत्पादन करता है) कुछ और जो मुझे नहीं पता है।
अर्थमिति में, हम जानते हैं कि रेखीय प्रतिगमन मॉडल में, यदि आप मानते हैं कि त्रुटि की स्थिति में पूर्वसूचक और समरूपता पर 0 मतलब कंडीशनिंग है और त्रुटियां एक दूसरे के साथ असंबंधित हैं, तो वर्ग त्रुटि का योग कम से कम आपको आपके मॉडल का एक अनुमानक अनुमानक देगा। पैरामीटर और गॉस-मार्कोव प्रमेय द्वारा, यह अनुमानक BLUE है। तो यह सुझाव देगा कि यदि आप कुछ अन्य उद्देश्य फ़ंक्शन को कम से कम चुनना चाहते हैं जो एसएसई नहीं है, तो इस बात की कोई गारंटी नहीं है कि आपको अपने मॉडल पैरामीटर का एक सुसंगत अनुमानक मिलेगा। क्या मेरी समझ सही है? यदि यह सही है, तो एसएसई को कम करने के बजाय कुछ अन्य उद्देश्य फ़ंक्शन को संगति द्वारा उचित ठहराया जा सकता है, जो स्वीकार्य है, वास्तव में, द्विघात फ़ंक्शन को अच्छा कहने से बेहतर है।
Pratice में, मैंने वास्तव में कई मामलों को देखा, जहां लोग सीधे पहले मॉडल को स्पष्ट रूप से निर्दिष्ट किए बिना वर्ग त्रुटियों की राशि को कम कर देते हैं, उदाहरण के लिए, त्रुटि शब्द पर वितरण संबंधी धारणाएं (पल धारणाएं)। तब मुझे यह प्रतीत होता है कि इस पद्धति का उपयोगकर्ता बस यह देखना चाहता है कि वर्ग दूरी फ़ंक्शन के संदर्भ में डेटा 'मॉडल' के करीब कैसे आता है (मैं उद्धरण चिह्नों का उपयोग करता हूं क्योंकि मॉडल की धारणाएं शायद अधूरी हैं)।
एक संबंधित प्रश्न (इस वेबसाइट से संबंधित) भी है: क्यों, जब हम क्रॉस-वैलिडेशन का उपयोग करके विभिन्न मॉडलों की तुलना करने की कोशिश करते हैं, तो क्या हम फिर से एसएसई का उपयोग न्याय मानदंड के रूप में करते हैं? यानी, वह मॉडल चुनें जिसमें कम से कम SSE हो? एक और कसौटी क्यों नहीं?