कम से कम वर्गों के मामले में प्राकृतिक संख्या के प्रति पूर्वाग्रह


14

हम कम x^2से कम |x|^1.95या कम करने के लिए क्यों करना चाहते हैं |x|^2.05। क्या कारण हैं कि संख्या ठीक दो होनी चाहिए या यह केवल एक सम्मेलन है जिसमें गणित को सरल बनाने का लाभ है?

जवाबों:


5

यह प्रश्न काफी पुराना है, लेकिन मेरे पास वास्तव में एक उत्तर है जो यहां दिखाई नहीं देता है, और एक जो एक सम्मोहक कारण देता है (कुछ उचित मान्यताओं के तहत) चुकता त्रुटि सही है, जबकि कोई अन्य शक्ति गलत है।

कहें कि हमारे पास कुछ डेटा और रेखीय (या जो भी) फ़ंक्शन f को खोजना चाहते हैं, जो डेटा की सर्वश्रेष्ठ भविष्यवाणी करता है, इस अर्थ में कि इस डेटा को देखने के लिए प्रायिकता घनत्व p f ( D ) f के संबंध में अधिकतम होना चाहिए। (इसे कहा जाता हैD=(x1,y1),(x2,y2),...,(xn,yn)fpf(D)fअधिकतम संभावना अनुमान )। हम मानते हैं कि डेटा द्वारा दिया जाता है, तो प्लस मानक विचलन के साथ एक सामान्य रूप से वितरित त्रुटि अवधि σ , तो पी ( डी ) = n Π मैं = 1 1fσ यह1 केबराबर है

pf(D)=i=1n1σ2πe(yif(xi))22σ2.
तो अधिकतमpf(D) n i = 1 (yi-f(xi))2को कम करके पूरा किया जाता है, अर्थात चुकता त्रुटि शब्दों का योग।
1σn(2π)n/2e12σ2i=1n(yif(xi))2.
pf(D)i=1n(yif(xi))2

ऐसा लगता है कि परिपत्र, आपको सामान्य रूप से वितरित त्रुटि अवधि क्यों माननी चाहिए?
जो

@ जो आप हमेशा नहीं होना चाहिए, लेकिन अगर आप केवल एक ही चीज़ के बारे में जानते हैं कि यह त्रुटि शब्द है कि इसका मतलब 0 है और एक परिमित अपेक्षित पूर्ण मूल्य है, तो यह अधिकतम-एन्ट्रापी धारणा है, इसलिए यह जो कुछ भी अज्ञात है उसके लिए खड़ा हो सकता है त्रुटि फ़ंक्शन आपके पास वास्तव में है। यदि आपको त्रुटि वितरण के बारे में अतिरिक्त जानकारी है, तो मुझे लगता है कि आप इसका उपयोग कर सकते हैं और अधिक सटीक अधिकतम संभावना अनुमानक पा सकते हैं।

"यदि केवल एक चीज जो आप त्रुटि शब्द के बारे में जानते हैं, वह यह है कि इसका मतलब 0 है और एक परिमित अपेक्षित निरपेक्ष मूल्य है, तो यह अधिकतम-एन्ट्रॉपी धारणा है" - मैंने जो अधिकतम एन्ट्रापी वितरणों को देखा है उसकी हर व्युत्पत्ति लैप्स वितरण को व्युत्पन्न करती है। एक (ज्ञात) परिमित अपेक्षित मूल्य के लिए अधिकतम वितरण, जबकि गॉसियन एक (ज्ञात) परिमित अपेक्षित वर्ग निरपेक्ष मूल्य के लिए अधिकतम है , एक उदाहरण के रूप में देखें आंकड़े ।stackexchange.com/questions/82410- ... क्या आपके पास प्रशंसा पत्र हैं जो असहमत हैं ?
जो

तुम्हें पता है, मैं नहीं। मैं मानूंगा कि आप सही हैं। (हालांकि मैं किसी कारण से अपनी टिप्पणी संपादित करने का तरीका नहीं जान सकता)

14

कोई कारण नहीं है कि आप x ^ 2 के अलावा अन्य मानदंडों को कम करने की कोशिश नहीं कर सकते हैं, उदाहरण के लिए, मात्रात्मक प्रतिगमन पर पूरी किताबें लिखी गई हैं, जो कि कम या ज्यादा है | x | यदि आप माध्यिका के साथ काम कर रहे हैं। यह आमतौर पर करना मुश्किल है और, त्रुटि मॉडल के आधार पर, अच्छा अनुमानक नहीं दे सकता है (इस पर निर्भर करता है कि क्या इसका मतलब है कि संदर्भ में कम-भिन्नता या निष्पक्ष या कम एमएसई अनुमानक)।

जैसे कि हम वास्तविक-संख्या-मूल्यवान क्षणों में पूर्णांक के क्षणों को क्यों पसंद करते हैं, मुख्य कारण यह है कि वास्तविक संख्याओं की पूर्णांक शक्तियाँ हमेशा वास्तविक संख्याओं में परिणत होती हैं, नकारात्मक संख्याओं की गैर-पूर्णांक शक्तियाँ जटिल संख्याएँ बनाती हैं, इस प्रकार इसके उपयोग की आवश्यकता होती है एक निरपेक्ष मूल्य। दूसरे शब्दों में, जबकि एक वास्तविक-मूल्यवान यादृच्छिक चर का तीसरा क्षण वास्तविक है, 3.2 वां क्षण वास्तविक नहीं है, और इसलिए व्याख्या समस्याओं का कारण बनता है।

उसके अलावा...

  1. यादृच्छिक चर के पूर्णांक क्षणों के लिए विश्लेषणात्मक अभिव्यक्ति आम तौर पर वास्तविक-मूल्यवान क्षणों की तुलना में खोजने के लिए बहुत आसान है, यह फ़ंक्शन या कुछ अन्य विधि उत्पन्न करके हो सकता है। उन्हें कम से कम करने के तरीके इस प्रकार लिखना आसान है।
  2. पूर्णांक क्षणों का उपयोग उन अभिव्यक्तियों की ओर जाता है जो वास्तविक-मूल्यवान क्षणों की तुलना में अधिक ट्रैक्टेबल हैं।
  3. मैं एक सम्मोहक कारण के बारे में नहीं सोच सकता कि (उदाहरण के लिए) एक्स के निरपेक्ष मूल्य का 1.95 वां क्षण एक्स के दूसरे क्षण की तुलना में (उदाहरण के लिए) बेहतर फिटिंग गुण प्रदान करेगा, हालांकि यह जांच के लिए दिलचस्प हो सकता है।
  4. L2 मानदंड (या चुकता त्रुटि) के लिए विशिष्ट, यह डॉट उत्पादों के माध्यम से लिखा जा सकता है, जिससे गणना की गति में व्यापक सुधार हो सकता है। यह एकमात्र Lp स्पेस है जो हिल्बर्ट स्पेस है, जो कि एक अच्छी सुविधा है।

8

हम विवरणों के भीतर बचे विचरण को कम करने का प्रयास करते हैं। विचरण क्यों? इस प्रश्न को पढ़ें ; यह भी (ज्यादातर मौन) धारणा के साथ आता है कि त्रुटियों को सामान्य रूप से वितरित किया जाता है।

एक्सटेंशन:
दो अतिरिक्त तर्क:

  1. भिन्नताओं के लिए, हमारे पास यह अच्छा "कानून" है कि बिना भिन्न नमूनों के लिए भिन्नताओं का योग राशि के विचरण के बराबर है। अगर हम मानते हैं कि त्रुटि को मामले से संबद्ध नहीं किया गया है, तो चौकों के अवशिष्ट को कम करना स्पष्ट रूप से विचरण को अधिकतम करने के लिए सीधा काम करेगा, जो कि शायद इतना अच्छा नहीं है, लेकिन अभी भी लोकप्रिय गुणवत्ता माप है।

  2. यदि हम एक त्रुटि की सामान्यता मान लेते हैं, तो कम से कम वर्गों का त्रुटि अनुमानक एक अधिकतम संभावना है।


1
उस दूसरे सूत्र का उत्तर वास्तव में यह नहीं समझाता है कि 2 अन्य मानों की तुलना में बेहतर क्यों है जो कि 2 के बहुत निकट हैं लेकिन कोई प्राकृतिक संख्या नहीं हैं।
क्रिश्चियन

मुझे लगता है कि यह करता है; फिर भी मैं उत्तर का विस्तार करने की कोशिश करूंगा।

इसलिए, यदि त्रुटियों को सामान्य रूप से वितरित नहीं किया जाता है, लेकिन उदाहरण के लिए एक अन्य Lévy- स्थिर वितरण के अनुसार, यह 2 से अलग एक घातांक का उपयोग करने के लिए भुगतान कर सकता है?
रस्कोलनिकोव

याद रखें, ज्ञात वितरण के लिए सामान्य वितरण सबसे "सतर्क" होता है (क्योंकि निश्चित विचरण के साथ सभी घनत्वों में अधिकतम एन्ट्रापी होती है)। यह डेटा द्वारा कहा जाने वाला सबसे अधिक छोड़ देता है। या एक और तरीका है, एक ही विचरण के साथ "बड़े" डेटा सेट के लिए, "आप" को वितरण प्राप्त करने के लिए अविश्वसनीय रूप से कठिन "प्रयास" करना पड़ता है जो एक सामान्य से अलग होता है।
प्रोबेबिलिसलॉजिक

8

सामान्य कम से कम वर्गों में, (एए) ^ (- 1) x = ए'बी का समाधान चुकता त्रुटि हानि को कम करता है, और अधिकतम संभावना समाधान है।

इसलिए, बड़े पैमाने पर क्योंकि इस ऐतिहासिक मामले में गणित आसान था।

लेकिन आम तौर पर लोग कई अलग-अलग नुकसान कार्यों को कम करते हैं , जैसे घातीय, लॉजिस्टिक, कौची, लैप्लस, व्हीलर, आदि। इन अधिक विदेशी नुकसान कार्यों के लिए आमतौर पर बहुत सारे कम्प्यूटेशनल संसाधनों की आवश्यकता होती है, और बंद फॉर्म समाधान (सामान्य रूप से) नहीं होते हैं, इसलिए वे केवल अब और अधिक लोकप्रिय बनना शुरू कर रहे हैं।


1
नुकसान के विचार को शुरू करने के लिए +1। (लेकिन "घातीय" नहीं हैं, आदि, वितरण , हानि कार्य नहीं?) ऐतिहासिक रूप से रैखिक नुकसान 1750 में औपचारिक रूप से विकसित किया गया पहला दृष्टिकोण था, और इसके लिए एक सीधा ज्यामितीय समाधान उपलब्ध था। मेरा मानना ​​है कि लाप्लास ने 1809 के प्रकाशन में इसके और डबल-एक्सपोनेंशियल डिस्ट्रीब्यूशन के बीच संबंध स्थापित किया (जिसके लिए MLE पूर्ण त्रुटि को कम कर देगा, चुकता त्रुटि नहीं)। इस प्रकार चुकता नुकसान एक MLE होने और गणितीय रूप से आसान होने के मानदंड से विशिष्ट रूप से अलग नहीं है।
whuber

वे अलग-अलग संदर्भों में वितरण और नुकसान दोनों कार्य कर रहे हैं।
जो

मैंने पिछले उत्तर पर बहुत तेज़ी से प्रवेश किया - घातीय नुकसान व्यापक रूप से बूस्टिंग से जुड़ा हुआ है (देखें फ्रेडमैन हस्ती और टिब्शिरानी के सांख्यिकीय दृश्य बूस्टिंग), जहां यह एक वितरण के बजाय नुकसान है, लॉजिस्टिक रिग्रेशन लॉग्स लॉस के लिए, लैपल्स एक वितरण है लेकिन पूर्ण मूल्य हानि से मेल खाती है - इसलिए अधिकांश भाग के लिए मैं बहुत मैला हो रहा था, इसे इंगित करने के लिए धन्यवाद। लेकिन जब L1 के नुकसान का ज्यामितीय समाधान होता है, तो यह विश्लेषणात्मक रूप से बंद नहीं होता है, इसलिए मैं शायद ही इसके समाधान को आसान कहूंगा।
जो

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.