L1 प्रतिगमन औसत दर्जे का अनुमान लगाता है जबकि L2 प्रतिगमन अनुमानों का मतलब है?


24

इसलिए मुझसे एक सवाल पूछा गया कि केंद्रीय उपाय L1 (यानी, लासो) और L2 (यानी रिज रिग्रेशन) का अनुमान है। इसका उत्तर L1 = माध्यिका और L2 = माध्य है। क्या इसका किसी प्रकार का सहज तर्क है? या क्या यह बीजगणितीय रूप से निर्धारित किया जाना है? यदि हां, तो मैं इसे कैसे करूं?


4
L1 / L2 द्वारा आप उद्देश्य फ़ंक्शन या बाधाओं का उल्लेख कर रहे हैं? यदि वस्तुनिष्ठ कार्य है तो हाँ L1 त्रुटि सशर्त माध्यिका और L2 सशर्त माध्य के साथ कम से कम है। यदि अड़चनें (किस रिज / लास्सो का उल्लेख है) तो यह इस बारे में सोचने का गलत तरीका है। उनकी "केंद्रीय उपायों" अभी भी एक सशर्त मतलब के लिए लेकिन पर अलग दंड के साथ लक्ष्य β
मुराटो

जवाबों:


24

L1 हानि फ़ंक्शन माध्यिका को क्यों देता है, इसके लिए एक सरल ज्यामितीय व्याख्या है।

याद रखें कि हम एक आयाम में काम कर रहे हैं, इसलिए क्षैतिज रूप से फैलने वाली एक संख्या रेखा की कल्पना करें। नंबर लाइन पर प्रत्येक डेटा बिंदुओं को प्लॉट करें। अपनी उंगली कहीं लाइन पर रखो; आपकी उंगली आपके वर्तमान उम्मीदवार का अनुमान होगी।

मान लीजिए कि आप अपनी उंगली को दाईं ओर थोड़ा-सा , तो दाईं ओर finger δइकाइयाँ कहें । कुल नुकसान क्या होता है? ठीक है, अगर अपनी उंगली दो डेटा बिंदुओं के बीच था, और आप एक डेटा बिंदु के पार ले जाते हैं, आप कुल नुकसान से बढ़ा दिया है δ प्रत्येक डेटा बिंदु के लिए अपनी उंगली के लिए छोड़ दिया करने के लिए, और से यह कमी आई δ करने के लिए प्रत्येक डेटा बिंदु के लिए अपनी उंगली का अधिकार। इसलिए, यदि आपकी उंगली के दाईं ओर अधिक डेटा बिंदु हैं, जहां बाईं ओर हैं, तो अपनी उंगली को दाईं ओर ले जाने से कुल नुकसान कम हो जाता है। दूसरे शब्दों में, यदि आधे से अधिक डेटा बिंदु आपकी उंगली के दाईं ओर हैं, तो आपको अपनी उंगली को दाईं ओर ले जाना चाहिए।

यह आपको अपनी उंगली को एक ऐसे स्थान की ओर ले जाता है, जहां डेटा बिंदुओं में से आधे उस स्थान पर होते हैं, और आधे दाईं ओर होते हैं। वह स्थान मध्यमा है।

वह L1 और मंझला है। दुर्भाग्य से, मेरे पास L2 और माध्य के लिए एक समान, "सभी अंतर्ज्ञान, कोई बीजगणित" स्पष्टीकरण नहीं है।


7
यदि हम एक सरल बिंदु अनुमान के बारे में बात कर रहे हैं तो यह सीधा परिकलन है। ddβ1ni=1n(yiβ)2=21ni=1n(yiβ)=0β=1niyमैं
muratoa

3
@ मूरतोआ, हां, मैं पथरी की व्युत्पत्ति जानता हूं, लेकिन सवाल विशेष रूप से एक स्पष्टीकरण के लिए पूछता है जो अंतर्ज्ञान पर केंद्रित है और बीजगणित से बचा जाता है। मुझे लगता है कि सवाल पूछने वाला कैलकुलस व्युत्पत्ति को पहले से जानता है, लेकिन ऐसी चीज की तलाश कर रहा है जो अधिक अंतर्ज्ञान प्रदान करती है।
DW

मैंने सोचा था कि ओपी ने प्रतिगमन का उल्लेख किया है जो बताता है कि वह y दिए गए x के अनुमान के बारे में बात कर रहा है जो कम से कम वर्गों का उपयोग करने वाला एक सशर्त साधन है और औसत निरपेक्ष त्रुटि के लिए सशर्त माध्यिका है। एक ही स्पष्टीकरण पर काम करना चाहिए लेकिन समस्या थोड़ी अलग है। माध्य के लिए पथरी स्पष्टीकरण बहुत स्पष्ट और सीधा है। माध्य के लिए डीडब्ल्यू के लिए शायद इसी तरह से माध्य के लिए स्पष्टीकरण दिया जा सकता है। नमूना माध्य जनसंख्या माध्य के लिए एक निष्पक्ष अनुमान है।
माइकल आर। चेरिक

जब आप अनुमान को नमूने से दूर ले जाते हैं तो पूर्वाग्रह में वृद्धि के कारण माध्य वर्ग त्रुटि में परिवर्तन होता है। माध्य वर्ग की त्रुटि वास्तव में d 2 से बढ़ जाती है जब अनुमान नमूने में d को जोड़ता है जैसा कि उम्मीदवार का अनुमान है। 2
माइकल आर। चेरिक

11
मुराटो द्वारा दिए गए बीजगणित का एक त्वरित और गंदा संस्करण एल 1 मामले के लिए मौजूद है। निरीक्षण करें कि सिवाय , के व्युत्पन्न | y i - β | wrt β है - रों जी एन ( y मैं - β ) , यह है कि - 1 अगर β < y मैं और + 1 अगर β > y मैं । तो डीβ=yi|yiβ|βsgn(yiβ)1β<yi+1β>yi , को छोड़कर जब β एक है y मैं । व्युत्पन्न गायब हो जाती है जब वहाँ के बीच सकारात्मक और नकारात्मक शब्दों का एक ही नंबर है y मैं - β , जो मोटे तौर बोल उठता है जब β की औसत है y मैंddβ1ni|yiβ|=1nisgn(yiβ)βyiyiββyi
यव्स

17

यह विवरण DW के जवाब पर मुराटो और यवेस की टिप्पणियों का एक सारांश है । यद्यपि यह कैलकुलस पर आधारित है, मैंने इसे सरल और समझने में आसान पाया।

मान लें कि हमारे पास और एक नया अनुमान प्राप्त करना चाहते हैं β उन पर आधारित। छोटी से छोटी नुकसान जब हम पाते हैं प्राप्त किया जाता है β जो शून्य करने के लिए नुकसान के व्युत्पन्न बनाता है।y1,y2,...ykββ

L1 की हानि

L

L1=1ki=1k|yiβ|
रोंजीएन(yमैं-β)1 है जबyमैं>β, -1 जबyमैं<β। 0 को व्युत्पन्न बराबर है जब वहाँ के बीच सकारात्मक और नकारात्मक शब्दों का एक ही नंबर हैyमैं-β, जो साधनβकी औसत होना चाहिएyमैं
L1β=1ki=1ksgn(yiβ)
sgn(yiβ)yi>βyi<βyiββyi

L2 की हानि

L2=1ki=1k(yiβ)2
L2β=2ki=1k(yiβ)
L2β=0β=1ki=1kyi

So to minimize L2 loss, β should be the mean of yi.

3

एक और भी अधिक व्यावहारिक उदाहरण (L2 हानि फ़ंक्शन के लिए) के साथ DW के उत्तर को जोड़ना:

4 घरों से बने एक छोटे से गाँव की कल्पना करें, जो एक दूसरे के करीब हो (जैसे 10 मीटर)। उन लोगों से 1 किलोमीटर की दूरी पर, आपके पास एक और बहुत अलग घर है। अब, आप उस शहर में पहुंचते हैं और अपना घर बनाना चाहते हैं। आप दूसरे घरों के करीब रहना चाहते हैं और हर किसी के साथ दोस्ती करते हैं। उन दो वैकल्पिक परिदृश्यों पर विचार करें:

  1. आप उस स्थान पर होने का निर्णय लेते हैं, जहां किसी भी घर की औसत दूरी सबसे छोटी है (यानी एक L1 नुकसान फ़ंक्शन को कम करना)।

    • यदि आप अपना घर गाँव के केंद्र में रखते हैं, तो आप एक घर से 4 घरों और 1 किलोमीटर दूर लगभग 10 मीटर दूर होंगे, जो आपको लगभग 200 मीटर (10 + 10 + 10 + 10 + 10 + 1000) की औसत दूरी देता है / ५)।
    • यदि आप अपना घर गाँव से 500 मीटर की दूरी पर रखते हैं, तो आप 5 घरों से लगभग 500 मीटर दूर होंगे, जिससे आपको औसतन 500 मीटर की दूरी तय करनी होगी।
    • यदि आप अपना घर अलग घर के बगल में रखते हैं, तो आप गाँव (4 घर) से 1 किमी दूर और 1 घर से लगभग 10 मीटर दूर होंगे, जो आपको लगभग 800 मीटर की औसत दूरी प्रदान करता है।

    तो गांव में अपना घर बनाने से सबसे कम औसत 100 मीटर की दूरी तय की जाती है। अधिक विशेष रूप से, आप इन 4 घरों के मध्य में अपना घर बनाएंगे, औसत दूरी के कुछ और मीटर हासिल करने के लिए। और यह पता चला है कि यह बिंदु " औसत बिंदु " है, जिसे आपने समान रूप से माध्यिका सूत्र का उपयोग करके प्राप्त किया होगा।

  2. आप एक लोकतांत्रिक दृष्टिकोण लेने का फैसला करते हैं। आप अपने पांच भावी पड़ोसियों से अपने नए घर के लिए उनका पसंदीदा स्थान पूछते हैं। वे सभी आपको पसंद करते हैं और चाहते हैं कि आप उनके करीब रहें। इसलिए वे सभी अपने पसंदीदा स्थान को अपने घर के ठीक बगल में स्थित होना बताते हैं। आप अपने पांच पड़ोसियों के सभी मतदान स्थानों का औसत लेते हैं, और परिणाम "गाँव से 200 मीटर दूर" (वोटों का औसत: 0 + 0 + 0 + 0 + 1000/5 = 200) है, जो है 5 घरों के " माध्य बिंदु ", जो आपने समान सूत्र का उपयोग करके प्राप्त किए होंगे। और यह स्थान ठीक वैसा ही निकलता है जो वर्ग दूरी (यानी L2 हानि फ़ंक्शन) के योग की नकल करता है। चलो इसे देखने के लिए सिर्फ गणित करते हैं:
    • इस स्थान पर, वर्ग दूरी का योग है: 200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 800 ^ 2 = 800 000
    • अगर हम गाँव के केंद्र में घर बनाते हैं, तो हमारी वर्गीय दूरी होगी: 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 1000 ^ 2 = 1 000 000
    • यदि हम गाँव से १०० मीटर की दूरी पर घर बनाते हैं (जैसे १ में), चुकता दूरी का योग है: १०० ^ २ + १०० ^ २ + १०० ^ २ + १०० ^ २ + ९०० ^ २ = 000५० ०००
    • यदि हम अलग-अलग घर से 100 मीटर की दूरी पर घर बनाते हैं, तो चौकोर दूरी का योग है: 900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 100 ^ 2 = 3 250 000

तो हां, यह ध्यान रखना दिलचस्प है कि, थोड़ा प्रति-सहज रूप से, जब हम दूरियों के योग को कम करते हैं, तो हम माध्य के अर्थ में "मध्य" में नहीं होते हैं, लेकिन अर्थ में मंझला। यह इस कारण का कारण है कि सबसे लोकप्रिय प्रतिगमन मॉडल में से एक ओएलएस, पूर्ण त्रुटियों के बजाय चुकता त्रुटियों का उपयोग करता है।


1

In addition to the already-posted answers (which have been very helpful to me!), there is a geometric explanation for the connection between the L2 norm and the mean.

To use the same notation as chefwen, the formula for L2 loss is:

L2=1ki=1k(yiβ)2

We wish to find the value of β which minimizes L2. Notice that this is equivalent to minimizing the following, since multiplying by k and taking the square root both preserve order:

i=1k(yiβ)2

If you consider the data vector y as a point in k-dimensional space, this formula calculates the Euclidean distance between the point y and the point β=(β,β,...,β).

So the problem is to find the value β which minimizes the Euclidean distance between the points y and β. Since the possible values of β all lie on the line parallel to 1=(1,1,...,1) by definition, this is equivalent to finding the vector projection of y onto 1.

It's only really possible to visualize this when k=2, but here is an example where y=(2,6). As shown, projecting onto 1 yields (4,4) as we expect.

the vector y projected onto beta

To show that this projection always yields the mean (including when k>2), we can apply the formula for projection:

β=proj1y=y1|1|21β=i=1kyik
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.