L1 प्रतिगमन औसत दर्जे का अनुमान लगाता है जबकि L2 प्रतिगमन अनुमानों का मतलब है?

24

इसलिए मुझसे एक सवाल पूछा गया कि केंद्रीय उपाय L1 (यानी, लासो) और L2 (यानी रिज रिग्रेशन) का अनुमान है। इसका उत्तर L1 = माध्यिका और L2 = माध्य है। क्या इसका किसी प्रकार का सहज तर्क है? या क्या यह बीजगणितीय रूप से निर्धारित किया जाना है? यदि हां, तो मैं इसे कैसे करूं?

— Bstat
स्रोत

4

L1 / L2 द्वारा आप उद्देश्य फ़ंक्शन या बाधाओं का उल्लेख कर रहे हैं? यदि वस्तुनिष्ठ कार्य है तो हाँ L1 त्रुटि सशर्त माध्यिका और L2 सशर्त माध्य के साथ कम से कम है। यदि अड़चनें (किस रिज / लास्सो का उल्लेख है) तो यह इस बारे में सोचने का गलत तरीका है। उनकी "केंद्रीय उपायों" अभी भी एक सशर्त मतलब के लिए लेकिन पर अलग दंड के साथ लक्ष्य

β

$\beta$ ।

— मुराटो

24

L1 हानि फ़ंक्शन माध्यिका को क्यों देता है, इसके लिए एक सरल ज्यामितीय व्याख्या है।

याद रखें कि हम एक आयाम में काम कर रहे हैं, इसलिए क्षैतिज रूप से फैलने वाली एक संख्या रेखा की कल्पना करें। नंबर लाइन पर प्रत्येक डेटा बिंदुओं को प्लॉट करें। अपनी उंगली कहीं लाइन पर रखो; आपकी उंगली आपके वर्तमान उम्मीदवार का अनुमान होगी।

मान लीजिए कि आप अपनी उंगली को दाईं ओर थोड़ा-सा , तो दाईं ओर finger $\delta$ इकाइयाँ कहें । कुल नुकसान क्या होता है? ठीक है, अगर अपनी उंगली दो डेटा बिंदुओं के बीच था, और आप एक डेटा बिंदु के पार ले जाते हैं, आप कुल नुकसान से बढ़ा दिया है $\delta$ प्रत्येक डेटा बिंदु के लिए अपनी उंगली के लिए छोड़ दिया करने के लिए, और से यह कमी आई $\delta$ करने के लिए प्रत्येक डेटा बिंदु के लिए अपनी उंगली का अधिकार। इसलिए, यदि आपकी उंगली के दाईं ओर अधिक डेटा बिंदु हैं, जहां बाईं ओर हैं, तो अपनी उंगली को दाईं ओर ले जाने से कुल नुकसान कम हो जाता है। दूसरे शब्दों में, यदि आधे से अधिक डेटा बिंदु आपकी उंगली के दाईं ओर हैं, तो आपको अपनी उंगली को दाईं ओर ले जाना चाहिए।

यह आपको अपनी उंगली को एक ऐसे स्थान की ओर ले जाता है, जहां डेटा बिंदुओं में से आधे उस स्थान पर होते हैं, और आधे दाईं ओर होते हैं। वह स्थान मध्यमा है।

वह L1 और मंझला है। दुर्भाग्य से, मेरे पास L2 और माध्य के लिए एक समान, "सभी अंतर्ज्ञान, कोई बीजगणित" स्पष्टीकरण नहीं है।

— DW
स्रोत

7

यदि हम एक सरल बिंदु अनुमान के बारे में बात कर रहे हैं तो यह सीधा परिकलन है।

\frac{d}{d β} \frac{1}{n} \sum_{i = 1}^{n} (y_{i} - β)^{2} = - 2 \frac{1}{n} \sum_{i = 1}^{n} (y_{i} - β) = 0 \Rightarrow β = \frac{1}{n} \sum_{i} y_{i}

$\frac{d}{d \beta} \frac{1}{n}\sum_{i=1}^n (y_i - \beta)^2 = -2\frac{1}{n}\sum_{i=1}^n(y_i - \beta) = 0 \Rightarrow \beta = \frac{1}{n}\sum_i y_i$

— muratoa

3

@ मूरतोआ, हां, मैं पथरी की व्युत्पत्ति जानता हूं, लेकिन सवाल विशेष रूप से एक स्पष्टीकरण के लिए पूछता है जो अंतर्ज्ञान पर केंद्रित है और बीजगणित से बचा जाता है। मुझे लगता है कि सवाल पूछने वाला कैलकुलस व्युत्पत्ति को पहले से जानता है, लेकिन ऐसी चीज की तलाश कर रहा है जो अधिक अंतर्ज्ञान प्रदान करती है।

— DW

मैंने सोचा था कि ओपी ने प्रतिगमन का उल्लेख किया है जो बताता है कि वह y दिए गए x के अनुमान के बारे में बात कर रहा है जो कम से कम वर्गों का उपयोग करने वाला एक सशर्त साधन है और औसत निरपेक्ष त्रुटि के लिए सशर्त माध्यिका है। एक ही स्पष्टीकरण पर काम करना चाहिए लेकिन समस्या थोड़ी अलग है। माध्य के लिए पथरी स्पष्टीकरण बहुत स्पष्ट और सीधा है। माध्य के लिए डीडब्ल्यू के लिए शायद इसी तरह से माध्य के लिए स्पष्टीकरण दिया जा सकता है। नमूना माध्य जनसंख्या माध्य के लिए एक निष्पक्ष अनुमान है।

— माइकल आर। चेरिक

जब आप अनुमान को नमूने से दूर ले जाते हैं तो पूर्वाग्रह में वृद्धि के कारण माध्य वर्ग त्रुटि में परिवर्तन होता है। माध्य वर्ग की त्रुटि वास्तव में d

बढ़ जाती है जब अनुमान नमूने में d को जोड़ता है जैसा कि उम्मीदवार का अनुमान है।

^{2}

$^2$

— माइकल आर। चेरिक

11

मुराटो द्वारा दिए गए बीजगणित का एक त्वरित और गंदा संस्करण एल 1 मामले के लिए मौजूद है। निरीक्षण करें कि सिवाय

, के व्युत्पन्न

wrt

है

, यह है कि

अगर

और

अगर

। तो

β = y_{i}

$\beta = y_i$

| y_{i} - β |

$| y_i -\beta |$

β

$\beta$

- s g n (y_{i} - β)

$-\mathrm{sgn}(y_i-\beta)$

- 1

$-1$

β < y_{i}

$\beta < y_i$

+ 1

$+1$

β > y_{i}

$\beta > y_i$

, को छोड़कर जब

एक है

। व्युत्पन्न गायब हो जाती है जब वहाँ के बीच सकारात्मक और नकारात्मक शब्दों का एक ही नंबर है

, जो मोटे तौर बोल उठता है जब

की औसत है

।

\frac{d}{d β} \frac{1}{n} \sum_{i} | y_{i} - β | = - \frac{1}{n} \sum_{i} s g n (y_{i} - β)

$\frac{\mathrm{d}}{\mathrm{d}\beta} \,\frac{1}{n}\sum_i | y_i -\beta | = -\frac{1}{n}\,\sum_i \mathrm{sgn}(y_i-\beta)$

β

$\beta$

y_{i}

$y_i$

y_{i} - β

$y_i-\beta$

β

$\beta$

y_{i}

$y_i$

— यव्स

17

यह विवरण DW के जवाब पर मुराटो और यवेस की टिप्पणियों का एक सारांश है । यद्यपि यह कैलकुलस पर आधारित है, मैंने इसे सरल और समझने में आसान पाया।

मान लें कि हमारे पास और एक नया अनुमान प्राप्त करना चाहते हैं उन पर आधारित। छोटी से छोटी नुकसान जब हम पाते हैं प्राप्त किया जाता है जो शून्य करने के लिए नुकसान के व्युत्पन्न बनाता है। $y_1, y_2, ... y_k$ $\beta$ $\beta$

L1 की हानि

L 1 = \frac{1}{k} \sum_{i = 1}^{k} | y_{i} - β |

$L1=\frac{1}{k}\sum_{i=1}^k|y_i-\beta|$

1 है जब

, -1 जब

। 0 को व्युत्पन्न बराबर है जब वहाँ के बीच सकारात्मक और नकारात्मक शब्दों का एक ही नंबर है

, जो साधन

की औसत होना चाहिए

।

\frac{\partial L_{1}}{\partial β} = - \frac{1}{k} \sum_{i = 1}^{k} s g n (y_{i} - β)

$\frac{\partial L_1}{\partial\beta}=-\frac{1}{k}\sum_{i=1}^k sgn(y_i-\beta)$

s g n (y_{i} - β)

$sgn(y_i-\beta)$

y_{i} > β

$y_i>\beta$

y_{i} < β

$y_i<\beta$

y_{i} - β

$y_i-\beta$

β

$\beta$

y_{i}

$y_i$

L2 की हानि

L 2 = \frac{1}{k} \sum_{i = 1}^{k} (y_{i} - β)^{2}

$L2=\frac{1}{k}\sum_{i=1}^k(y_i-\beta)^2$

\frac{\partial L_{2}}{\partial β} = - \frac{2}{k} \sum_{i = 1}^{k} (y_{i} - β)

$\frac{\partial L_2}{\partial\beta}=-\frac{2}{k}\sum_{i=1}^k(y_i-\beta)$

\frac{\partial L_{2}}{\partial β} = 0 \to β = \frac{1}{k} \sum_{i = 1}^{k} y_{i}

$\frac{\partial L_2}{\partial\beta}=0\rightarrow\beta=\frac{1}{k}\sum_{i=1}^k y_i$
So to minimize L2 loss,

β

$\beta$ should be the mean of

y_{i}

$y_i$ .

— chefwen
स्रोत

3

एक और भी अधिक व्यावहारिक उदाहरण (L2 हानि फ़ंक्शन के लिए) के साथ DW के उत्तर को जोड़ना:

4 घरों से बने एक छोटे से गाँव की कल्पना करें, जो एक दूसरे के करीब हो (जैसे 10 मीटर)। उन लोगों से 1 किलोमीटर की दूरी पर, आपके पास एक और बहुत अलग घर है। अब, आप उस शहर में पहुंचते हैं और अपना घर बनाना चाहते हैं। आप दूसरे घरों के करीब रहना चाहते हैं और हर किसी के साथ दोस्ती करते हैं। उन दो वैकल्पिक परिदृश्यों पर विचार करें:

आप उस स्थान पर होने का निर्णय लेते हैं, जहां किसी भी घर की औसत दूरी सबसे छोटी है (यानी एक L1 नुकसान फ़ंक्शन को कम करना)।
- यदि आप अपना घर गाँव के केंद्र में रखते हैं, तो आप एक घर से 4 घरों और 1 किलोमीटर दूर लगभग 10 मीटर दूर होंगे, जो आपको लगभग 200 मीटर (10 + 10 + 10 + 10 + 10 + 1000) की औसत दूरी देता है / ५)।
- यदि आप अपना घर गाँव से 500 मीटर की दूरी पर रखते हैं, तो आप 5 घरों से लगभग 500 मीटर दूर होंगे, जिससे आपको औसतन 500 मीटर की दूरी तय करनी होगी।
- यदि आप अपना घर अलग घर के बगल में रखते हैं, तो आप गाँव (4 घर) से 1 किमी दूर और 1 घर से लगभग 10 मीटर दूर होंगे, जो आपको लगभग 800 मीटर की औसत दूरी प्रदान करता है।
तो गांव में अपना घर बनाने से सबसे कम औसत 100 मीटर की दूरी तय की जाती है। अधिक विशेष रूप से, आप इन 4 घरों के मध्य में अपना घर बनाएंगे, औसत दूरी के कुछ और मीटर हासिल करने के लिए। और यह पता चला है कि यह बिंदु " औसत बिंदु " है, जिसे आपने समान रूप से माध्यिका सूत्र का उपयोग करके प्राप्त किया होगा।
आप एक लोकतांत्रिक दृष्टिकोण लेने का फैसला करते हैं। आप अपने पांच भावी पड़ोसियों से अपने नए घर के लिए उनका पसंदीदा स्थान पूछते हैं। वे सभी आपको पसंद करते हैं और चाहते हैं कि आप उनके करीब रहें। इसलिए वे सभी अपने पसंदीदा स्थान को अपने घर के ठीक बगल में स्थित होना बताते हैं। आप अपने पांच पड़ोसियों के सभी मतदान स्थानों का औसत लेते हैं, और परिणाम "गाँव से 200 मीटर दूर" (वोटों का औसत: 0 + 0 + 0 + 0 + 1000/5 = 200) है, जो है 5 घरों के " माध्य बिंदु ", जो आपने समान सूत्र का उपयोग करके प्राप्त किए होंगे। और यह स्थान ठीक वैसा ही निकलता है जो वर्ग दूरी (यानी L2 हानि फ़ंक्शन) के योग की नकल करता है। चलो इसे देखने के लिए सिर्फ गणित करते हैं:
- इस स्थान पर, वर्ग दूरी का योग है: 200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 800 ^ 2 = 800 000
- अगर हम गाँव के केंद्र में घर बनाते हैं, तो हमारी वर्गीय दूरी होगी: 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 1000 ^ 2 = 1 000 000
- यदि हम गाँव से १०० मीटर की दूरी पर घर बनाते हैं (जैसे १ में), चुकता दूरी का योग है: १०० ^ २ + १०० ^ २ + १०० ^ २ + १०० ^ २ + ९०० ^ २ = 000५० ०००
- यदि हम अलग-अलग घर से 100 मीटर की दूरी पर घर बनाते हैं, तो चौकोर दूरी का योग है: 900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 100 ^ 2 = 3 250 000

तो हां, यह ध्यान रखना दिलचस्प है कि, थोड़ा प्रति-सहज रूप से, जब हम दूरियों के योग को कम करते हैं, तो हम माध्य के अर्थ में "मध्य" में नहीं होते हैं, लेकिन अर्थ में मंझला। यह इस कारण का कारण है कि सबसे लोकप्रिय प्रतिगमन मॉडल में से एक ओएलएस, पूर्ण त्रुटियों के बजाय चुकता त्रुटियों का उपयोग करता है।

— Jonathan Zimmermann
स्रोत

1

In addition to the already-posted answers (which have been very helpful to me!), there is a geometric explanation for the connection between the L2 norm and the mean.

To use the same notation as chefwen, the formula for L2 loss is:

L 2 = \frac{1}{k} \sum_{i = 1}^{k} (y_{i} - β)^{2}

$L2 = \frac{1}{k} \sum^{k}_{i=1} (y_i - \beta)^2$

We wish to find the value of $\beta$ which minimizes $L2$ . Notice that this is equivalent to minimizing the following, since multiplying by $k$ and taking the square root both preserve order:

\sqrt{\sum_{i = 1}^{k} (y_{i} - β)^{2}}

$\sqrt { \sum^{k}_{i=1} (y_i - \beta)^2 }$

If you consider the data vector $y$ as a point in $k$ -dimensional space, this formula calculates the Euclidean distance between the point $y$ and the point $\vec{\beta} = (\beta, \beta, ..., \beta)$ .

So the problem is to find the value $\beta$ which minimizes the Euclidean distance between the points $y$ and $\vec{\beta}$ . Since the possible values of $\vec{\beta}$ all lie on the line parallel to $\vec{1} = (1, 1, ..., 1)$ by definition, this is equivalent to finding the vector projection of $y$ onto $\vec{1}$ .

It's only really possible to visualize this when $k = 2$ , but here is an example where $y = (2, 6)$ . As shown, projecting onto $\vec{1}$ yields $(4, 4)$ as we expect.

To show that this projection always yields the mean (including when $k > 2$ ), we can apply the formula for projection:

\begin{aligned} \vec{β} & = {proj}_{\vec{1}} y \\ = \frac{y \cdot \vec{1}}{| \vec{1} |^{2}} \vec{1} \\ β & = \frac{\sum_{i = 1}^{k} y_{i}}{k} \end{aligned}

$\begin{alignat}{2} \vec{\beta} &= \operatorname{proj}_{\vec{1}}{y} \\ &= \frac{y \cdot \vec{1}}{|\vec{1}|^2}\vec{1} \\ \beta &= \frac{\sum^k_{i=1} y_i}{k} \end{alignat}$

— paul
स्रोत