ओएलएस रैखिक प्रतिगमन में लागत समारोह


32

मशीन सीखने के बारे में कौरसेरा पर एंड्रयू एनजी द्वारा दिए गए रैखिक प्रतिगमन पर एक व्याख्यान से मैं थोड़ा भ्रमित हूं। वहां, उन्होंने एक लागत समारोह दिया जो योग के वर्गों को न्यूनतम करता है:

12mi=1m(hθ(X(i))Y(i))2

मैं समझता हूं कि कहां से आता है। मुझे लगता है कि उसने ऐसा किया है कि जब उसने वर्ग शब्द पर व्युत्पन्न किया, तो वर्ग अवधि में 2 आधे के साथ रद्द हो जाएगा। लेकिन मुझे समझ नहीं आ रहा है कि कहां से आता है।121m

हमें करने की आवश्यकता क्यों है ? मानक रैखिक प्रतिगमन में, हमारे पास यह नहीं है, हम बस अवशेषों को कम से कम करते हैं। हमें यहां इसकी आवश्यकता क्यों है?1m


1/2 मीटर डेटा बिंदु के अनुसार औसत त्रुटि खोजने में मदद करता है और मी कुल टिप्पणियों या टिप्पणियों की संख्या का प्रतिनिधित्व करता है।
कृष्णन आचार्य

जवाबों:


33

जैसा कि आप महसूस करते हैं, हमें निश्चित रूप से रैखिक प्रतिगमन प्राप्त करने के लिए कारक की आवश्यकता नहीं है । इसके साथ या इसके बिना, मिनिमाइज़र बिल्कुल समान होंगे। द्वारा सामान्य करने का एक विशिष्ट कारण यह है कि हम लागत फ़ंक्शन को "सामान्यीकरण त्रुटि" के सन्निकटन के रूप में देख सकते हैं, जो कि यादृच्छिक रूप से चुने गए नए उदाहरण पर अपेक्षित वर्ग हानि है (प्रशिक्षण सेट में नहीं):1/mm

मान लीजिए कि कुछ से आईड नमूना लिया गया है वितरण। फिर बड़े हम उम्मीद करते हैं कि (X,Y),(X(1),Y(1)),,(X(m),Y(m))m

1mi=1m(hθ(X(i))Y(i))2E(hθ(X)Y)2.

अधिक सटीक रूप से, बड़ी संख्याओं के मजबूत कानून द्वारा, हमारे पास प्रायिकता 1 के साथ।

limm1mi=1m(hθ(X(i))Y(i))2=E(hθ(X)Y)2

नोट: उपर्युक्त कथनों में से प्रत्येक प्रशिक्षण सेट को देखे बिना चुने गए किसी विशेष लिए है। मशीन लर्निंग के लिए, हम चाहते हैं कि ये स्टेटमेंट ट्रेनिंग सेट पर इसके अच्छे प्रदर्शन के आधार पर चुने गए कुछ लिए हों। ये दावे अभी भी इस मामले में पकड़ बना सकते हैं, हालांकि हमें कार्यों के सेट पर कुछ धारणाएं बनाने की जरूरत है , और हमें कानून की तुलना में कुछ मजबूत करने की आवश्यकता होगी। बड़ी संख्या में। θθ^{hθ|θΘ}


1
@StudentT यह शायद कुल मिलाकर औसत त्रुटि का उपयोग करने का सबसे अच्छा कारण है। मेरी व्याख्या वास्तव में डेविडआर के गहरे कारण की सतह के स्तर का परिणाम है।
मैथ्यू डॉरी

29

आपको नहीं करना है। हानि फ़ंक्शन में एक ही न्यूनतम है कि क्या आप या इसे दबाते हैं। यदि आप इसे शामिल करते हैं, तो आपको न्यूनतम त्रुटि (एक आधा) की औसत त्रुटि प्रति डेटा पॉइंट मिलती है। दूसरा तरीका रखो, आप कुल त्रुटि के बजाय त्रुटि दर को कम कर रहे हैं ।1m

विभिन्न आकारों के दो डेटा सेटों पर प्रदर्शन की तुलना करने पर विचार करें। चुकता त्रुटियों की कच्ची राशि सीधे तुलनीय नहीं है, क्योंकि बड़े डेटासेट में उनके आकार के कारण अधिक कुल त्रुटि होती है। दूसरी ओर, डाटापॉइंट के प्रति औसत त्रुटि है

क्या आप थोड़ा विस्तार कर सकते हैं?

ज़रूर। आपका डेटा सेट डेटा पॉइंट्स का एक संग्रह है । एक बार जब आप एक मॉडल , एक डेटा बिंदु पर के कम से कम वर्गों त्रुटि है{xi,yi}hh

(h(xi)yi)2

यह, निश्चित रूप से, प्रत्येक डेटापॉइंट के लिए अलग है। अब, यदि हम केवल त्रुटियों को जोड़ते हैं (और आपके द्वारा वर्णित कारण के लिए एक आधा गुणा करें) तो हमें कुल त्रुटि मिलती है

12i(h(xi)yi)2

लेकिन अगर हम सारांशों की संख्या से विभाजित करते हैं तो हमें प्रति डेटा बिंदु औसत त्रुटि मिलती है

12mi(h(xi)yi)2

औसत त्रुटि का लाभ यह है कि यदि हमारे पास दो डेटासेट और जो अलग-अलग आकारों के हैं , तो हम औसत त्रुटियों की तुलना कर सकते हैं लेकिन कुल त्रुटियों की नहीं। यदि दूसरा डेटा सेट है, तो कहें, पहले के आकार का दस गुना, तो हम एक ही मॉडल के लिए कुल त्रुटि दस गुना बड़ा होने की उम्मीद करेंगे। दूसरी ओर, औसत त्रुटि डेटा सेट के आकार के प्रभाव को विभाजित करती है, और इसलिए हम समान प्रदर्शन के मॉडल से विभिन्न डेटा सेटों पर समान औसत त्रुटियों के होने की उम्मीद करेंगे।{xi,yi}{xi,yi}


1
मैं आपका अनुसरण कर सकता हूं, क्या आप थोड़ा विस्तार कर सकते हैं? क्षमा करें, मैं मशीन सीखने के लिए नया हूँ!
स्मालचैट

@StudentT मैंने अपने उत्तर में स्पष्टीकरण देने का प्रयास किया।
मैथ्यू डॉरी

1
यह तब भी लागू होता है जब आप स्टोचैस्टिक ग्रेडिएंट डिसेंट करते समय मिनी-बैच के आकार के साथ प्रयोग करते हैं, जो कि बड़े डेटासेट के साथ काम करते समय सबसे सामान्य प्रकार के रैखिक ढाल वंश है: आप अधिक आसानी से त्रुटि की तुलना कर सकते हैं।
jasonszhao
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.