आपको नहीं करना है। हानि फ़ंक्शन में एक ही न्यूनतम है कि क्या आप या इसे दबाते हैं। यदि आप इसे शामिल करते हैं, तो आपको न्यूनतम त्रुटि (एक आधा) की औसत त्रुटि प्रति डेटा पॉइंट मिलती है। दूसरा तरीका रखो, आप कुल त्रुटि के बजाय त्रुटि दर को कम कर रहे हैं ।1m
विभिन्न आकारों के दो डेटा सेटों पर प्रदर्शन की तुलना करने पर विचार करें। चुकता त्रुटियों की कच्ची राशि सीधे तुलनीय नहीं है, क्योंकि बड़े डेटासेट में उनके आकार के कारण अधिक कुल त्रुटि होती है। दूसरी ओर, डाटापॉइंट के प्रति औसत त्रुटि है ।
क्या आप थोड़ा विस्तार कर सकते हैं?
ज़रूर। आपका डेटा सेट डेटा पॉइंट्स का एक संग्रह है । एक बार जब आप एक मॉडल , एक डेटा बिंदु पर के कम से कम वर्गों त्रुटि है{xi,yi}hh
(h(xi)−yi)2
यह, निश्चित रूप से, प्रत्येक डेटापॉइंट के लिए अलग है। अब, यदि हम केवल त्रुटियों को जोड़ते हैं (और आपके द्वारा वर्णित कारण के लिए एक आधा गुणा करें) तो हमें कुल त्रुटि मिलती है
12∑i(h(xi)−yi)2
लेकिन अगर हम सारांशों की संख्या से विभाजित करते हैं तो हमें प्रति डेटा बिंदु औसत त्रुटि मिलती है
12m∑i(h(xi)−yi)2
औसत त्रुटि का लाभ यह है कि यदि हमारे पास दो डेटासेट और जो अलग-अलग आकारों के हैं , तो हम औसत त्रुटियों की तुलना कर सकते हैं लेकिन कुल त्रुटियों की नहीं। यदि दूसरा डेटा सेट है, तो कहें, पहले के आकार का दस गुना, तो हम एक ही मॉडल के लिए कुल त्रुटि दस गुना बड़ा होने की उम्मीद करेंगे। दूसरी ओर, औसत त्रुटि डेटा सेट के आकार के प्रभाव को विभाजित करती है, और इसलिए हम समान प्रदर्शन के मॉडल से विभिन्न डेटा सेटों पर समान औसत त्रुटियों के होने की उम्मीद करेंगे।{xi,yi}{x′i,y′i}