प्रतिगमन के लिए एक असममित हानि फ़ंक्शन को कैसे डिज़ाइन और कार्यान्वित किया जाए?


24

संकट

प्रतिगमन में आमतौर पर एक नमूना के लिए माध्य चुकता त्रुटि (MSE) की गणना की जाती है : एक भविष्यवक्ता की गुणवत्ता को मापने के लिए ।

MSE=1ni=1n(g(xi)g^(xi))2

अभी मैं एक प्रतिगमन समस्या पर काम कर रहा हूं जहां लक्ष्य का अनुमान लगाना है कि ग्राहकों को कई संख्यात्मक विशेषताओं को देखते हुए उत्पाद के लिए भुगतान करने की इच्छा है। यदि अनुमानित कीमत बहुत अधिक है, तो कोई भी ग्राहक उत्पाद नहीं खरीदेगा, लेकिन मौद्रिक नुकसान कम है, क्योंकि कीमत को केवल घटाया जा सकता है। बेशक यह बहुत अधिक नहीं होना चाहिए क्योंकि उत्पाद को लंबे समय तक नहीं खरीदा जा सकता है। दूसरी ओर यदि अनुमानित कीमत बहुत कम है, तो उत्पाद को कीमत को समायोजित करने का मौका दिए बिना जल्दी से खरीदा जाएगा।

दूसरे शब्दों में, सीखने के एल्गोरिथ्म को थोड़ी अधिक कीमतों की भविष्यवाणी करनी चाहिए जो कि सही कीमत को कम करके आंकने के बजाय यदि आवश्यक हो तो कम हो सकती है जिसके परिणामस्वरूप तत्काल मौद्रिक नुकसान होगा।

सवाल

आप इस लागत विषमता को शामिल करते हुए एक त्रुटि मीट्रिक कैसे डिज़ाइन करेंगे?


संभावित समाधान

एक असममित हानि फ़ंक्शन को परिभाषित करने का एक तरीका केवल एक वजन से गुणा करना होगा: with पैरामीटर होने के नाते हम विषमता की डिग्री को बदलने के लिए समायोजित कर सकते हैं। मैंने इसे यहां पाया है । यह द्विघात नुकसान को बनाए रखते हुए, सबसे सीधे आगे की चीज की तरह लगता है।

1nΣमैं=1n|α-1(जी(एक्समैं)-जी^(एक्समैं))<0|(जी(एक्समैं)-जी^(एक्समैं))2
α(0,1)

1
@MichaelChernick, FTR, मुझे लगता है कि यह एक अच्छा सवाल है, जो स्पष्ट रूप से और सुसंगत रूप से कहा गया है, और स्वीकार करते हैं कि मैं थोड़ा नाइट-पिकी हूं। मुझे जो मिल रहा है (जैसा कि आप जानते हैं) एक प्रतिगमन (यानी, लिए हल करना ) नुकसान फ़ंक्शन , एसएसई को कम करके किया जाता है । आप सही कह रहे हैं कि MSE का उपयोग बराबर रूप से किया जा सकता है b / c को एक स्थिर से विभाजित करने से उम्मीदवार दांव के आदेश को प्रभावित नहीं किया जाएगा। β
गंग -

1
एक अन्य तथ्य यह है कि एमएसई (अधिक बार आरएमएसई) का उपयोग अक्सर फिट किए गए मॉडल की गुणवत्ता का आकलन करने के लिए किया जाता है (हालांकि, फिर से, एसएसई को समान रूप से इस्तेमाल किया जा सकता है)। बात यह है कि, यह प्रश्न मुझे (वैसे भी) लगता है कि कैसे नुकसान के बारे में सोचा जाए / समारोह को फिर से डिज़ाइन किया जाए, ताकि फिट किए गए बेट्स डिफ़ॉल्ट रूप से भिन्न हों, बजाय इसके कि गुणवत्ता के बारे में अलग तरह से कैसे सोचा जाए। एक ऐसे मॉडल की जो पहले से फिट है।
गूँग -

1
@ क्यूडीई, अगर आपकी क्यू की मेरी व्याख्या सही है, तो आप हानि-कार्यों के टैग को जोड़ने के लिए इसे संपादित करने के बारे में क्या सोचेंगे , और संभवतः शीर्षक को कुछ इस तरह से संशोधित करेंगे: "प्रतिगमन के लिए एक असममित हानि फ़ंक्शन को कैसे डिज़ाइन और कार्यान्वित करें"? यदि आप w / उनसे असहमत हैं तो मैं स्वयं संपादन नहीं करूँगा।
गंग -

2
संदर्भ के लिए, मैंने सुझाव दिया है कि जब आप असममित हानि कार्य चाहते हैं, तो आप यहां पर बर्क, 2011 , पीडीएफ देखें ।
एंडी डब्ल्यू

1
जैसा कि मैं इस समस्या से निपटने के लिए विभिन्न प्रकार के लर्निंग एल्गोरिदम का उपयोग कर रहा हूं, कम से कम एक बार फ़ंक्शन को अलग-अलग होना चाहिए।
किउडी

जवाबों:


7

जैसा कि ऊपर की टिप्पणियों में उल्लेख किया गया है, क्वांटाइल प्रतिगमन एक असममित हानि फ़ंक्शन (रैखिक लेकिन सकारात्मक और नकारात्मक त्रुटियों के लिए अलग ढलान के साथ) का उपयोग करता है। क्वांट्रिकल रिग्रेशन का द्विघात (चौकोर नुकसान) एनालॉग प्रत्याशित प्रतिगमन है।

आप संदर्भों के लिए मात्रात्मक प्रतिगमन को गूगल कर सकते हैं। प्रत्याशित प्रतिगमन के लिए R पैकेज अपेक्षा और संदर्भ पुस्तिका में संदर्भ देखें।


2

इस तरह के असमान भार को अक्सर दो वर्गों के साथ वर्गीकरण की समस्याओं में किया जाता है। बेयस नियम को एक हानि फ़ंक्शन का उपयोग करके संशोधित किया जा सकता है जो एक से दूसरे त्रुटि के लिए नुकसान को अधिक वजन करता है। यह एक ऐसे नियम की ओर ले जाएगा जो असमान त्रुटि दर पैदा करता है।

प्रतिगमन में निश्चित रूप से एक वजन फ़ंक्शन का निर्माण करना संभव होगा जैसे कि वर्गों का भारित योग जो नकारात्मक त्रुटियों को कुछ वजन देगा और सकारात्मक लोगों को अधिक वजन देगा। यह भारित वर्ग के समान होगा, लेकिन थोड़ा भिन्न होगा क्योंकि भारित कम से कम वर्ग उन समस्याओं के लिए अभिप्रेत है, जहां त्रुटि संस्करण भविष्यवक्ता चर के लिए संभावित मानों के स्थान पर स्थिर नहीं है। उस स्थिति में वजन उन बिंदुओं के लिए अधिक होता है जहां त्रुटि विचरण को छोटा और उच्चतर माना जाता है जहां त्रुटि विचरण बड़े होने के लिए जाना जाता है। यह निश्चित रूप से प्रतिगमन मापदंडों के लिए मूल्यों को जन्म देगा जो कि ओएलएस आपको देता है उससे अलग हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.