आप जो करना चाहते हैं वह मौजूद नहीं है क्योंकि यह बेहतर शब्द की कमी के लिए गणितीय रूप से त्रुटिपूर्ण है।
लेकिन पहले, मैं इस बात पर जोर दूंगा कि मुझे क्यों लगता है कि आपके सवाल का आधार ध्वनि है। फिर मैं यह समझाने की कोशिश करूंगा कि मुझे क्यों लगता है कि आप जो निष्कर्ष निकालते हैं, वे लॉजिस्टिक मॉडल की गलतफहमी पर आराम करते हैं और अंत में, मैं एक वैकल्पिक दृष्टिकोण सुझाऊंगा।
मैं निरूपित जाएगा अपने टिप्पणियों (बोल्ड अक्षरों निरूपित वैक्टर) में जो झूठ आयामी अंतरिक्ष (की पहली प्रविष्टि 1 है) के साथ , और के एक नीरस कार्य है , जैसे कहते हैं कि रसद वक्र विचारों को ठीक करने के लिए। शीघ्रता के लिए, मैं सिर्फ यह मानूंगा कि , की तुलना में पर्याप्त रूप से बड़ा है । np x{(xxi,yi)}ni=1np p<n y i ∈[0,1]f( x)xxip<nyi∈[0,1]xf(xxi)=f(xx′iββ) एन पीxx′iββnp
आप सही हैं कि यदि आप फिट किए गए मॉडल का मूल्यांकन करने के लिए मानदंड के रूप में टीवीडी का उपयोग करने का इरादा रखते हैं , तो यह आपके डेटा पर सभी संभावित उम्मीदवारों के बीच उसी मानदंड को अनुकूलित करने के लिए आपके फिट की उम्मीद करना उचित है। इसलिये
ββ∗=argminββ∈Rp||yy−f(xx′iββ)||1
समस्या त्रुटि शब्द है :
और यदि हम (हम केवल एक मॉडल को रूप से निष्पक्ष होना चाहते हैं ), तब, चाहिए होना heteroskedastic । ऐसा इसलिए है क्योंकि केवल दो मानों को ले सकता है, 0 और 1. इसलिए, दिए गए
, भी केवल दो मान ले सकते हैं: जब । जो प्रायिकता , और जबई ( εϵi=yi−f(xx′iββ)ϵ i y i xE(ϵϵ)=0ϵi yiε मैं 1-च( एक्सxxiϵiy i = 1 f ( x)1−f(xx′iββ)yi=1- एफ ( एक्स)f(xx′iββ)y मैं = 1 1 - च ( एक्स−f(xx′iββ)yi=1, जो प्रायिकता ।1−f(xx′iββ)
ये विचार एक साथ हैं कि:
var(ϵϵ)=E(ϵϵ2)=(1−f(xx′ββ))2f(xx′ββ)+(−f(xx′ββ))2(1−f(xx′ββ))=(1−f(xx′ββ))f(xx′ββ)=E(yy|xx)E(1−yy|xx)
इसलिए स्थिर नहीं है, लेकिन अवतल परवलय के आकार का है और अधिकतम अधिकतम हो जाता है जब ऐसा होता है कि ।xvar(ϵϵ) E ( y | x |xxE(y|xx)≈.5
अवशिष्टों की इस अंतर्निहित हेटेरोसेडासिटी के परिणाम हैं । इसका तात्पर्य अन्य बातों के साथ है कि जब नुकसान के फंक्शन को कम किया है, तो आप अपने नमूने के समान रूप से अधिक भार वाले भाग होते हैं। अर्थात्, फिट किया गया डेटा को बिल्कुल भी फिट नहीं करता है, लेकिन इसका केवल एक भाग उन स्थानों के आसपास है जहां ऐसा है कि । बुद्धि के लिए, ये आपके नमूने में सबसे कम सूचनात्मक डेटा बिंदु हैं : वे उन टिप्पणियों के अनुरूप हैं जिनके लिए शोर घटक सबसे बड़ा है। इसलिए, आपका फिट ओर खींचा गया है , जैसे अप्रासंगिक।βl1एक्सββ∗ ई ( y)xxβE(yy|xx)≈.5ββ∗=ββ:f(xx′ββ)≈.5
एक समाधान, जैसा कि ऊपर के एक्सपोजर से स्पष्ट है, निष्पक्ष-नेस की आवश्यकता को छोड़ना है। अनुमानक को पूर्वाग्रह करने का एक लोकप्रिय तरीका (कुछ बायेसियन व्याख्या के साथ संलग्न) एक संकोचन शब्द शामिल है। यदि हम प्रतिक्रिया को पुनः स्केल करते हैं:
y+i=2(yi−.5),1≤i≤n
और कम्प्यूटेशनल लिए, एक और मोनोटोन फंक्शन द्वारा को - यह रूप में पैरामीटर के वेक्टर के पहले घटक को दर्शाने के लिए अगली कड़ी के लिए सुविधाजनक होगा और शेष वाले - और एक संकोचन शब्द (उदाहरण के लिए एक फॉर्म) ), परिणामी अनुकूलन समस्या बन जाती है:जी ( xf(xx′ββ)g(xx,[c,γγ])=xx′[c,γγ]cp−1γγ||γγ||2
[c∗,γγ∗]=argmin[[c,γγ]∈Rp∑i=1nmax(0,1−y+ixx′i[[c,γγ])+12||γγ||2
नोट इस नए (भी उत्तल) अनुकूलन समस्या, एक सही ढंग से वर्गीकृत टिप्पणियों के लिए जुर्माना 0 और इसके साथ रैखिक बढ़ता है कि में एक मिस-वर्गीकृत एक --as के लिए नुकसान। इस दूसरे अनुकूलन समस्या का समाधान मनाया रैखिक SVM कर रहे हैं (के साथ पूर्ण जुदाई) गुणांक। जैसा कि विरोध किया गया है , यह इन टाइप पेनल्टी ('टाइप') के साथ डेटा से जानने के लिए समझ में आता है (पूर्वाग्रह के कारण 'टाइप') । नतीजतन, इस समाधान को व्यापक रूप से लागू किया गया है। उदाहरण के लिए R पैकेज LiblineaR देखें ।एल 1 [ ग * , γxx′[[c,γ]l1 β[c∗,γγ∗] [ ग * , γββ∗[c∗,γγ∗]