क्रॉस सत्यापन (सीवी) और सामान्यीकृत क्रॉस सत्यापन (जीसीवी) आँकड़े


23

मैं संभवतः पार सत्यापन (CV) आँकड़ों के लिए और एक रेखीय मॉडल के साथ जुड़े सामान्यीकृत पार सत्यापन (जीसीवी) आँकड़ों के लिए परिभाषाएँ परस्पर विरोधी पाया है (साथ एक सामान्य, homoscedastic त्रुटि वेक्टर )।Y=एक्सβ+εε

एक ओर, गोलूब, हीथ और वहाबा GCV अनुमान _ को (p। 207) के रूप में परिभाषित करते हैं ।λ^

द्वारा दिए गए का न्यूनतम जहां A \ left (\ lambda \ right) = X \ left (X ^ TX + n \ lambda I \ right) ^ {- 1} X ^ Tवी(λ)

वी(λ)=1n(मैं-(λ))y2(1nटीआर(मैं-(λ)))2
A(λ)=X(XTX+nλI)1XT

दूसरी ओर, एफ्रॉन उसी अवधारणा को परिभाषित करता है जैसे V(0) (पी। 24), फिर भी वह इस अवधारणा को क्रेवेन एंड वहाबा के लिए प्रस्तुत करता है, जहां इसकी परिभाषा (पृष्ठ 377) अनिवार्य रूप से समान है। गोलूब, हीथ और वाहबा की उपरोक्त परिभाषा के रूप में।

इस इसका मतलब यह है 0 कम करता V(λ) ?

इसी तरह, गोलूब, हीथ और वहाबा ने न्यूनतम के रूप में λ (पी। 217) के सीवी अनुमान को परिभाषित किया ।

P(λ)=1nk=1n([Xβ(k)(λ)]kyk)2

जहाँ β(k)(λ) का अनुमान है

β^(λ)=(XTX+nλI)1XTy

के β के साथ k वें डेटा बिंदु yi छोड़े गए।

लेखक एलन ("एलन के प्रेस", ibid) को CV अनुमान (जिसे PRESS अनुमान भी कहा जाता है) की शुरुआत का श्रेय देते हैं, फिर भी एलन के पेपर में, PRESS अनुमान को परिभाषित किया गया है (पृष्ठ 126) के रूप में n P के बाएं (0 \ _)। दाएं)nP(0) (एफ्रॉन के लेख में इसे P(0) (पृष्ठ 24) के रूप में परिभाषित किया गया है ।

फिर, यह मतलब है कि 0 कम करता P(λ) ?


  1. एलेन, डेविड एम। द रिलेशनशिप फ़ॉर वैरिएबल सिलेक्शन एंड डेटा एजुएशन एंड ए मेथड फॉर प्रेडिक्शन। टेक्नोमेट्रिक्स, वॉल्यूम। 16, नंबर 1 (फरवरी, 1974), पीपी। 125-127

  2. क्रेवेन, पीटर और वाहबा, ग्रेस। स्पलाइन फ़ंक्शंस के साथ नॉइज़ डेटा को स्मूथ करना। न्यूमेरिस गणित 31, (1979), पीपी। 377-403

  3. एफ्रॉन, ब्रैडली। बायस्ड लॉजिस्टिक रिग्रेशन की स्पष्ट त्रुटि कैसे है? तकनीकी रिपोर्ट क्र। 232. सांख्यिकी विभाग, स्टैनफोर्ड विश्वविद्यालय (अप्रैल 1985)

  4. गोलूब, जीन एच।, हीथ एंड ग्रेस वाहबा। एक अच्छा रिज पैरामीटर चुनने के लिए एक विधि के रूप में सामान्यीकृत क्रॉस-वैलिडेशन। टेक्नोमेट्रिक्स, वॉल्यूम। 21, नंबर 2 (मई, 1979), पीपी। 215-223


7
क्या आप यह बताना भूल गए कि यह रिज रिग्रेशन और कम से कम वर्गों के साथ फिट होगा? मैं पूरी तरह के बारे में क्या उलझन में था था जब तक मैं तल पर कागज खिताब देखाλ
shadowtalker

1
शीर्षक में सामान्यीकृत क्रॉस मान्यकरण निकालें और शीर्षक में रिज रिग्रेशन जोड़ें। यहाँ RidCV के लिए GridSearchCV () डिफॉल्ट क्या है ():
HoofarLotusX

जवाबों:


2

मेरा मानना ​​है कि टिप्पणियां उत्तर की ओर इशारा कर रही हैं, लेकिन इसे कुंद नहीं कह रही हैं। तो मैं कुंद हो जाऊंगा।

यहां उद्धृत वी सूत्र रैखिक रिज प्रतिगमन के लिए विशिष्ट है। वे यह नहीं कहते हैं कि यह PRESS की तरह ही है, वे कहते हैं कि यह PRESS का एक घूर्णन-अपरिवर्तनीय संस्करण है। "रोटेशन-इनवेरिएंट" भाग वह है जो इसे सामान्यीकृत करता है।

एफ्रॉन का पेपर लॉजिस्टिक रिग्रेशन के बारे में है, जो इस संदर्भ में अनुकूलित है। यदि आप दो संदर्भों के बीच गणित के अनुवाद को देखना चाहते हैं, तो पढ़ने के लिए सही पुस्तक है एलीमेंट ऑफ स्टैटिस्टिकल लर्निंग, 2ed, by Hastie, Tibshirani, and Freedman। वे उस पुस्तक को मुफ्त ऑनलाइन प्रदान करते हैं: https://web.stanford.edu/~hastie/Papers/ESLII.pdf । GCV पर पढ़ा गया एक अन्य सहायक साइमन वुड द्वारा सामान्यीकृत एडिटिव मॉडल है। उनका उपचार जीसीवी को प्रतिगमन और लॉजिस्टिक प्रतिगमन में अनुप्रयोगों के साथ सामान्य रूप से एकीकृत करता है।

यदि आप ईएसएल पुस्तक, पी 244 को देखते हैं, तो आप मूल रूप से एक ही सहजीवन देखते हैं। वे उस बड़े मैट्रिक्स उत्पाद का उल्लेख करते हैं जो आपके पास स्मूथ मैट्रिक्स के रूप में है (मैं कहता हूं कि यह एक हेट मैट्रिक्स है, या एक चचेरा भाई है)। उन्होंने स्मूथी वर्णन से के मानचित्रण के रूप में कियाएसyy^

y^=एसy

एस का उपयोग डेटा में प्रत्येक पंक्ति के लिए एक CV मूल्यों को छोड़ने के लिए किया जा सकता है। के लिए रैखिक मॉडल , मैट्रिक्स प्रतिगमन निदान में हैट मैट्रिक्स की भूमिका निभाता है। हालांकि, वे कहते हैं कि यह काम करने के लिए कम्प्यूटेशनल रूप से चुनौतीपूर्ण या अनावश्यक हो सकता है, और जीसीवी दृष्टिकोण समान विचार का थोड़ा और सामान्य संस्करण है।एस

वे GCV के सन्निकटन के लिए एक सूत्र प्रदान करते हैं :

जीसीवी(^)=1एनΣमैं=1एन[yमैं-^(एक्समैं)1-टीआरसी(एस)/एन]2

यह कई मॉडलों में एआईसी के व्यवहार के समान है। मानकों के प्रभावी संख्या है।टीआरसीएस

टुकड़ा आप बोली अधिक आम तौर पर के निशान है । जहां तक ​​मैं समझ सकता हूं, अमूर्त GCV में क्रॉस-आउट छोड़ने का एक अनुमानित संस्करण है, लेकिन कुछ मामलों में, (मुझे विश्वास है कि रिज प्रतिगमन), यह सटीक है। यह गोलब पेपर में एक मुख्य बिंदु है।nλS

सौभाग्य, यदि आप अधिक सीखते हैं तो वापस लिखें।


धन्यवाद। मैंने 5 साल पहले अपना प्रश्न पोस्ट किया है, और तब से मैं इस सामग्री को भूल गया हूं, इसलिए मैं यह बताने के लिए आपके उत्तर का मूल्यांकन नहीं कर सकता कि क्या यह अच्छा है (जो ऐसा प्रतीत होता है) या बुरा है, और, इस कारण से मैं इसे स्वीकार नहीं कर सकता। पोस्ट करने के लिए धन्यवाद, यद्यपि। उम्मीद है कि यह उन लोगों के लिए उपयोगी होगा जो इस पृष्ठ पर आ सकते हैं।
इवान आद
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.