मुझे लगता है कि आपके सवाल का एक भी जवाब नहीं है - यह कई स्थिति, डेटा और आप क्या करने की कोशिश कर रहे हैं पर निर्भर करता है। लक्ष्य को प्राप्त करने के लिए कुछ संशोधन किया जा सकता है या संशोधित किया जाना चाहिए। हालाँकि निम्नलिखित सामान्य चर्चा मदद कर सकती है।
अधिक उन्नत तरीकों में कूदने से पहले आइए पहले बुनियादी मॉडल की चर्चा करें: कम से कम वर्ग (एलएस) प्रतिगमन । पूर्ण मॉडल में मापदंडों का कम से कम वर्गों का अनुमान असंतोषजनक होने के दो कारण हैं:
भविष्यवाणी की गुणवत्ता: कम से कम वर्गों का अनुमान अक्सर एक छोटा पूर्वाग्रह लेकिन एक उच्च विचरण होता है। प्रीडिक्शन क्वालिटी को कभी-कभी रिग्रेशन कॉइफ by ग्राहकों के सिकुड़न या शून्य के बराबर कुछ कॉइ। सेट करके सुधार किया जा सकता है। इस तरह पूर्वाग्रह बढ़ता है, लेकिन भविष्यवाणी का विचरण काफी कम हो जाता है जो समग्र सुधार की ओर जाता है। पूर्वाग्रह और विचरण के बीच के इस व्यापार को आसानी से माध्य चुकता त्रुटि (MSE) को हटाकर देखा जा सकता है । एक छोटा एमएसई नए मूल्यों की बेहतर भविष्यवाणी करता है।
व्याख्या : यदि कई भविष्यवाणियां उपलब्ध हैं, तो यह उन लोगों की पहचान करने के लिए समझ में आता है जिनके पास to uence में सबसे बड़ा है, और उन लोगों को शून्य पर सेट करने के लिए जो भविष्यवाणी के लिए प्रासंगिक नहीं हैं। इस प्रकार हम उन चरों को समाप्त करते हैं जो केवल कुछ विवरणों की व्याख्या करेंगे, लेकिन हम उन लोगों को रखते हैं जो प्रतिक्रिया चर के प्रमुख स्पष्टीकरण के लिए अनुमति देते हैं।
इस प्रकार परिवर्तनशील चयन विधियाँ दृश्य में आती हैं। चर चयन के साथ केवल सभी इनपुट चर का एक सबसेट उपयोग किया जाता है, बाकी को मॉडल से हटा दिया जाता है। बेस्ट सब्मिट रिग्रेशन ∈ प्रत्येक k , { 0 , 1 , के लिए आकार के सबसेट को nds । । । , p } जो सबसे छोटा RSS देता है। एक e e cient एल्गोरिथ्म तथाकथित लीप्स और सीमा एल्गोरिथ्म है जो 30 या 40 प्रतिगामी चर तक संभाल सकता है । डेटा सेट के साथ 40 से अधिक हैkk∈{0,1,...,p}304040इनपुट सभी संभावित सबसेट के माध्यम से खोज को निष्क्रिय कर देता है। इस प्रकार फॉरवर्ड स्टेप वाइज सिलेक्शन और बैकवर्ड स्टेप वाइज सिलेक्शन उपयोगी हैं। पिछड़े चयन का उपयोग केवल तभी किया जा सकता है जब में अच्छी तरह से डे। मॉडल हो। जब पी बहुत अधिक है, तो इन तरीकों की गणना दक्षता संदिग्ध है।n>pp
कई स्थितियों में हमारे पास बड़ी संख्या में इनपुट होते हैं (आपके अनुसार), अक्सर अत्यधिक सहसंबद्ध (आपके मामले में)। अत्यधिक सहसंबद्ध रजिस्टरों के मामले में, ओएलएस एक संख्यात्मक रूप से अस्थिर मापदंडों की ओर जाता है , अर्थात अविश्वसनीय अनुमान। इस समस्या से बचने के लिए, हम उन तरीकों का उपयोग करते हैं जो व्युत्पन्न इनपुट दिशाओं का उपयोग करते हैं। ये विधियाँ कम संख्या में रैखिक संयोजनों z k , k = 1 , 2 , का उत्पादन करती हैं । । । , क्ष मूल आदानों की x j जो तब प्रतिगमन में इनपुट के रूप में उपयोग किया जाता है।βzk,k=1,2,...,qxj
Di। Er के तरीके कैसे रैखिक संयोजनों का निर्माण करते हैं। प्रिंसिपल कंपोनेंट्स रिग्रेशन (पीसीआर) मूल डेटा के नए घटकों को नए घटकों में बदलने के लिए देखता है, जिन्हें प्रमुख घटक कहा जाता है ।
आंशिक कमानी वर्ग (पीएलएस) प्रतिगमन - यह तकनीक प्रतिगमन के लिए आदानों के रैखिक संयोजनों का एक सेट भी बनाती है, लेकिन प्रमुख घटक प्रतिगमन के विपरीत यह इस निर्माण के लिए X के अलावा का उपयोग करता है । हम मानते हैं कि y और X दोनों केंद्रित हैं। इसके बजाय की गणना मापदंडों का बीटा रेखीय मॉडल में, हमारा अनुमान है मापदंडों गामा तथाकथित में अव्यक्त चर मोड। हम मानते हैं कि नए कोए γ ग्राहक आयाम q ≤ p के हैं । पीएलएस एक्स के भारित संस्करण पर एक प्रतिगमन करता हैyXyXβγγq≤pXजिसमें अपूर्ण या आंशिक जानकारी हो। चूंकि पीएलएस पीएलएस-दिशाओं को निर्धारित करने के लिए भी का उपयोग करता है , इसलिए इस विधि को उदाहरण के लिए पीसीआर की तुलना में बेहतर भविष्यवाणी प्रदर्शन माना जाता है। पीसीआर के विपरीत, पीएलएस उच्च विचरण और वाई के साथ बड़े सहसंबंध वाले दिशा-निर्देशों की तलाश कर रहा है ।yy
संकोचन विधियाँ मॉडल में सभी चर रखती हैं और di ff erent ( निरंतर ) वज़न असाइन करती हैं। इस तरह हम एक छोटी परिवर्तनशीलता के साथ एक चिकनी प्रक्रिया प्राप्त करते हैं। रिज प्रतिगमन उनके आकार पर जुर्माना लगाकर कोए imp ग्राहकों को सिकोड़ता है। रिज कोए minimize ग्राहक वर्ग के दंडित अवशिष्ट योग को कम करते हैं। यहाँ एक जटिलता पैरामीटर है कि नियंत्रण संकोचन की राशि: बड़े का मूल्य λ , अधिक से अधिक संकोचन की राशि। सीओई are के रोगी शून्य की ओर सिकुड़ जाते हैं (और एक दूसरे की ओर)।λ≥0λ
आरएसएस को दंडित करके हम बचने की कोशिश करते हैं कि अत्यधिक सहसंबद्ध रजिस्ट्रार एक-दूसरे को रद्द कर दें। एक विशेष रूप से बड़ी सकारात्मक COE ffi दक्ष एक इसी तरह बड़ी नकारात्मक द्वारा रद्द किया जा सकता COE ffi दक्ष β । इस घटना को रोका जा सकता है osing के रोगियों पर एक आकार की बाधा को लागू करके।ββ
यह दिखाया जा सकता है कि पीसीआर रिज रिग्रेशन के समान है : दोनों तरीके इनपुट मैट्रिक्स के प्रमुख घटकों का उपयोग करते हैं । रिज प्रतिगमन प्रिंसिपल घटकों के कोए the रोगियों को सिकोड़ता है, सिकुड़न संबंधित प्रतिजन पर निर्भर करता है; पीसीआर पूरी तरह से छोटे पी - क्यू eigenvalues के लिए घटकों को त्यागता है।Xp−q
YiL1 और L2 के बीच का अंतर सिर्फ इतना है कि L2 वज़न के वर्ग का योग है, जबकि L1 केवल वज़न का योग है। L1- मानक विरल गुणांक पैदा करता है और इसमें अंतर्निहित सुविधा का चयन होता है । एल 1-मानदंड का एक विश्लेषणात्मक समाधान नहीं है, लेकिन एल 2-मानक करता है। यह L2- मानक समाधान को कम्प्यूटेशनल रूप से कुशलता से गणना करने की अनुमति देता है। L2- मानक के पास अद्वितीय समाधान हैं जबकि L1- मान नहीं है।
s0s
p≫N
मुख्य घटकों का विश्लेषण सुविधाओं के रैखिक संयोजनों को खोजने के लिए एक प्रभावी तरीका है जो किसी डेटासेट में बड़े बदलाव को प्रदर्शित करता है। लेकिन जो हम यहां चाहते हैं, परिणाम के साथ उच्च विचरण और महत्वपूर्ण सहसंबंध दोनों के साथ रैखिक संयोजन हैं। इसलिए हम प्रमुख घटक विश्लेषण को प्रोत्साहित करना चाहते हैं ताकि परिणाम के साथ उच्च सहसंबंध हो - पर्यवेक्षित प्रमुख घटकों (पृष्ठ 678, एल्गोरिथ्म 18.1 की पुस्तक में, लर्निंग ऑफ़ एलिमेंट ऑफ़ स्टैटिस्टिकल लर्निंग ) में सुविधाओं के रैखिक संयोजन को खोजने के लिए ।
आंशिक रूप से कम से कम शोर सुविधाओं को कम करता है, लेकिन उन्हें दूर नहीं फेंकता है; परिणामस्वरूप बड़ी संख्या में शोर सुविधाएँ भविष्यवाणियों को दूषित कर सकती हैं। थ्रेसहोल्ड पीएलएस को पर्यवेक्षित प्रमुख घटकों के शोर संस्करण के रूप में देखा जा सकता है, और इसलिए हम इसे व्यवहार में भी काम करने की उम्मीद नहीं कर सकते हैं। पर्यवेक्षित प्रमुख घटक थ्रेशोल्ड पीएलएस की तुलना में कम परीक्षण त्रुटियों का उत्पादन कर सकते हैं । हालांकि, यह हमेशा एक विरल मॉडल का उत्पादन नहीं करता है जिसमें केवल कुछ ही विशेषताएं शामिल होती हैं।
p