सुविधा चयन के लिए रैंडम क्रमपरिवर्तन परीक्षण


9

मैं एक लॉजिस्टिक प्रतिगमन संदर्भ में सुविधा चयन के लिए क्रमपरिवर्तन विश्लेषण के बारे में उलझन में हूं।
क्या आप यादृच्छिक क्रमपरिवर्तन परीक्षण की स्पष्ट व्याख्या प्रदान कर सकते हैं और यह सुविधा चयन पर कैसे लागू होता है? संभवतः सटीक एल्गोरिदम और उदाहरणों के साथ।

अंत में, यह कैसे लसो या लार जैसे अन्य संकोचन विधियों की तुलना करता है?


5
क्या आपका मतलब कुछ ऐसा है, उदाहरण के लिए, जहां डिजाइन मैट्रिक्स के एक कॉलम की प्रविष्टियों को अनुमति दी गई है, प्रतिक्रिया और अन्य कोवियरी को पकड़े हुए? यदि आपके पास कोई विशेष संदर्भ है जिसका आप उपयोग कर रहे हैं, तो इसे सूचीबद्ध करने में मदद मिल सकती है।
कार्डिनल

मुझे लगता है कि यह लिंक Citeseerx.ist.psu.edu/viewdoc/… सही तकनीक को संदर्भित करता है। मैं वर्तमान में व्याख्याता के साथ संपर्क करने की कोशिश कर रहा हूं जिन्होंने मुझे इस विधि के बारे में बताया ...
उगो

उसके (डोनाल्ड जेमन) के साथ संपर्क में आने का प्रबंधन नहीं किया था
Ugo

2
आपके प्रश्न में अस्पष्ट बिंदु हैं जिन्हें आप स्पष्ट करना चाहते हैं। लिंक किए गए पेपर में एल्गोरिथ्म का एक बहुत स्पष्ट विवरण है। क्या आप इस एल्गोरिथम के बारे में कुछ विशेष पूछना चाहते हैं? क्या यह सीमांत -values ​​की गणना करके फीचर चयन करने का विचार है जिसे आप एक स्पष्टीकरण चाहते हैं? इसके अलावा, आपको पेपर में परिभाषा 2 पर सवाल करना चाहिए । यह एक असमर्थित दावा है, जो एक कामकाजी धारणा हो सकती है, लेकिन छोटे सीमांत सिद्धांत सामान्य रूप से प्रासंगिकता में नहीं हैं। LAR, वैसे, रैखिक प्रतिगमन कर रहा है और वास्तव में द्विआधारी प्रतिक्रियाओं के लिए नहीं है। pp
एनआरएच

जवाबों:


10

(अभी ज्यादा समय नहीं है इसलिए मैं संक्षेप में उत्तर दूंगा और बाद में विस्तार करूंगा)

कहें कि हम एक द्विआधारी वर्गीकरण समस्या पर विचार कर रहे हैं और कक्षा 1 नमूने और वर्ग 2 नमूने का एक प्रशिक्षण सेट है । सुविधा चयन के लिए एक क्रमचय परीक्षण व्यक्तिगत रूप से प्रत्येक सुविधा को देखता है। एक टेस्ट स्टेटिस्टिक , जैसे कि सूचना लाभ या साधन के बीच सामान्यीकृत अंतर, सुविधा के लिए गणना की जाती है। फीचर का डेटा तब बेतरतीब ढंग से अनुमत और दो सेटों में विभाजित होता है, एक का आकार और एक का आकार । परीक्षण आँकड़ा की गणना इस नए विभाजन आधार पर की जाती हैmnθmnθpp। समस्या की कम्प्यूटेशनल जटिलता के आधार पर, यह तब सुविधा के सभी संभावित विभाजनों को क्रम और दो सेटों , या इनमें से एक यादृच्छिक सबसेट पर दोहराया जाता है ।mn

अब जब हमने पर एक वितरण की स्थापना की है , तो हम उस पी-मान की गणना करते हैं जो मनाया गया परीक्षण आँकड़ा सुविधा के यादृच्छिक विभाजन से उत्पन्न हुआ है। अशक्त परिकल्पना यह है कि प्रत्येक वर्ग के नमूने एक ही अंतर्निहित वितरण (सुविधा अप्रासंगिक) से आते हैं।θpθ

इस प्रक्रिया को सभी विशेषताओं पर दोहराया जाता है, और फिर वर्गीकरण के लिए उपयोग की जाने वाली सुविधाओं का सबसेट दो तरीकों से चुना जा सकता है:

  • सबसे कम पी मूल्यों के साथ सुविधाओंN
  • एक पी-मूल्य के साथ सभी सुविधाएँ<ϵ
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.