(अभी ज्यादा समय नहीं है इसलिए मैं संक्षेप में उत्तर दूंगा और बाद में विस्तार करूंगा)
कहें कि हम एक द्विआधारी वर्गीकरण समस्या पर विचार कर रहे हैं और कक्षा 1 नमूने और वर्ग 2 नमूने का एक प्रशिक्षण सेट है । सुविधा चयन के लिए एक क्रमचय परीक्षण व्यक्तिगत रूप से प्रत्येक सुविधा को देखता है। एक टेस्ट स्टेटिस्टिक , जैसे कि सूचना लाभ या साधन के बीच सामान्यीकृत अंतर, सुविधा के लिए गणना की जाती है। फीचर का डेटा तब बेतरतीब ढंग से अनुमत और दो सेटों में विभाजित होता है, एक का आकार और एक का आकार । परीक्षण आँकड़ा की गणना इस नए विभाजन आधार पर की जाती हैmnθmnθpp। समस्या की कम्प्यूटेशनल जटिलता के आधार पर, यह तब सुविधा के सभी संभावित विभाजनों को क्रम और दो सेटों , या इनमें से एक यादृच्छिक सबसेट पर दोहराया जाता है ।mn
अब जब हमने पर एक वितरण की स्थापना की है , तो हम उस पी-मान की गणना करते हैं जो मनाया गया परीक्षण आँकड़ा सुविधा के यादृच्छिक विभाजन से उत्पन्न हुआ है। अशक्त परिकल्पना यह है कि प्रत्येक वर्ग के नमूने एक ही अंतर्निहित वितरण (सुविधा अप्रासंगिक) से आते हैं।θpθ
इस प्रक्रिया को सभी विशेषताओं पर दोहराया जाता है, और फिर वर्गीकरण के लिए उपयोग की जाने वाली सुविधाओं का सबसेट दो तरीकों से चुना जा सकता है:
- सबसे कम पी मूल्यों के साथ सुविधाओंN
- एक पी-मूल्य के साथ सभी सुविधाएँ<ϵ