यहाँ मैं दूसरों के बारे में पूछ रहा हूँ कि आमतौर पर पर्यवेक्षित शिक्षण में फ़ीचर चयन रिट परिणाम के लिए ची स्क्वेड टेस्ट का उपयोग करने के लिए अन्य क्या करते हैं। अगर मैं सही तरीके से समझूं, तो क्या वे प्रत्येक सुविधा और परिणाम के बीच स्वतंत्रता का परीक्षण करते हैं, और प्रत्येक सुविधा के लिए परीक्षणों के बीच पी मूल्यों की तुलना करते हैं?
में http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test ,
पियर्सन का ची-स्क्वैयर टेस्ट एक सांख्यिकीय परीक्षण है, जो स्पष्ट करने के लिए स्पष्ट डेटा के सेट पर लागू होता है कि यह कैसे संभव है कि सेट के बीच कोई अंतर देखा गया हो।
...
स्वतंत्रता का एक परीक्षण यह आकलन करता है कि आकस्मिक तालिका में व्यक्त किए गए दो चर पर युग्मित अवलोकन एक दूसरे से स्वतंत्र हैं (उदाहरण के लिए, विभिन्न राष्ट्रीयताओं के लोगों की प्रतिक्रियाएं यह देखने के लिए कि क्या किसी की राष्ट्रीयता प्रतिक्रिया से संबंधित है)।
तो क्या दो चर जिनकी स्वतंत्रता का परीक्षण परीक्षण द्वारा किया जाता है, श्रेणीबद्ध होना चाहिए, या असतत होना चाहिए (स्पष्ट के अलावा आदेश दिया जाना चाहिए), लेकिन विपरीत नहीं?
से http://scikit-learn.org/stable/modules/feature_selection.html , वे
केवल दो सर्वश्रेष्ठ विशेषताओं को पुनः प्राप्त करने के लिए आईरिस डाटासेट के लिए एक परीक्षण करें ।
में आईरिस डाटासेट , सभी सुविधाओं संख्यात्मक और सतत मूल्यवान हैं, और परिणाम वर्ग लेबल (स्पष्ट) है। ची स्क्वैयर इंडिपेंडेंस टेस्ट निरंतर सुविधाओं पर कैसे लागू होता है?
डेटासेट में chi squared स्वतंत्रता परीक्षण लागू करने के लिए, क्या हम पहले बिनिंग के द्वारा असतत सुविधाओं में निरंतर सुविधाओं को परिवर्तित करते हैं, (पहली बार 'फीचर्स के निरंतर डोमेन को डिब्बे में परिवर्तित करते हैं, और फिर डिब्बे में सुविधाओं के मानों की घटनाओं के साथ सुविधाओं को प्रतिस्थापित करते हैं) )?
कई डिब्बे में होने वाली घटनाएं एक बहुराष्ट्रीय सुविधा बनती हैं (या तो प्रत्येक बिन में होती हैं या नहीं), इसलिए ची स्क्वार्ड स्वतंत्रता परीक्षण उन पर लागू हो सकता है, है ना?
जिस तरह से मैं अनुमान लगाता हूं, क्या हम किसी भी तरह की सुविधाओं और परिणामों के लिए ची स्क्वैयर स्वतंत्रता परीक्षण लागू कर सकते हैं , सही?
परिणाम के भाग के लिए, हम न केवल वर्गीकरण के लिए, बल्कि प्रतिगमन के लिए भी चुन सकते हैं, ची स्क्वायर स्वतंत्रता परीक्षण द्वारा, निरंतर परिणाम को कम करके, सही है?
स्किकिट सीख साइट भी कहते हैं
प्रत्येक गैर-नकारात्मक सुविधा और वर्ग के बीच ची-चुकता आँकड़े की गणना करें ।
इस स्कोर का उपयोग एक्स से टेस्ट ची-स्क्वायड स्टेटिस्टिक के लिए उच्चतम मूल्यों के साथ n_features सुविधाओं का चयन करने के लिए किया जा सकता है, जिसमें केवल गैर-नकारात्मक विशेषताएं शामिल होनी चाहिए जैसे कि बूलियन या आवृत्तियों (जैसे, दस्तावेज़ वर्गीकरण में शब्द गणना)। कक्षाएं।
परीक्षण को गैर-लाभकारी सुविधाओं की आवश्यकता क्यों है?
यदि सुविधाओं में संकेत नहीं हैं, लेकिन स्पष्ट या असतत हैं, तो क्या परीक्षण अभी भी उन पर लागू हो सकता है? (मेरा भाग 1 देखें)
यदि विशेषताएं नकारात्मक हैं, तो हम हमेशा उनके डोमेन को बिन कर सकते हैं और उन्हें उनकी घटनाओं के साथ बदल सकते हैं (ठीक उसी तरह जैसे मैं आईरिस डेटासेट पर परीक्षण लागू करने के लिए अनुमान लगाता हूं, भाग 2 देखें), सही?
नोट: मुझे लगता है कि Scikit Learn सामान्य सिद्धांतों का अनुसरण करता है, और यही मैं यहां पूछ रहा हूं। यदि नहीं, तो यह अभी भी ठीक है।