ची स्क्वायर टेस्ट किस तरह की सुविधा के लिए इस्तेमाल किया जा सकता है?


11
  1. यहाँ मैं दूसरों के बारे में पूछ रहा हूँ कि आमतौर पर पर्यवेक्षित शिक्षण में फ़ीचर चयन रिट परिणाम के लिए ची स्क्वेड टेस्ट का उपयोग करने के लिए अन्य क्या करते हैं। अगर मैं सही तरीके से समझूं, तो क्या वे प्रत्येक सुविधा और परिणाम के बीच स्वतंत्रता का परीक्षण करते हैं, और प्रत्येक सुविधा के लिए परीक्षणों के बीच पी मूल्यों की तुलना करते हैं?

  2. में http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test ,

    पियर्सन का ची-स्क्वैयर टेस्ट एक सांख्यिकीय परीक्षण है, जो स्पष्ट करने के लिए स्पष्ट डेटा के सेट पर लागू होता है कि यह कैसे संभव है कि सेट के बीच कोई अंतर देखा गया हो।

    ...

    स्वतंत्रता का एक परीक्षण यह आकलन करता है कि आकस्मिक तालिका में व्यक्त किए गए दो चर पर युग्मित अवलोकन एक दूसरे से स्वतंत्र हैं (उदाहरण के लिए, विभिन्न राष्ट्रीयताओं के लोगों की प्रतिक्रियाएं यह देखने के लिए कि क्या किसी की राष्ट्रीयता प्रतिक्रिया से संबंधित है)।

    तो क्या दो चर जिनकी स्वतंत्रता का परीक्षण परीक्षण द्वारा किया जाता है, श्रेणीबद्ध होना चाहिए, या असतत होना चाहिए (स्पष्ट के अलावा आदेश दिया जाना चाहिए), लेकिन विपरीत नहीं?

  3. से http://scikit-learn.org/stable/modules/feature_selection.html , वे

    केवल दो सर्वश्रेष्ठ विशेषताओं को पुनः प्राप्त करने के लिए आईरिस डाटासेट के लिए एक परीक्षण करें ।χ2

    में आईरिस डाटासेट , सभी सुविधाओं संख्यात्मक और सतत मूल्यवान हैं, और परिणाम वर्ग लेबल (स्पष्ट) है। ची स्क्वैयर इंडिपेंडेंस टेस्ट निरंतर सुविधाओं पर कैसे लागू होता है?

    डेटासेट में chi squared स्वतंत्रता परीक्षण लागू करने के लिए, क्या हम पहले बिनिंग के द्वारा असतत सुविधाओं में निरंतर सुविधाओं को परिवर्तित करते हैं, (पहली बार 'फीचर्स के निरंतर डोमेन को डिब्बे में परिवर्तित करते हैं, और फिर डिब्बे में सुविधाओं के मानों की घटनाओं के साथ सुविधाओं को प्रतिस्थापित करते हैं) )?

    कई डिब्बे में होने वाली घटनाएं एक बहुराष्ट्रीय सुविधा बनती हैं (या तो प्रत्येक बिन में होती हैं या नहीं), इसलिए ची स्क्वार्ड स्वतंत्रता परीक्षण उन पर लागू हो सकता है, है ना?

    जिस तरह से मैं अनुमान लगाता हूं, क्या हम किसी भी तरह की सुविधाओं और परिणामों के लिए ची स्क्वैयर स्वतंत्रता परीक्षण लागू कर सकते हैं , सही?

    परिणाम के भाग के लिए, हम न केवल वर्गीकरण के लिए, बल्कि प्रतिगमन के लिए भी चुन सकते हैं, ची स्क्वायर स्वतंत्रता परीक्षण द्वारा, निरंतर परिणाम को कम करके, सही है?

  4. स्किकिट सीख साइट भी कहते हैं

    प्रत्येक गैर-नकारात्मक सुविधा और वर्ग के बीच ची-चुकता आँकड़े की गणना करें ।

    इस स्कोर का उपयोग एक्स से टेस्ट ची-स्क्वायड स्टेटिस्टिक के लिए उच्चतम मूल्यों के साथ n_features सुविधाओं का चयन करने के लिए किया जा सकता है, जिसमें केवल गैर-नकारात्मक विशेषताएं शामिल होनी चाहिए जैसे कि बूलियन या आवृत्तियों (जैसे, दस्तावेज़ वर्गीकरण में शब्द गणना)। कक्षाएं।

    परीक्षण को गैर-लाभकारी सुविधाओं की आवश्यकता क्यों है?

    यदि सुविधाओं में संकेत नहीं हैं, लेकिन स्पष्ट या असतत हैं, तो क्या परीक्षण अभी भी उन पर लागू हो सकता है? (मेरा भाग 1 देखें)

    यदि विशेषताएं नकारात्मक हैं, तो हम हमेशा उनके डोमेन को बिन कर सकते हैं और उन्हें उनकी घटनाओं के साथ बदल सकते हैं (ठीक उसी तरह जैसे मैं आईरिस डेटासेट पर परीक्षण लागू करने के लिए अनुमान लगाता हूं, भाग 2 देखें), सही?

नोट: मुझे लगता है कि Scikit Learn सामान्य सिद्धांतों का अनुसरण करता है, और यही मैं यहां पूछ रहा हूं। यदि नहीं, तो यह अभी भी ठीक है।

जवाबों:


2

मुझे लगता है कि आपकी उलझन का एक हिस्सा इस बारे में है कि किस प्रकार के चर एक ची-वर्ग की तुलना कर सकते हैं। विकिपीडिया इस बारे में निम्नलिखित कहता है:

यह एक अशक्त परिकल्पना का परीक्षण करता है कि एक नमूना में देखी गई कुछ घटनाओं की आवृत्ति वितरण एक विशेष सैद्धांतिक वितरण के अनुरूप है।

इस प्रकार यह आवृत्ति वितरण की तुलना करता है, जिसे गणना के रूप में भी जाना जाता है, इसे गैर-नकारात्मक संख्या के रूप में भी जाना जाता है। विभिन्न आवृत्ति वितरण को श्रेणीगत चर द्वारा परिभाषित किया गया है; एक श्रेणीगत चर के मूल्यों के प्रत्येक के लिए यानी एक आवृत्ति वितरण की आवश्यकता होती है जिसे अन्य लोगों की तुलना में किया जा सकता है।

आवृत्ति वितरण प्राप्त करने के कई तरीके हैं। यह एक दूसरे श्रेणीगत चर से हो सकता है जिसमें पहले श्रेणीबद्ध चर वाले सह-आवृत्तियों को असतत आवृत्ति वितरण प्राप्त करने के लिए गिना जाता है। एक अन्य विकल्प एक श्रेणीगत चर के विभिन्न मूल्यों के लिए एक (एकाधिक) संख्यात्मक चर का उपयोग करना है, यह संख्यात्मक चर के मानों (जैसे) को जोड़ सकता है। वास्तव में, यदि श्रेणीबद्ध चर को पूर्वकृत किया जाता है तो पूर्व बाद का विशिष्ट संस्करण है।

उदाहरण

एक उदाहरण के रूप में चर के इन सेटों को देखें:

x = ['mouse', 'cat', 'mouse', 'cat']
z = ['wild', 'domesticated', 'domesticated', 'domesticated']

श्रेणीबद्ध चर की गणना की जा सकती है xऔर yसह-गणनाओं की गणना की जा सकती है, और यही ची-स्क्वायर्ड के साथ होता है:

                 'mouse'    'cat'
'wild'              1         0
'domesticated'      1         2

हालाँकि, आप 'x' के मानों को दूर कर सकते हैं और निम्नलिखित चर प्राप्त कर सकते हैं:

x1 = [1, 0, 1, 0]
x2 = [0, 1, 0, 1]
z = ['wild', 'domesticated', 'domesticated', 'domesticated']

मानों को गिनना अब उन मानों को समेटने के बराबर है जो मूल्य के अनुरूप हैं z

                 x1    x2
'wild'           1     0
'domesticated'   1     2

जैसा कि आप एक एकल श्रेणीगत चर ( x) या कई संख्यात्मक चर देख सकते हैं ( x1और x2) समान रूप से आकस्मिक तालिका में प्रतिनिधित्व करते हैं। इस प्रकार ची-स्क्वेर किए गए परीक्षणों को एक श्रेणीगत चर (स्केलेर में लेबल) पर एक और श्रेणीगत चर या एकाधिक संख्यात्मक चर (स्केलेरन में विशेषताएं) के साथ लागू किया जा सकता है।


तो अगर chi_square फीचर का चयन केवल गैर-नकारात्मक सुविधाओं (freq, count, ect) के लिए किया जा सकता है, तो उस स्थिति के लिए इसका क्या अर्थ है जहां नकारात्मक मूल्यों के साथ एक विशेषता है? सुविधा को ट्रांसफ़ॉर्म करें या किसी अन्य सुविधा चयन विधि का उपयोग करें? मान लीजिए कि हमने आइरिस डेटासेट पर नए शोध किए, और हमारे पास हर दिन सीपल की लंबाई में बदलाव को मापने की एक विशेषता थी। अंततः और नकारात्मक मूल्य होंगे। पौधा लम्बे समय तक नकारात्मक परिवर्तन देता है। शायद हम यह वर्गीकृत करने की कोशिश कर रहे हैं कि यह किस पौधे से है कि यह कितनी तेजी से सूख जाता है या कुछ और।
अरश हावडा

1
ची-वर्ग मूल्यों के अनुपात (यानी आवृत्ति वितरण) पर आधारित है। इसे (बिनाराइज्ड) फीचर वैल्यू के योग से लागू किया गया है। तो पूरे योग का हिस्सा एक अर्थ होना चाहिए। नकारात्मक मूल्यों के साथ ऐसा नहीं है।
Pieter
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.