कैसे ची-वर्ग सुविधा चयन काम करता है?

मुझे पता है कि प्रत्येक फीचर-क्लास जोड़ी के लिए, ची-स्क्वायर स्टैटिस्टिक का मूल्य गणना किया जाता है और एक सीमा के मुकाबले तुलना की जाती है।

$m$ $k$

किसी भी स्पष्टीकरण बहुत सराहना की जाएगी। अग्रिम में धन्यवाद

chi-squared feature-selection

— user721975
स्रोत

इस पर कोई विचार / संकेत?

— user721975

ची-स्क्वायर परीक्षण दो चर की निर्भरता निर्धारित करने के लिए स्वतंत्रता का एक सांख्यिकीय परीक्षण है। यह निर्धारण के गुणांक, आर co के साथ समानताएं साझा करता है। हालाँकि, ची-स्क्वायर परीक्षण केवल श्रेणीबद्ध या नाममात्र डेटा पर लागू होता है जबकि R only केवल संख्यात्मक डेटा पर लागू होता है।

परिभाषा से, ची-स्क्वायर की सुविधा सुविधा में हम ची-स्क्वायर तकनीक के अनुप्रयोग को आसानी से घटा सकते हैं। मान लें कि आपके पास लक्ष्य चर (यानी, वर्ग लेबल) और कुछ अन्य विशेषताएं (सुविधा चर) हैं जो डेटा के प्रत्येक नमूने का वर्णन करती हैं। अब, हम हर फीचर वैरिएबल और टारगेट वेरिएबल के बीच ची-स्क्वायर स्टैटस की गणना करते हैं और वैरिएबल और टारगेट के बीच संबंध के अस्तित्व का निरीक्षण करते हैं। यदि लक्ष्य चर सुविधा चर से स्वतंत्र है, तो हम उस सुविधा चर को छोड़ सकते हैं। यदि वे निर्भर हैं, तो सुविधा चर बहुत महत्वपूर्ण है।

गणितीय विवरण यहाँ वर्णित हैं: http://nlp.stanford.edu/IR-book/html/htmledition/feature-selectionchi2-feature-selection-1.html

निरंतर चर के लिए, चि-वर्ग को "बिनिंग" चर के बाद लागू किया जा सकता है।

R में एक उदाहरण, बेशर्मी से FSelector से कॉपी किया गया

# Use HouseVotes84 data from  mlbench package
library(mlbench)# For data
library(FSelector)#For method
data(HouseVotes84)

#Calculate the chi square statistics 
weights<- chi.squared(Class~., HouseVotes84)

# Print the results 
print(weights)

# Select top five variables
subset<- cutoff.k(weights, 5)

# Print the final formula that can be used in classification
f<- as.simple.formula(subset, "Class")
print(f)

फीचर सेलेक्शन में इतने से संबंधित नहीं है लेकिन नीचे दिए गए वीडियो में विस्तार से चर्चा की गई है https://www.youtube.com/watch?time_continue=5&v=IrZOKSGShC8

— discipulus
स्रोत