जवाबों:
ची-स्क्वायर परीक्षण दो चर की निर्भरता निर्धारित करने के लिए स्वतंत्रता का एक सांख्यिकीय परीक्षण है। यह निर्धारण के गुणांक, आर co के साथ समानताएं साझा करता है। हालाँकि, ची-स्क्वायर परीक्षण केवल श्रेणीबद्ध या नाममात्र डेटा पर लागू होता है जबकि R only केवल संख्यात्मक डेटा पर लागू होता है।
परिभाषा से, ची-स्क्वायर की सुविधा सुविधा में हम ची-स्क्वायर तकनीक के अनुप्रयोग को आसानी से घटा सकते हैं। मान लें कि आपके पास लक्ष्य चर (यानी, वर्ग लेबल) और कुछ अन्य विशेषताएं (सुविधा चर) हैं जो डेटा के प्रत्येक नमूने का वर्णन करती हैं। अब, हम हर फीचर वैरिएबल और टारगेट वेरिएबल के बीच ची-स्क्वायर स्टैटस की गणना करते हैं और वैरिएबल और टारगेट के बीच संबंध के अस्तित्व का निरीक्षण करते हैं। यदि लक्ष्य चर सुविधा चर से स्वतंत्र है, तो हम उस सुविधा चर को छोड़ सकते हैं। यदि वे निर्भर हैं, तो सुविधा चर बहुत महत्वपूर्ण है।
गणितीय विवरण यहाँ वर्णित हैं: http://nlp.stanford.edu/IR-book/html/htmledition/feature-selectionchi2-feature-selection-1.html
निरंतर चर के लिए, चि-वर्ग को "बिनिंग" चर के बाद लागू किया जा सकता है।
R में एक उदाहरण, बेशर्मी से FSelector से कॉपी किया गया
# Use HouseVotes84 data from mlbench package
library(mlbench)# For data
library(FSelector)#For method
data(HouseVotes84)
#Calculate the chi square statistics
weights<- chi.squared(Class~., HouseVotes84)
# Print the results
print(weights)
# Select top five variables
subset<- cutoff.k(weights, 5)
# Print the final formula that can be used in classification
f<- as.simple.formula(subset, "Class")
print(f)
फीचर सेलेक्शन में इतने से संबंधित नहीं है लेकिन नीचे दिए गए वीडियो में विस्तार से चर्चा की गई है https://www.youtube.com/watch?time_continue=5&v=IrZOKSGShC8