मैं इस ट्यूटोरियल को देख रहा हूँ: https://www.dataquest.io/mission/75/improving-your-submission
सबसे अच्छी सुविधाओं को खोजने के लिए, धारा 8 में, यह निम्नलिखित कोड दिखाता है।
import numpy as np
from sklearn.feature_selection import SelectKBest, f_classif
predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked", "FamilySize", "Title", "FamilyId"]
# Perform feature selection
selector = SelectKBest(f_classif, k=5)
selector.fit(titanic[predictors], titanic["Survived"])
# Get the raw p-values for each feature, and transform from p-values into scores
scores = -np.log10(selector.pvalues_)
# Plot the scores. See how "Pclass", "Sex", "Title", and "Fare" are the best?
plt.bar(range(len(predictors)), scores)
plt.xticks(range(len(predictors)), predictors, rotation='vertical')
plt.show()
K = 5 क्या कर रहा है, क्योंकि इसका उपयोग कभी नहीं किया जाता है (ग्राफ़ अभी भी सभी विशेषताओं को सूचीबद्ध करता है, चाहे मैं k = 1 या k = "all" का उपयोग करूं)? यह सर्वोत्तम विशेषताओं का निर्धारण कैसे करता है, क्या वे उस विधि से स्वतंत्र हैं जिसका उपयोग करना चाहते हैं (चाहे लॉजिस्टिक प्रतिगमन, यादृच्छिक वन, या जो भी हो)?