जब मैं उपयोग करने के बारे में पढ़ रहा था StandardScaler
, तो अधिकांश सिफारिशें कह रही थीं कि आपको डेटा को ट्रेन / परीक्षण में विभाजित करने StandardScaler
से पहले उपयोग करना चाहिए , लेकिन जब मैं ऑनलाइन (स्केलेरन का उपयोग करके) पोस्ट किए गए कुछ कोड की जांच कर रहा था तो दो प्रमुख उपयोग थे।
1- StandardScaler
सभी डेटा का उपयोग करना । उदाहरण के लिए
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_fit = sc.fit(X)
X_std = X_fit.transform(X)
या
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X = sc.fit(X)
X = sc.transform(X)
या केवल
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_std = sc.fit_transform(X)
2- StandardScaler
स्प्लिट डेटा का उपयोग करना ।
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform (X_test)
मैं अपने डेटा को मानकीकृत करना चाहूंगा, लेकिन मैं उलझन में हूं कि कौन सा तरीका सबसे अच्छा है!