क्या कोई मुझे StandardScaler समझा सकता है?

Question 1

मैं समझता हूँ करने में असमर्थ हूँ पेज के StandardScalerके दस्तावेज में sklearn।

क्या कोई मुझे यह सरल शब्दों में समझा सकता है?

Question 2

इसके पीछे विचार StandardScalerयह है कि यह आपके डेटा को इस तरह बदल देगा कि इसके वितरण का औसत मान 0 और मानक विचलन होगा। 1.
बहुभिन्नरूपी डेटा के मामले में, यह फीचर-वार (डेटा के प्रत्येक कॉलम के लिए स्वतंत्र रूप से दूसरे शब्दों में) किया जाता है। ।
डेटा के वितरण को देखते हुए, डेटासेट में प्रत्येक मूल्य का औसत मूल्य घटाया जाएगा, और फिर पूरे डेटासेट के मानक विचलन (या मल्टीवेरेट मामले में सुविधा) से विभाजित किया जाएगा।

Question 3

परिचय: मैं मानता हूं कि आपके पास एक मैट्रिक्स है Xजहां प्रत्येक पंक्ति / पंक्ति एक नमूना / अवलोकन है और प्रत्येक स्तंभ एक चर / विशेषता है (यह किसी भी sklearnएमएल फ़ंक्शन के लिए अपेक्षित इनपुट है - वैसे X.shapeहोना चाहिए [number_of_samples, number_of_features])।

विधि की कोर : मुख्य विचार है करने के लिए सामान्य / मानकीकरण यानी μ = 0और σ = 1अपने सुविधाओं / चर / के स्तंभों X, व्यक्तिगत रूप से , पहले किसी भी मशीन सीखने मॉडल को लागू करने।

StandardScaler()सुविधाओं को सामान्य करेगा अर्थात X का प्रत्येक स्तंभ, INDIVIDUALLY , ताकि प्रत्येक कॉलम / फीचर / वैरिएबल μ = 0और होगा σ = 1।

पुनश्च: मुझे इस पृष्ठ पर सबसे गलत उत्तर मिला, गलत। मैं उद्धृत कर रहा हूं "डेटासेट में प्रत्येक मूल्य का नमूना औसत मूल्य घटाया जाएगा" - यह न तो सही है और न ही सही है।

यह भी देखें: अपने डेटा को कैसे और क्यों मानकीकृत करें: एक अजगर ट्यूटोरियल

उदाहरण:

from sklearn.preprocessing import StandardScaler
import numpy as np

# 4 samples/observations and 2 variables/features
data = np.array([[0, 0], [1, 0], [0, 1], [1, 1]])
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)

print(data)
[[0, 0],
 [1, 0],
 [0, 1],
 [1, 1]])

print(scaled_data)
[[-1. -1.]
 [ 1. -1.]
 [-1.  1.]
 [ 1.  1.]]

सत्यापित करें कि प्रत्येक सुविधा (स्तंभ) का मतलब 0 है:

scaled_data.mean(axis = 0)
array([0., 0.])

सत्यापित करें कि प्रत्येक सुविधा (स्तंभ) का std 1 है:

scaled_data.std(axis = 0)
array([1., 1.])

गणित:

अद्यतन 08/2019 : इनपुट मापदंडों with_meanऔर / with_stdसे मिलकर , मैंने यहां एक उत्तर दिया है: "with_std = गलत या सही" और "with_mean = गलत या सत्य" के बीच मानक अंतरFalseTrue

Question 4

इसकी गणना कैसे करें:

आप यहां और अधिक पढ़ सकते हैं:

http://sebastianraschka.com/Articles/2014_about_feature_scaling.html#standardization-and-min-max-scaling

Question 5

StandardScaler का कार्य करता है मानकीकरण । आमतौर पर डेटासेट में वैरिएबल होते हैं जो स्केल में अलग होते हैं। उदाहरण के लिए एक एम्प्लॉयी डेटासेट में स्केल 20-70 पर वैल्यू के साथ AGE कॉलम और 10000-80000 स्केल पर वैल्यू के साथ SALARY कॉलम होगा ।
चूंकि ये दोनों कॉलम स्केल में अलग-अलग हैं, इसलिए मशीन लर्निंग मॉडल बनाते समय इनका कॉमन स्केल होना मानकीकृत है।

Question 6

यह उपयोगी है जब आप विभिन्न इकाइयों के अनुरूप डेटा की तुलना करना चाहते हैं। उस स्थिति में, आप इकाइयों को निकालना चाहते हैं। सभी डेटा के सुसंगत तरीके से ऐसा करने के लिए, आप डेटा को इस तरह से रूपांतरित करते हैं कि विचरण एकात्मक हो और श्रृंखला का मतलब 0 हो।

Question 7

ऊपर दिए गए जवाब बहुत अच्छे हैं, लेकिन मुझे अतीत में आई कुछ चिंताओं को दूर करने के लिए एक सरल उदाहरण की आवश्यकता थी। मैं यह सुनिश्चित करना चाहता था कि यह वास्तव में प्रत्येक स्तंभ का अलग-अलग व्यवहार कर रहा था। मैं अब आश्वस्त हूं और यह नहीं जान सकता कि किस उदाहरण ने मुझे चिंतित किया। सभी स्तंभ रहे हैं , जैसा कि ऊपर उन द्वारा वर्णित अलग से बढ़ाए गए हैं।

कोड

import pandas as pd
import scipy.stats as ss
from sklearn.preprocessing import StandardScaler


data= [[1, 1, 1, 1, 1],[2, 5, 10, 50, 100],[3, 10, 20, 150, 200],[4, 15, 40, 200, 300]]

df = pd.DataFrame(data, columns=['N0', 'N1', 'N2', 'N3', 'N4']).astype('float64')

sc_X = StandardScaler()
df = sc_X.fit_transform(df)

num_cols = len(df[0,:])
for i in range(num_cols):
    col = df[:,i]
    col_stats = ss.describe(col)
    print(col_stats)

आउटपुट

DescribeResult(nobs=4, minmax=(-1.3416407864998738, 1.3416407864998738), mean=0.0, variance=1.3333333333333333, skewness=0.0, kurtosis=-1.3599999999999999)
DescribeResult(nobs=4, minmax=(-1.2828087129930659, 1.3778315806221817), mean=-5.551115123125783e-17, variance=1.3333333333333337, skewness=0.11003776770595125, kurtosis=-1.394993095506219)
DescribeResult(nobs=4, minmax=(-1.155344148338584, 1.53471088361394), mean=0.0, variance=1.3333333333333333, skewness=0.48089217736510326, kurtosis=-1.1471008824318165)
DescribeResult(nobs=4, minmax=(-1.2604572012883055, 1.2668071116222517), mean=-5.551115123125783e-17, variance=1.3333333333333333, skewness=0.0056842140599118185, kurtosis=-1.6438177182479734)
DescribeResult(nobs=4, minmax=(-1.338945389819976, 1.3434309690153527), mean=5.551115123125783e-17, variance=1.3333333333333333, skewness=0.005374558840039456, kurtosis=-1.3619131970819205)

Question 8

स्टैंडराइजेशन गणना कैसे काम करती है, यह समझाने के लिए एक सरल कार्य उदाहरण निम्नलिखित है। सिद्धांत का हिस्सा पहले से ही अन्य उत्तरों में अच्छी तरह से समझाया गया है।

>>>import numpy as np
>>>data = [[6, 2], [4, 2], [6, 4], [8, 2]]
>>>a = np.array(data)

>>>np.std(a, axis=0)
array([1.41421356, 0.8660254 ])

>>>np.mean(a, axis=0)
array([6. , 2.5])

>>>from sklearn.preprocessing import StandardScaler
>>>scaler = StandardScaler()
>>>scaler.fit(data)
>>>print(scaler.mean_)

#Xchanged = (X−μ)/σ  WHERE σ is Standard Deviation and μ is mean
>>>z=scaler.transform(data)
>>>z

गणना

जैसा कि आप आउटपुट में देख सकते हैं, मतलब है [6]। , 2.5] और एसटीडी विचलन [1.41421356, 0.8660254] है

डेटा (0,1) स्थिति 2 मानकीकरण = (2 - 2.5) / 0.8660254 = -0.57735027 है

(1,0) स्थिति में डेटा 4 मानकीकरण = (4-6) / 1.41421356 = -1.414 है

मानकीकरण के बाद परिणाम

मानकीकरण के बाद माध्य और एसटीडी विचलन की जाँच करें

नोट: -2.77555756e-17 0 के बहुत करीब है।

संदर्भ

Question 9

आवेदन करने के बाद StandardScaler(), X के प्रत्येक कॉलम में 0 का मतलब और 1 का मानक विचलन होगा।

सूत्र इस पृष्ठ पर अन्य लोगों द्वारा सूचीबद्ध हैं।

Rationale: कुछ एल्गोरिदम को इस तरह दिखने के लिए डेटा की आवश्यकता होती है ( sklearn डॉक्स देखें )।