मैं कागल ( हाउस प्राइस पर मानव एनालॉग कर्नेल: आवास प्रतिगमन तकनीक ) पर आवास की कीमतों की प्रतियोगिता के समाधान के माध्यम से जा रहा था और इस हिस्से में आया था:
# Transform the skewed numeric features by taking log(feature + 1).
# This will make the features more normal.
from scipy.stats import skew
skewed = train_df_munged[numeric_features].apply(lambda x: skew(x.dropna().astype(float)))
skewed = skewed[skewed > 0.75]
skewed = skewed.index
train_df_munged[skewed] = np.log1p(train_df_munged[skewed])
test_df_munged[skewed] = np.log1p(test_df_munged[skewed])
मुझे यकीन नहीं है कि एक तिरछे वितरण को सामान्य वितरण में परिवर्तित करने की आवश्यकता क्या है। कृपया, क्या कोई विस्तार से बता सकता है:
- यहाँ ऐसा क्यों किया जा रहा है? या यह कैसे सहायक है?
- यह फीचर-स्केलिंग से कैसे अलग है?
- क्या यह सुविधा-इंजीनियरिंग के लिए एक आवश्यक कदम है? यदि मैं इस चरण को छोड़ देता हूं तो क्या होने की संभावना है?