मैं एक ऐसी समस्या के बारे में सोच रहा हूं जो रैखिक प्रतिगमन का उपयोग करके ग्राहक के लॉग (खर्च) की भविष्यवाणी करना है।
मैं इस बात पर विचार कर रहा हूं कि इनपुट के रूप में किन विशेषताओं का उपयोग करना चाहिए और यदि चर के प्रतिशतक को इनपुट के रूप में उपयोग करना ठीक होगा तो क्या होगा।
उदाहरण के लिए, मैं एक इनपुट के रूप में कंपनियों के राजस्व का उपयोग कर सकता था। मैं सोच रहा था कि क्या मैं इसके बजाय कंपनी के राजस्व प्रतिशत का उपयोग कर सकता हूं।
एक अन्य उदाहरण एक श्रेणीगत उद्योग क्लासिफायर (NAICS) होगा - अगर मैं प्रति NAICS कोड पर माध्य खर्च को देखूं और फिर प्रत्येक NAICS कोड को 'NAICS प्रतिशत' के रूप में निर्दिष्ट करूं, तो क्या मैं एक स्पष्ट व्याख्यात्मक चर का उपयोग कर सकता हूं?
अगर प्रतिशत का उपयोग करते समय जागरूक होने के लिए कोई समस्या है तो बस सोच रहा था? क्या यह कुछ प्रकार के फ़ीचर स्केलिंग के बराबर है?