बिल्कुल हाँ।
डेटा विश्लेषण आपको कई बिंदुओं तक ले जा सकता है जो आपके पूर्वानुमान मॉडल को चोट पहुंचा सकते हैं:
अधूरा डाटा
मान लें कि हम मात्रात्मक डेटा के बारे में बात कर रहे हैं, तो आपको यह तय करना होगा कि क्या आप कॉलम को अनदेखा करना चाहते हैं (यदि बहुत अधिक डेटा गायब है) या यह पता लगाएँ कि आपका "डिफ़ॉल्ट" मान (मीन, मोड, आदि) क्या होगा। आप अपने डेटा की खोज किए बिना ऐसा नहीं कर सकते।
असामान्य डेटा
आप डेटा है कि बहुत दृढ़ता से जोड़ा जाता है लेकिन वहाँ है अपने डेटा की एक 2% है कि है कहो जिस तरह से यह पारस्परिक संबंध बंद। आप अपने अनुमानित मॉडल की मदद करने के लिए इस डेटा को पूरी तरह से निकालना चाहते हैं
बहुत अधिक सहसंबंध वाले कॉलम निकालें
ठीक है, यह मेरे पिछले बिंदु से थोड़ा सा विरोधाभास है लेकिन अंग्रेजी मेरी मुख्य भाषा नहीं है इसलिए मुझे आशा है कि आप समझ जाएंगे।
मैं एक मूक उदाहरण लूंगा, मान लीजिए कि आप एक फुटबॉल स्टेडियम के डेटासेट का विश्लेषण करते हैं और आपके पास Width, Length, Area
पैरामीटर हैं। ठीक है, हम आसानी से कल्पना कर सकते हैं कि इन तीन मापदंडों को दृढ़ता से सहसंबद्ध किया जाएगा। आपके कॉलम के बीच बहुत अधिक सहसंबंध होने से भविष्य कहनेवाला मॉडल गलत दिशा में ले जाता है। आप एक या अधिक मापदंडों को फ्लश करने का निर्णय ले सकते हैं।
नई सुविधाएँ खोजें
मैं छोटे टाइटैनिक कैगल "प्रतियोगिता" का उदाहरण लूंगा । जब लोगों के नामों को देखते हैं, तो आप यह पता लगा सकते हैं कि आप किसी Title
व्यक्ति की विशेषता को निकाल सकते हैं । जब यह मॉडलिंग की बात आती है, तो यह सुविधा बहुत महत्वपूर्ण हो जाती है, लेकिन अगर आपने पहले अपने डेटा का विश्लेषण नहीं किया, तो आप इसे छोड़ देंगे।
आप अपने निरंतर डेटा को बिन करने का निर्णय ले सकते हैं क्योंकि यह अधिक उचित लगता है या एक निरंतर विशेषता को एक श्रेणी में बदल देता है।
पता लगाएं कि किस तरह के एल्गोरिदम का उपयोग करना है
मैं अभी प्लॉट नहीं बना सकता, लेकिन चलो इसे एक सरल उदाहरण बनाते हैं।
कल्पना करें कि आपके पास एक फीचर कॉलम और एक बाइनरी (0 या 1 केवल) "परिणाम" कॉलम के साथ एक छोटा मॉडल है। आप इस डेटासेट के लिए एक भविष्य कहनेवाला मॉडल बनाना चाहते हैं।
यदि, एक बार फिर से एक उदाहरण के रूप में, आप इसे प्लॉट करना चाहते थे (सू, अपने डेटा का विश्लेषण), तो आप महसूस कर सकते हैं कि प्लॉट आपके 1 मान के चारों ओर एक सही सर्कल बनाता है। ऐसे परिदृश्य में, अगर यह स्पष्ट हो जाएगा कि आप एक बहुपदीय क्लासिफायरियर का उपयोग कर सकते हैं तो सीधे डीएनएन में कूदने के बजाय एक महान मॉडल हो सकता है। (जाहिर है, मेरे उदाहरण में केवल दो कॉलम हैं, यह एक उत्कृष्ट उदाहरण के लिए नहीं बनता है, लेकिन आपको यह बात मिलती है)
कुल मिलाकर, यदि आप पहले डेटा को नहीं देखते हैं, तो आप एक पूर्वानुमानित मॉडल के अच्छे प्रदर्शन की उम्मीद नहीं कर सकते।
[descriptive-statistics]
टैग और आपका अंतिम प्रश्न भी शामिल करते हैं कि क्या वर्णनात्मक आँकड़े महत्वपूर्ण हैं। इस संदर्भ में क्या आपका मतलब केवल ईडीए का उल्लेख करते समय विभिन्न वर्णनात्मक आंकड़ों की गणना करना है, या क्या आप वर्णनात्मक आंकड़ों और ईडीए दोनों के बारे में पूछ रहे हैं? मैं पूछता हूं क्योंकि बहुत से लोग (मेरे सहित) ईडीए को केवल वर्णनात्मक आंकड़ों से अधिक समझते हैं।