क्या विशुद्ध रूप से अनुमानित मॉडलिंग करते समय खोजपूर्ण डेटा विश्लेषण महत्वपूर्ण है?


23

मशीन लर्निंग तकनीक का उपयोग कर एक पूर्वानुमान मॉडल का निर्माण करते समय, खोजपूर्ण डेटा विश्लेषण (EDA) करने का क्या मतलब है? क्या यह ठीक है कि फीचर जेनरेशन पर सीधे कूदें और अपने मॉडल का निर्माण करें? EDA में वर्णनात्मक आंकड़ों का उपयोग कैसे किया जाता है?


6
आप "खोजपूर्ण डेटा विश्लेषण" के बारे में पूछते हैं, लेकिन आप [descriptive-statistics]टैग और आपका अंतिम प्रश्न भी शामिल करते हैं कि क्या वर्णनात्मक आँकड़े महत्वपूर्ण हैं। इस संदर्भ में क्या आपका मतलब केवल ईडीए का उल्लेख करते समय विभिन्न वर्णनात्मक आंकड़ों की गणना करना है, या क्या आप वर्णनात्मक आंकड़ों और ईडीए दोनों के बारे में पूछ रहे हैं? मैं पूछता हूं क्योंकि बहुत से लोग (मेरे सहित) ईडीए को केवल वर्णनात्मक आंकड़ों से अधिक समझते हैं।
गूँग - मोनिका

वास्तव में "फीचर जेनरेशन" क्या है? क्या यह एक खोजपूर्ण प्रक्रिया नहीं है?
Einar

5
हाल ही में, मुझे 37 व्यक्तियों द्वारा 224 अवलोकन दिए गए हैं। मैंने दूसरों के बीच जांच-पड़ताल करने की योजना बनाई थी- लिंग / लिंग के प्रभाव, जब वर्णनात्मक विश्लेषण ने मुझे बताया, 36 महिलाएं और 1 पुरुष थे। इस वर्णनात्मक सांख्यिकीय के कारण, मैंने लिंग / लिंग से संबंधित सभी विश्लेषणों को छोड़ दिया। यह मेरे लिए महत्वपूर्ण था, क्योंकि विवरणों ने मेरी मॉडल निर्माण प्रक्रिया को प्रभावित किया। उस डेटा पर यहां और अधिक आँकड़े ।stackexchange.com
बर्नहार्ड

जवाबों:


47

बहुत पहले नहीं, मेरे पास डेटा विज्ञान की स्थिति के लिए एक साक्षात्कार कार्य था। मुझे एक डेटा सेट दिया गया था और कुछ घंटों की समय सीमा के साथ, एक निश्चित बाइनरी वैरिएबल की भविष्यवाणी करने के लिए एक पूर्वानुमान मॉडल बनाने के लिए कहा गया था।

मैं बदले में प्रत्येक चर के माध्यम से चला गया, उन्हें रेखांकन, सारांश आँकड़ों की गणना करना आदि। मैंने संख्यात्मक चर के बीच सहसंबंधों की भी गणना की।

जो चीज़ें मुझे मिलीं, उनमें ये थीं:

  • एक श्रेणीगत चर लगभग लक्ष्य से पूरी तरह मेल खाता है।
  • दो या तीन चरों में उनके आधे से अधिक मूल्य गायब थे।
  • चर के एक जोड़े में अत्यधिक आउटलेयर था।
  • संख्यात्मक चर के दो पूरी तरह से सहसंबद्ध थे।
  • आदि।

मेरा कहना है कि ये ऐसी चीजें थीं, जिन्हें जानबूझकर यह देखने के लिए रखा गया था कि क्या लोग मॉडल बनाने की कोशिश करने से पहले उन्हें नोटिस करेंगे। कंपनी ने उन्हें रखा क्योंकि वे उस तरह की चीज हैं जो वास्तविक जीवन में हो सकती है, और मॉडल के प्रदर्शन को काफी प्रभावित करती है।

तो हाँ, मशीन लर्निंग करते समय ईडीए महत्वपूर्ण है!


8
जब मैं छात्रों को असाइनमेंट देता हूं, तो अक्सर ऐसा करता हूं ;-)।
गंग - मोनिका

14

बिल्कुल हाँ।

डेटा विश्लेषण आपको कई बिंदुओं तक ले जा सकता है जो आपके पूर्वानुमान मॉडल को चोट पहुंचा सकते हैं:

अधूरा डाटा

मान लें कि हम मात्रात्मक डेटा के बारे में बात कर रहे हैं, तो आपको यह तय करना होगा कि क्या आप कॉलम को अनदेखा करना चाहते हैं (यदि बहुत अधिक डेटा गायब है) या यह पता लगाएँ कि आपका "डिफ़ॉल्ट" मान (मीन, मोड, आदि) क्या होगा। आप अपने डेटा की खोज किए बिना ऐसा नहीं कर सकते।

असामान्य डेटा

आप डेटा है कि बहुत दृढ़ता से जोड़ा जाता है लेकिन वहाँ है अपने डेटा की एक 2% है कि है कहो जिस तरह से यह पारस्परिक संबंध बंद। आप अपने अनुमानित मॉडल की मदद करने के लिए इस डेटा को पूरी तरह से निकालना चाहते हैं

बहुत अधिक सहसंबंध वाले कॉलम निकालें

ठीक है, यह मेरे पिछले बिंदु से थोड़ा सा विरोधाभास है लेकिन अंग्रेजी मेरी मुख्य भाषा नहीं है इसलिए मुझे आशा है कि आप समझ जाएंगे।

मैं एक मूक उदाहरण लूंगा, मान लीजिए कि आप एक फुटबॉल स्टेडियम के डेटासेट का विश्लेषण करते हैं और आपके पास Width, Length, Areaपैरामीटर हैं। ठीक है, हम आसानी से कल्पना कर सकते हैं कि इन तीन मापदंडों को दृढ़ता से सहसंबद्ध किया जाएगा। आपके कॉलम के बीच बहुत अधिक सहसंबंध होने से भविष्य कहनेवाला मॉडल गलत दिशा में ले जाता है। आप एक या अधिक मापदंडों को फ्लश करने का निर्णय ले सकते हैं।

नई सुविधाएँ खोजें

मैं छोटे टाइटैनिक कैगल "प्रतियोगिता" का उदाहरण लूंगा । जब लोगों के नामों को देखते हैं, तो आप यह पता लगा सकते हैं कि आप किसी Titleव्यक्ति की विशेषता को निकाल सकते हैं । जब यह मॉडलिंग की बात आती है, तो यह सुविधा बहुत महत्वपूर्ण हो जाती है, लेकिन अगर आपने पहले अपने डेटा का विश्लेषण नहीं किया, तो आप इसे छोड़ देंगे।

आप अपने निरंतर डेटा को बिन करने का निर्णय ले सकते हैं क्योंकि यह अधिक उचित लगता है या एक निरंतर विशेषता को एक श्रेणी में बदल देता है।

पता लगाएं कि किस तरह के एल्गोरिदम का उपयोग करना है

मैं अभी प्लॉट नहीं बना सकता, लेकिन चलो इसे एक सरल उदाहरण बनाते हैं।

कल्पना करें कि आपके पास एक फीचर कॉलम और एक बाइनरी (0 या 1 केवल) "परिणाम" कॉलम के साथ एक छोटा मॉडल है। आप इस डेटासेट के लिए एक भविष्य कहनेवाला मॉडल बनाना चाहते हैं।

यदि, एक बार फिर से एक उदाहरण के रूप में, आप इसे प्लॉट करना चाहते थे (सू, अपने डेटा का विश्लेषण), तो आप महसूस कर सकते हैं कि प्लॉट आपके 1 मान के चारों ओर एक सही सर्कल बनाता है। ऐसे परिदृश्य में, अगर यह स्पष्ट हो जाएगा कि आप एक बहुपदीय क्लासिफायरियर का उपयोग कर सकते हैं तो सीधे डीएनएन में कूदने के बजाय एक महान मॉडल हो सकता है। (जाहिर है, मेरे उदाहरण में केवल दो कॉलम हैं, यह एक उत्कृष्ट उदाहरण के लिए नहीं बनता है, लेकिन आपको यह बात मिलती है)

कुल मिलाकर, यदि आप पहले डेटा को नहीं देखते हैं, तो आप एक पूर्वानुमानित मॉडल के अच्छे प्रदर्शन की उम्मीद नहीं कर सकते।


8

EDA द्वारा की गई एक महत्वपूर्ण चीज डेटा प्रविष्टि त्रुटियों और अन्य विसंगतियों को ढूंढ रही है।

एक और यह है कि चर का वितरण उन मॉडलों को प्रभावित कर सकता है जिन्हें आप फिट करने का प्रयास करते हैं।


8

हम रसायन शास्त्र में एक वाक्यांश है:

" लैब में बिताए दो सप्ताह आपको Scifinder पर दो घंटे बचा सकते हैं "।

मुझे यकीन है कि मशीन सीखने पर भी यही बात लागू होती है:

" दो सप्ताह बिताए हुए प्रशिक्षण में एक न्यूरलनेट आपको इनपुट डेटा को देखने में 2 घंटे बचा सकता है "।

किसी भी एमएल प्रक्रिया को शुरू करने से पहले मैं ये बातें करूंगा।

  • हर (निरंतर) चर के घनत्व को प्लॉट करें। अंक कैसे तिरछे होते हैं? क्या मुझे डेटा बनाने के लिए लॉग ट्रांसफ़ॉर्म की आवश्यकता है? आउटलेयर कितनी दूर हैं? क्या ऐसे कोई मूल्य हैं जो भौतिक या तार्किक अर्थ नहीं बनाते हैं?
  • NAs पर नज़र रखें। आमतौर पर, आप बस उन्हें त्याग सकते हैं, लेकिन अगर उनमें से बहुत सारे हैं, या यदि वे सिस्टम के व्यवहार के लिए एक महत्वपूर्ण पहलू का प्रतिनिधित्व करते हैं, तो आपको डेटा को फिर से बनाने का एक तरीका ढूंढना पड़ सकता है। यह अपने आप में एक परियोजना हो सकती है।
  • हर वैरिएबल को रिस्पॉन्स वैरिएबल के खिलाफ प्लॉट करें। आप इसे केवल नेत्रदान करके कितना समझदार बना सकते हैं? क्या स्पष्ट वक्र हैं जिन्हें कार्यों के साथ लगाया जा सकता है?
  • आकलन करें कि आपको पहली बार एक जटिल एमएल मॉडल की आवश्यकता है या नहीं। कभी-कभी रैखिक प्रतिगमन आप सभी की वास्तव में आवश्यकता होती है। यहां तक ​​कि अगर यह नहीं है, तो यह आपके एमएल मॉडल के लिए बेहतर आधारभूत फिट प्रदान करता है।

उन बुनियादी कदमों से परे, मैं एमएल प्रक्रियाओं को लागू करने से पहले डेटा को देखने में बहुत अतिरिक्त समय खर्च नहीं करूंगा। यदि आपके पास पहले से ही बड़ी संख्या में चर हैं, तो उनमें से जटिल nonlinear संयोजन न केवल खोजने के लिए, बल्कि साजिश और समझने के लिए तेजी से मुश्किल हो जाते हैं। यह कंप्यूटर द्वारा संभाला जाने वाला सामान है।


6

सांख्यिकीय परिप्रेक्ष्य:

मॉडलिंग चरण में एक तरफ की त्रुटियों को छोड़कर, पहले ईडीए किए बिना भविष्यवाणी करने के प्रयास से तीन संभावित परिणाम हैं:

  1. भविष्यवाणी स्पष्ट बकवास परिणाम देती है, क्योंकि आपके इनपुट डेटा ने आपकी भविष्यवाणी पद्धति की मान्यताओं का उल्लंघन किया है। अब आपको वापस जाना होगा और अपने इनपुट्स की जांच करके यह पता लगाना होगा कि समस्या कहां है, फिर समस्या को ठीक करें और विश्लेषण को फिर से करें। समस्या की प्रकृति के आधार पर, आपको अपनी भविष्यवाणी विधियों को बदलने की आवश्यकता हो सकती है। (आपका क्या मतलब है, यह एक श्रेणीबद्ध चर है?)
  2. भविष्यवाणी ऐसे परिणाम देती है जो बुरे हैं लेकिन स्पष्ट रूप से बुरे नहीं हैं , क्योंकि आपके डेटा ने कुछ कम स्पष्ट तरीके से मान्यताओं का उल्लंघन किया है। या तो आप वापस जाएं और वैसे भी उन मान्यताओं की जांच करें (जिस स्थिति में, # 1 ऊपर देखें) या आप बुरे परिणामों को स्वीकार करते हैं।
  3. सौभाग्य से, आपका इनपुट डेटा ठीक वैसा ही है जैसा आपने उससे होने की उम्मीद की है (मैं समझता हूं कि यह कभी-कभार होता है) और भविष्यवाणी अच्छे परिणाम देती है ... जो बहुत अच्छा होगा, सिवाय इसके कि आप इस और # के बीच अंतर नहीं बता सकते 2 से ऊपर।

परियोजना-प्रबंधन परिप्रेक्ष्य:

डेटा मुद्दों को हल करने में समय और प्रयास की एक महत्वपूर्ण राशि लग सकती है। उदाहरण के लिए:

  • डेटा गंदा है और आपको इसे साफ करने के लिए विकासशील प्रक्रियाओं में समय बिताने की जरूरत है। (उदाहरण के लिए: समय मुझे उन सभी लोगों के लिए एक स्वत: सुधार कोड देना था जो जनवरी में गलत वर्ष लिखते रहते हैं, और वे लोग जो वर्ष क्षेत्र में तारीख दर्ज करते हैं , और सिस्टम जो MM / DD / YYYY के रूप में तारीखों को पार्स कर रहा था। डीडी / MM / YYYY के बजाय।)
  • आपको डेटा के क्या मायने हैं, इस बारे में सवाल पूछने की जरूरत है और केवल जोन ही उन्हें जवाब दे सकते हैं। जोआन छह महीने की छुट्टी पर जा रहा है, आपकी परियोजना शुरू होने के दो सप्ताह बाद।
  • डेटा सीमाएँ आपको वह सब कुछ प्रदान करने से रोकती हैं जो आपने देने का इरादा किया था (cf. बर्नहार्ड का उदाहरण सेक्स / लिंग द्वारा विश्लेषण का उत्पादन करने में असमर्थ होने के कारण क्योंकि डेटा सेट में केवल एक महिला थी) और आपको / आपके ग्राहकों को यह पता लगाना होगा कि उसके बारे में क्या करना है। ।

पहले आप इस तरह के मुद्दों की पहचान कर सकते हैं, आपके प्रोजेक्ट को रेल पर रखने, समय पर खत्म करने और अपने ग्राहकों को खुश करने की आपकी संभावनाएं बेहतर होंगी।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.