प्रेडिक्टिव मॉडलिंग - क्या हमें मिश्रित मॉडलिंग की परवाह करनी चाहिए?


19

भविष्य कहनेवाला मॉडलिंग के लिए, क्या हमें सांख्यिकीय अवधारणाओं जैसे यादृच्छिक प्रभावों और टिप्पणियों की गैर-स्वतंत्रता (बार-बार के उपायों) के साथ खुद को चिंतित करने की आवश्यकता है? उदाहरण के लिए....

मेरे पास विभिन्न विशेषताओं और खरीद के लिए एक ध्वज के साथ 5 प्रत्यक्ष मेल अभियानों (एक वर्ष के दौरान हुई) का डेटा है। आदर्श रूप में, मैं इस सभी डेटा का उपयोग अभियान के समय दिए गए ग्राहक विशेषताओं की खरीद के लिए एक मॉडल बनाने के लिए करेगा। कारण यह है कि खरीद की घटना दुर्लभ है और मैं अधिक से अधिक जानकारी का उपयोग करना चाहूंगा। एक मौका है कि एक दिया गया ग्राहक अभियानों के 1 से 5 तक कहीं भी हो सकता है - जिसका अर्थ है कि अभिलेखों के बीच स्वतंत्रता नहीं है।

उपयोग करते समय क्या यह बात मायने रखती है:

1) एक मशीन सीखने का दृष्टिकोण (जैसे पेड़, एमएलपी, एसवीएम)

2) एक सांख्यिकीय दृष्टिकोण (लॉजिस्टिक रिग्रेशन)?

**ADD:**

भविष्य कहनेवाला मॉडलिंग के बारे में मेरा विचार यह है कि यदि मॉडल काम करता है, तो इसका उपयोग करें। इसलिए कि मैंने कभी भी मान्यताओं के महत्व को नहीं माना है। मेरे द्वारा बताए गए मामले के बारे में सोचकर मुझे आश्चर्य हुआ।

मशीन लर्निंग एल्गोरिदम जैसे a MLP and SVM। इनका उपयोग बाइनरी ईवेंट को सफलतापूर्वक मॉडल करने के लिए किया जाता है जैसे कि ऊपर मेरा उदाहरण लेकिन समय श्रृंखला डेटा जो स्पष्ट रूप से सहसंबद्ध हैं। हालांकि, कई उपयोग हानि कार्य जो त्रुटियों की संभावना और व्युत्पन्न हैं, आईआईडी हैं। उदाहरण के लिए, R में ढाल वाले बूस्टेड पेड़ gbmविचलन हानि कार्यों का उपयोग करते हैं जो द्विपद ( 10 पृष्ठ ) से प्राप्त होते हैं ।


1
यह उन सांख्यिकीय दृष्टिकोणों के लिए महत्वपूर्ण होगा जो अभिलेखों के बीच स्वतंत्रता मानते हैं, क्योंकि आप तब दोहराए गए उपायों से निपट रहे हैं।
मिशेल

4
लगता है कि मशीन लर्निंग के बीच मुख्य अंतर में से एक है जो भविष्यवाणी पर केंद्रित है और अनुमान पर केंद्रित आंकड़े ठीक वही है जो आप कहते हैं, B_Miner। मशीन लर्निंग, जो काम करती है, उससे अधिक चिंतित है, जबकि पारंपरिक आँकड़े मान्यताओं पर विशेष ध्यान देते हैं। दोनों मामलों में आपको अपने दृष्टिकोणों की मान्यताओं / गुणों से अवगत होने की आवश्यकता है, फिर एक सूचित निर्णय लें कि वे मायने रखते हैं या नहीं। यदि आप इस दृष्टिकोण के अनुमानों / गुणों को नहीं समझते हैं तो आप अपने मॉडल के बारे में भविष्यवाणिय मॉडलिंग में खुद को बेवकूफ बना रहे होंगे।
ऐनी जेड।

2
@ अनुलग्नक। यदि आप भविष्य कहनेवाला मॉडलिंग में प्रशिक्षण-, परीक्षण- और सत्यापन (सभी नमूने बड़े पर्याप्त) के अनुशंसित सत्यापन दृष्टिकोण का पालन करते हैं और आप कुछ ऐसा काम करते हैं, जो अंतर्निहित धारणाओं को पूरा करने के लिए परेशान करता है? मैं निश्चित रूप से एमएल के नासमझ आवेदन की सिफारिश नहीं करता हूं, मैं बस सोच रहा था ...
स्टीफन

2
इस संदर्भ में, पेपर "स्टैटिस्टिकल मॉडलिंग: द टू कल्चर" दिलचस्प हो सकता है, तीसरे क्रॉसवेलिडेड जर्नल क्लब
स्टीफन

जवाबों:


14

मैं खुद यह सोच रहा हूं , और यहां मेरे अस्थायी निष्कर्ष हैं। मुझे खुशी होगी अगर कोई भी अपने ज्ञान और इस विषय पर किसी भी संदर्भ के साथ पूरक / सुधार कर सके।

यदि आप सांख्यिकीय महत्व की जाँच करके लॉजिस्टिक रिग्रेशन गुणांक के बारे में परिकल्पनाओं का परीक्षण करना चाहते हैं, तो आपको प्रेक्षणों के संबंध में सहसंबंध बनाने की आवश्यकता है (या गैर-स्वतंत्रता के लिए सही है) क्योंकि अन्यथा आपके मानक त्रुटियां बहुत छोटी होंगी, कम से कम जब आप भीतर विचार कर रहे हों- क्लस्टर प्रभाव। लेकिन प्रतिगमन गुणांक सहसंबद्ध टिप्पणियों के साथ भी निष्पक्ष हैं, इसलिए भविष्यवाणी के लिए इस तरह के मॉडल का उपयोग करना ठीक होना चाहिए।

भविष्य कहनेवाला मॉडलिंग में, आपको अपने मॉडल को प्रशिक्षित करते समय सहसंबंध के लिए स्पष्ट रूप से ध्यान देने की आवश्यकता नहीं होनी चाहिए, चाहे आप लॉजिस्टिक प्रतिगमन या कुछ अन्य दृष्टिकोण का उपयोग कर रहे हों। हालाँकि, यदि आप आउट-ऑफ-सैंपल त्रुटि के सत्यापन या संगणना के लिए होल्डआउट सेट का उपयोग करना चाहते हैं, तो आप यह सुनिश्चित करना चाहेंगे कि प्रत्येक व्यक्ति के लिए अवलोकन केवल एक सेट में दिखाई दें, या तो प्रशिक्षण या सत्यापन दोनों नहीं। अन्यथा आपका मॉडल उन व्यक्तियों के लिए भविष्यवाणी कर रहा होगा जिनके बारे में पहले से ही कुछ जानकारी है और आपको आउट-ऑफ-सैंपल वर्गीकरण क्षमता के बारे में सही जानकारी नहीं मिल रही है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.