भविष्य कहनेवाला मॉडलिंग के लिए, क्या हमें सांख्यिकीय अवधारणाओं जैसे यादृच्छिक प्रभावों और टिप्पणियों की गैर-स्वतंत्रता (बार-बार के उपायों) के साथ खुद को चिंतित करने की आवश्यकता है? उदाहरण के लिए....
मेरे पास विभिन्न विशेषताओं और खरीद के लिए एक ध्वज के साथ 5 प्रत्यक्ष मेल अभियानों (एक वर्ष के दौरान हुई) का डेटा है। आदर्श रूप में, मैं इस सभी डेटा का उपयोग अभियान के समय दिए गए ग्राहक विशेषताओं की खरीद के लिए एक मॉडल बनाने के लिए करेगा। कारण यह है कि खरीद की घटना दुर्लभ है और मैं अधिक से अधिक जानकारी का उपयोग करना चाहूंगा। एक मौका है कि एक दिया गया ग्राहक अभियानों के 1 से 5 तक कहीं भी हो सकता है - जिसका अर्थ है कि अभिलेखों के बीच स्वतंत्रता नहीं है।
उपयोग करते समय क्या यह बात मायने रखती है:
1) एक मशीन सीखने का दृष्टिकोण (जैसे पेड़, एमएलपी, एसवीएम)
2) एक सांख्यिकीय दृष्टिकोण (लॉजिस्टिक रिग्रेशन)?
**ADD:**
भविष्य कहनेवाला मॉडलिंग के बारे में मेरा विचार यह है कि यदि मॉडल काम करता है, तो इसका उपयोग करें। इसलिए कि मैंने कभी भी मान्यताओं के महत्व को नहीं माना है। मेरे द्वारा बताए गए मामले के बारे में सोचकर मुझे आश्चर्य हुआ।
मशीन लर्निंग एल्गोरिदम जैसे a MLP and SVM
। इनका उपयोग बाइनरी ईवेंट को सफलतापूर्वक मॉडल करने के लिए किया जाता है जैसे कि ऊपर मेरा उदाहरण लेकिन समय श्रृंखला डेटा जो स्पष्ट रूप से सहसंबद्ध हैं। हालांकि, कई उपयोग हानि कार्य जो त्रुटियों की संभावना और व्युत्पन्न हैं, आईआईडी हैं। उदाहरण के लिए, R में ढाल वाले बूस्टेड पेड़ gbm
विचलन हानि कार्यों का उपयोग करते हैं जो द्विपद ( 10 पृष्ठ ) से प्राप्त होते हैं ।