जब आपके पास इतना बड़ा डेटा सेट होता है तो आप किसी भी सांख्यिकीय और मशीन लर्निंग मॉडलिंग तकनीकों के साथ खेल सकते हैं और यह बहुत प्रोत्साहित होता है। जैसा कि अन्य ने सुझाव दिया है कि मैं डेटा से कुछ मिलियन यादृच्छिक नमूने लेने और उसके साथ खेलने की भी सिफारिश करूंगा। चूंकि यह एक वर्गीकरण समस्या है, मैं पहले सरल वर्गीकरण तकनीकों का पालन करूंगा और फिर बाद में अधिक जटिल लोगों के साथ चलूंगा। लॉजिस्टिक रिग्रेशन शुरू करने के लिए बहुत अच्छा है।
मैं जोड़ना चाहता था कि जेनेरेटिव मॉडल भी आज़माए जाएं। नैवे बेस क्लासिफायर सरलतम संभाव्य क्लासिफायरिफायर में से एक है और यह कई जटिल तरीकों जैसे कई कार्यों के लिए वेक्टर मशीनों का समर्थन करता है। आप देख सकते हैं इस एनबी का सरल कार्यान्वयन और एक इस रसद प्रतिगमन को नायब की तुलना के लिए लिंक।
एक आधारभूत मॉडल के रूप में एक नैवे बे (एनबी) क्लासिफायर का निर्माण कर सकता है और फिर किसी भी मशीन लर्निंग तकनीक के लिए जा सकता है जैसे सपोर्ट वेक्टर मशीनें (एसवीएम) या मल्टीलेयर पेसेप्ट्रॉन (एमएलपी)। यहां एक व्यापार बंद है कि NB, MLP की तुलना में कम खर्चीला है, इसलिए MLP से बेहतर प्रदर्शन वांछित है।
आपकी सटीक क्वेरी पर आ रहा है: डीप लर्निंग और ग्रेडिएंट ट्री बूस्टिंग बहुत शक्तिशाली तकनीकें हैं जो डेटा में किसी भी तरह के संबंध को मॉडल कर सकती हैं। लेकिन क्या होगा अगर आपके मामले में एक साधारण लॉजिस्टिक रिग्रेशन या एनबी वांछित सटीकता दे रहा है। तो यह हमेशा पहले सरल तकनीकों को आज़माने के लिए बेहतर है और एक आधारभूत प्रदर्शन है। फिर कोई जटिल मॉडल के लिए जा सकता है और आधार रेखा के साथ तुलना कर सकता है।