मेरे पास एक कंप्यूटर विज्ञान पृष्ठभूमि है, लेकिन मैं इंटरनेट पर समस्याओं को हल करके खुद को डेटा विज्ञान सिखाने की कोशिश कर रहा हूं।
मैं पिछले कुछ हफ्तों से इस समस्या पर काम कर रहा हूं (लगभग 900 पंक्तियाँ और 10 विशेषताएँ)। मैं शुरू में लॉजिस्टिक रिग्रेशन का उपयोग कर रहा था, लेकिन अब मैं यादृच्छिक जंगलों में बदल गया हूं। जब मैं अपने प्रशिक्षण डेटा पर अपना रैंडम फ़ॉरेस्ट मॉडल चलाता हूं तो मुझे वास्तव में auc (> 99%) के लिए उच्च मूल्य मिलते हैं। हालाँकि जब मैं परीक्षण डेटा पर एक ही मॉडल चलाता हूं तो परिणाम इतने अच्छे नहीं होते हैं (लगभग 77% की सटीकता)। यह मुझे विश्वास दिलाता है कि मैं प्रशिक्षण डेटा को खत्म कर रहा हूं।
यादृच्छिक जंगलों में फिटिंग को रोकने के बारे में सबसे अच्छे अभ्यास क्या हैं?
मैं अपने विकास के वातावरण के रूप में r और rstudio का उपयोग कर रहा हूं। मैं randomForest
पैकेज का उपयोग कर रहा हूं और सभी मापदंडों के लिए डिफॉल्ट को स्वीकार कर लिया है