मैं छवि वर्गीकरण के लिए एक तंत्रिका नेटवर्क का उपयोग करना चाहूंगा। मैं पूर्व-प्रशिक्षित कैफनेट के साथ शुरू करूँगा और इसे अपने आवेदन के लिए प्रशिक्षित करूँगा।
मुझे इनपुट छवियों को कैसे तैयार करना चाहिए?
इस मामले में, सभी चित्र एक ही वस्तु के होते हैं लेकिन विविधताओं के साथ (सोचते हैं: गुणवत्ता नियंत्रण)। वे कुछ अलग-अलग पैमानों / संकल्पों / दूरियों / प्रकाश व्यवस्था की स्थिति में हैं (और कई मामलों में मुझे पैमाने का पता नहीं है)। इसके अलावा, प्रत्येक छवि में ब्याज की वस्तु के आसपास एक क्षेत्र (ज्ञात) होता है जिसे नेटवर्क द्वारा अनदेखा किया जाना चाहिए।
मैं (उदाहरण के लिए) प्रत्येक छवि के केंद्र को काट सकता था, जिसे ब्याज की वस्तु का एक हिस्सा और अनदेखा क्षेत्र में से कोई भी शामिल करने की गारंटी है; लेकिन ऐसा लगता है कि यह जानकारी को फेंक देगा, और परिणाम भी वास्तव में समान पैमाने (शायद 1.5x भिन्नता) नहीं होंगे।
डेटासिट वृद्धि
मैंने यादृच्छिक फसल / दर्पण / आदि द्वारा अधिक प्रशिक्षण डेटा बनाने के बारे में सुना है, क्या इसके लिए एक मानक तरीका है? क्लासिफायर सटीकता के लिए यह कितना सुधार करता है पर कोई परिणाम?