आपको यह जानकर आश्चर्य होगा कि 80/20 एक सामान्य रूप से होने वाला अनुपात है, जिसे अक्सर पेरेटो सिद्धांत के रूप में जाना जाता है । यदि आप उस अनुपात का उपयोग करते हैं तो यह आमतौर पर एक सुरक्षित शर्त है।
हालाँकि, आपके द्वारा नियोजित प्रशिक्षण / सत्यापन पद्धति के आधार पर, अनुपात बदल सकता है। उदाहरण के लिए: यदि आप 10-गुना क्रॉस सत्यापन का उपयोग करते हैं, तो आप प्रत्येक गुना पर 10% के सत्यापन सेट के साथ समाप्त होंगे।
प्रशिक्षण सेट और सत्यापन सेट के बीच उचित अनुपात क्या है, इस बारे में कुछ शोध हुए हैं :
सत्यापन सेट के लिए आरक्षित पैटर्न का अंश मुक्त समायोज्य मापदंडों की संख्या के वर्गमूल के व्युत्क्रमानुपाती होना चाहिए।
अपने निष्कर्ष में वे एक सूत्र निर्दिष्ट करते हैं:
प्रशिक्षण सेट (टी) आकार अनुपात, वी / टी, एलएन (एन / एच-मैक्स) जैसे तराजू, जहां एन पहचानकर्ताओं के परिवारों की संख्या है और एच-मैक्स उन परिवारों की सबसे बड़ी जटिलता है।
जटिलता से उनका क्या अर्थ है:
पहचानकर्ता के प्रत्येक परिवार को इसकी जटिलता की विशेषता है, जो वीसी-आयाम , विवरण लंबाई, समायोज्य मापदंडों की संख्या या जटिलता के अन्य उपायों से संबंधित हो सकता है या नहीं ।
अंगूठे का पहला नियम लेना (ievalidation सेट, मुफ्त समायोज्य मापदंडों की संख्या के वर्गमूल के व्युत्क्रमानुपाती होना चाहिए), आप यह निष्कर्ष निकाल सकते हैं कि यदि आपके पास 32 समायोज्य पैरामीटर हैं, तो 32 का वर्गमूल ~ 5.65 है, अंश होना चाहिए। 1 / 5.65 या 0.177 (वी / टी)। मोटे तौर पर 17.7% सत्यापन के लिए और 82.3% प्रशिक्षण के लिए आरक्षित होना चाहिए।