क्रॉस सत्यापन, लर्निंग कर्व और अंतिम मूल्यांकन के लिए डेटासेट को कैसे विभाजित करें?


69

डेटासेट को विभाजित करने के लिए एक उपयुक्त रणनीति क्या है?

मैं निम्नलिखित दृष्टिकोण पर प्रतिक्रिया के लिए पूछना (जैसे व्यक्तिगत मानकों के आधार पर नहीं test_sizeया n_iter, लेकिन अगर मैं इस्तेमाल किया X, y, X_train, y_train, X_test, और y_testउचित रूप से और अनुक्रम समझ में आता है तो):

( इस उदाहरण को विस्तार से जानें- डॉक्यूमेंटेशन से)

1. डेटासेट लोड करें

from sklearn.datasets import load_digits
digits = load_digits()
X, y = digits.data, digits.target

2. प्रशिक्षण और परीक्षण सेट में विभाजित (जैसे, 80/20)

from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

3. आकलनकर्ता चुनें

from sklearn.svm import SVC
estimator = SVC(kernel='linear')

4. क्रॉस-वेलिडेशन इटरेटर चुनें

from sklearn.cross_validation import ShuffleSplit
cv = ShuffleSplit(X_train.shape[0], n_iter=10, test_size=0.2, random_state=0)

5. हाइपरपामेटर्स को ट्यून करें

प्रशिक्षण सेट पर क्रॉस-सत्यापन पुनरावृत्ति को लागू करना

from sklearn.grid_search import GridSearchCV
import numpy as np
gammas = np.logspace(-6, -1, 10)
classifier = GridSearchCV(estimator=estimator, cv=cv, param_grid=dict(gamma=gammas))
classifier.fit(X_train, y_train)

6. सीखने की अवस्था के साथ डीबग एल्गोरिथ्म

X_trainबेतरतीब ढंग से एक प्रशिक्षण और 10 बार ( n_iter=10) सेट एक परीक्षण में विभाजित है । प्रशिक्षण-स्कोर वक्र पर प्रत्येक बिंदु 10 अंकों का औसत है जहां मॉडल को पहले i प्रशिक्षण उदाहरणों पर प्रशिक्षित और मूल्यांकन किया गया था । क्रॉस-वेलिडेशन स्कोर वक्र पर प्रत्येक बिंदु 10 स्कोर का औसत है जहां मॉडल को पहले i प्रशिक्षण उदाहरणों पर प्रशिक्षित किया गया था और परीक्षण सेट के सभी उदाहरणों पर मूल्यांकन किया गया था।

from sklearn.learning_curve import learning_curve
title = 'Learning Curves (SVM, linear kernel, $\gamma=%.6f$)' %classifier.best_estimator_.gamma
estimator = SVC(kernel='linear', gamma=classifier.best_estimator_.gamma)
plot_learning_curve(estimator, title, X_train, y_train, cv=cv)
plt.show()

सीखने की अवस्था

प्लॉट_learning_curve () scikit-learn (0.15-git) के वर्तमान देव संस्करण में पाया जा सकता है।

7. परीक्षण सेट पर अंतिम मूल्यांकन

classifier.score(X_test, y_test)

7a। नेस्टेड क्रॉस-वेलिडेशन (संपूर्ण डेटासेट का उपयोग करके) के साथ मॉडल चयन में टेस्ट-फिटिंग

from sklearn.cross_validation import cross_val_score
cross_val_score(classifier, X, y)

अतिरिक्त प्रश्न: क्या यह नेस्टेड क्रॉस-वैलिडेशन द्वारा चरण 7 को बदलने के लिए समझ में आता है? या नेस्टेड केवी को चरण 7 के पूरक के रूप में देखा जाना चाहिए

(कोड को स्किट-लर्न में k- गुना क्रॉस सत्यापन के साथ काम करना लगता है, लेकिन फेरबदल और विभाजन के साथ नहीं। इसलिए cvकोड को काम करने के लिए ऊपर बदलने की आवश्यकता है)

8. संपूर्ण डेटासेट पर ट्रेन का अंतिम मॉडल

classifier.fit(X, y)

संपादित करें: मैं अब cbeleites से सहमत हूं कि चरण 7a इस क्रम में बहुत मायने नहीं रखता है। इसलिए मैं इसे नहीं अपनाऊंगा।


आप किस सटीकता स्कोरिंग नियम का उपयोग कर रहे हैं? यदि यह वर्गीकरण सटीकता है, तो इस तरह के अनुचित स्कोरिंग नियम आपके द्वारा किए गए अधिकांश कार्यों को पूर्ववत कर देगा।
फ्रैंक हरेल

मैंने डिफ़ॉल्ट का उपयोग किया जो वास्तव में वर्गीकरण सटीकता है। मुझे पता है कि, उदाहरण के लिए, एफ 1 अधिक उपयुक्त होगा। लेकिन यहाँ मुझे बस दिलचस्पी है अगर विभाजन ठीक उपयोग किए जाते हैं।
टोबिप

3
मैं लगभग निश्चित हूं कि एफ 1 एक पुरानी अवधारणा का एक नया नाम है। मुझे लगता है कि पुरानी चीजों के लिए नए नामों का आविष्कार करना उल्टा है। इससे भी महत्वपूर्ण बात यह है कि यह एक अनुचित स्कोरिंग नियम है, जिसके परिणामस्वरूप गलत विशेषताओं का चयन होने के साथ-साथ पूरी प्रक्रिया में अच्छा खासा शोर भी बढ़ेगा।
फ्रैंक हरेल

3
... किसी भी मामले में F1 सटीकता की समस्याओं को साझा करता है @FrankHarrell के लिए सभी दृष्टिकोण: ये कठिन वर्गीकरण के परीक्षण मामलों के अंशों को गिनने से हैं। फ्रैंक के उचित स्कोरिंग नियमों में से एक को प्राप्त करने के लिए, आपको एसवीएम के संभाव्य आउटपुट पर स्विच करना होगा, और फिर सटीकता के बजाय बायर के स्कोर (मतलब चुकता त्रुटि) का उपयोग करना होगा। मुझे लगता है कि आप एफ 1 के एक एमएसई-प्रकार संस्करण भी प्राप्त कर सकते हैं। ट्यूनिंग चरण के लिए ऐसे उपाय वास्तव में बेहतर होने चाहिए। अंतिम प्रदर्शन को संप्रेषित करने के लिए, आपको अपने समुदाय के प्रदर्शन के विशिष्ट तरीकों (जैसे सटीकता, F1) की भी आवश्यकता हो सकती है।
cbeleites

1
@ ta.ft: क्या दृष्टिकोण गलत है या नहीं यह इस बात पर निर्भर करता है कि आप क्या गलत मानते हैं: आनुपातिकों पर ग्रिड खोज में स्किमिंग विचरण का एक गंभीर खतरा है जब तक कि आपके पास स्वतंत्र मामलों की बड़ी संख्या नहीं है। इसलिए, कई स्थितियों के लिए दावा है कि ग्रिड खोज से इष्टतम मॉडल की उपज गलत है। हालांकि, यदि आप उचित नेस्टेड सत्यापन करते हैं, तो बाहरी सत्यापन चुने हुए "इष्टतम" मॉडल के प्रदर्शन का एक ईमानदार माप देता है। तो यह गलत नहीं है। आपको बस इस बात की कोई गारंटी नहीं है कि ग्रिड खोज को इष्टतम मॉडल मिला है। साहित्य के लिए, मैं अपना जवाब अपडेट करूंगा।
cbeleites

जवाबों:


41

मुझे यकीन नहीं है कि आप चरण 7 ए में क्या करना चाहते हैं। जैसा कि मैंने अभी समझा, यह मेरे लिए कोई मतलब नहीं है।

यहां बताया गया है कि मैं आपके विवरण को कैसे समझता हूं: चरण 7 में, आप चरण 4 - 6. को गले लगाने वाले क्रॉस वैल्यूएशन के परिणामों के साथ होल्ड-आउट प्रदर्शन की तुलना करना चाहते हैं (इसलिए हां, यह एक नेस्टेड सेटअप होगा)।

मुख्य बिंदु क्यों मुझे नहीं लगता कि यह तुलना बहुत मायने रखती है:

  • यह तुलना ओवरटॉपिमिस्टिक सत्यापन परिणामों के दो मुख्य स्रोतों का पता नहीं लगा सकती है जिनका मैं अभ्यास में सामना करता हूँ:

    • प्रशिक्षण और परीक्षण डेटा के बीच डेटा लीक (निर्भरता) जो एक पदानुक्रमित (उर्फ क्लस्टर) डेटा संरचना के कारण होता है, और जिसका विभाजन में हिसाब नहीं होता है। मेरे क्षेत्र में, हमारे पास आमतौर पर एक ही रोगी या एक प्रयोग की जैविक प्रतिकृति के रीडिंग (डेटा मैट्रिक्स में पंक्तियाँ) के कई (कभी-कभी हजारों) होते हैं। ये स्वतंत्र नहीं हैं, इसलिए रोगी स्तर पर सत्यापन विभाजन को पूरा करने की आवश्यकता है। हालाँकि, इस तरह का डेटा लीक होता है, आप इसे होल्ड आउट सेट के लिए विभाजन और क्रॉस सत्यापन विभाजन में विभाजित करेंगे। होल्ड-आउट वॉल्ड तो क्रॉस-वेलिडेशन के रूप में सिर्फ आशावादी पक्षपाती होते हैं।

    • पूरे डेटा मैट्रिक्स पर किए गए डेटा का प्रीप्रोसेसिंग, जहां गणना प्रत्येक पंक्ति के लिए स्वतंत्र नहीं होती है, लेकिन प्रीप्रोसेसिंग के लिए मापदंडों की गणना करने के लिए कई / सभी पंक्तियों का उपयोग किया जाता है। विशिष्ट उदाहरण "वास्तविक" वर्गीकरण से पहले एक पीसीए प्रक्षेपण होगा।
      फिर से, यह आपके होल्ड-आउट और बाहरी क्रॉस सत्यापन दोनों को प्रभावित करेगा, इसलिए आप इसका पता नहीं लगा सकते।

    मेरे द्वारा काम किए जाने वाले डेटा के लिए, दोनों त्रुटियां आसानी से गर्भपात के अंश को परिमाण के एक क्रम से कम करके आंका जा सकता है!

  • यदि आप परीक्षण मामलों के इस गिने हुए अंश को प्रदर्शन के प्रकार तक सीमित रखते हैं, तो मॉडल तुलनाओं को या तो बहुत बड़ी संख्या में परीक्षण मामलों की आवश्यकता होती है या सच्चे प्रदर्शन में बड़े अंतर की आवश्यकता होती है। असीमित प्रशिक्षण डेटा के साथ 2 क्लासिफायर की तुलना आगे पढ़ने के लिए एक अच्छी शुरुआत हो सकती है।

हालांकि, मॉडल की गुणवत्ता की तुलना "इष्टतम" मॉडल और बाहरी क्रॉस सत्यापन के लिए आंतरिक क्रॉस सत्यापन के दावों की तुलना करने से होती है: यदि विसंगति अधिक है, तो यह संदिग्ध है कि क्या आपकी ग्रिड खोज अनुकूलन ने काम किया है (आप हो सकते हैं) प्रदर्शन माप के उच्च विचरण के कारण स्किम्ड विचरण।) यह तुलना आसान है कि आप परेशानी का सामना कर सकते हैं यदि आपके पास आंतरिक अनुमान दूसरे की तुलना में हास्यास्पद रूप से अच्छा है - यदि ऐसा नहीं है, तो आपको अपने अनुकूलन के बारे में ज्यादा चिंता करने की आवश्यकता नहीं है। लेकिन किसी भी मामले में, यदि आपके बाहरी (7) प्रदर्शन का माप ईमानदार और मजबूत है, तो आपको कम से कम प्राप्त मॉडल का एक उपयोगी अनुमान है, चाहे वह इष्टतम हो या न हो।

सीखने की अवस्था को मापने वाला IMHO एक अलग समस्या है। मैं शायद अलग है कि के साथ सौदा चाहते हैं, और मैं आपको और अधिक स्पष्ट रूप से क्या आप सीखने की अवस्था की जरूरत के लिए (आप के लिए सीखने की अवस्था की आवश्यकता है परिभाषित करने की जरूरत लगता है एक भी समस्या, डेटा के डेटा सेट, और वर्गीकरण विधि या सीखने की अवस्था दी गई समस्या, डेटा और वर्गीकरण मेहतोड के इस डेटा सेट के लिए), और आगे के निर्णयों का एक समूह (जैसे कि प्रशिक्षण नमूना आकार के कार्य के रूप में मॉडल जटिलता से कैसे निपटें? सभी को फिर से अनुकूलित करें, निर्धारित हाइपरपरमेटर्स का उपयोग करें, निर्णय लें? प्रशिक्षण सेट आकार के आधार पर हाइपरपरमेटर्स को ठीक करने का कार्य?)

(मेरे डेटा में आमतौर पर सीखने की अवस्था का माप प्राप्त करने के लिए बहुत कम स्वतंत्र मामले हैं, जो इसे अभ्यास में उपयोग करने के लिए पर्याप्त रूप से सटीक हैं - लेकिन आप बेहतर हो सकते हैं कि आपकी 1200 पंक्तियाँ वास्तव में स्वतंत्र हैं)


अद्यतन: scikit-learn उदाहरण के साथ "गलत" क्या है?

सबसे पहले, नेस्टेड क्रॉस सत्यापन के साथ कुछ भी गलत नहीं है। डेटा-संचालित ऑप्टिमाइज़ेशन के लिए नेस्टेड वेलिडेशन का अत्यधिक महत्व है, और क्रॉस वेलिडेशन एक बहुत शक्तिशाली दृष्टिकोण है (विशेषकर यदि इसे दोहराया या दोहराया गया)।

फिर, चाहे कुछ भी गलत हो, आपकी बात पर निर्भर करता है: जब तक आप एक ईमानदार नेस्टेड वेलिडेशन करते हैं (बाहरी परीक्षण डेटा को सख्ती से स्वतंत्र रखते हैं), बाहरी सत्यापन "इष्टतम" मॉडल के प्रदर्शन का एक उचित उपाय है। कुछ गलत नहीं है उसके साथ।

लेकिन एसवीएम के हाइपरपैरेट ट्यूनिंग के लिए इन अनुपात-प्रकार के प्रदर्शन उपायों की ग्रिड खोज के साथ कई चीजें गलत हो सकती हैं। मूल रूप से उनका मतलब है कि आप (शायद?) Cannont अनुकूलन पर भरोसा करते हैं। फिर भी, जब तक कि आपका बाहरी विभाजन ठीक से नहीं किया गया था, भले ही मॉडल सबसे अच्छा संभव न हो, आपके पास उस मॉडल के प्रदर्शन का एक ईमानदार अनुमान है जो आपको मिला था।

मैं सहज स्पष्टीकरण देने की कोशिश करूंगा कि अनुकूलन मुश्किल में क्यों हो सकता है:

  • गणितीय / सांख्यिकीय रूप से बोलते हुए, अनुपात के साथ समस्या यह है कि मापा अनुपात परिमित परीक्षण नमूना आकार (मॉडल, के सही प्रदर्शन पर भी निर्भर करता है) के कारण एक विशाल विचरण के अधीन हैं : एनपीवीएकआर( पी )=पी(1-पी)p^np
    Var(p^)=p(1p)n

    आपको याद रखने योग्य, सटीक (मशीन लर्निंग परफॉर्मेंस सेंस) का अनुमान लगाने के लिए आवश्यक परिशुद्धता (पूर्वाग्रह / विचरण भावना) को प्राप्त करने के लिए हास्यास्पद रूप से बड़ी संख्या में मामलों की आवश्यकता होती है (कम से कम मामलों की संख्या जो मेरे पास आमतौर पर हो सकती है) की तुलना में। यह निश्चित रूप से ऐसे अनुपातों पर भी लागू होता है जिनकी गणना आप ऐसे अनुपात से करते हैं। द्विपद अनुपात के लिए विश्वास अंतराल पर एक नजर है। वे चौंकाने वाले बड़े हैं! हाइपरपरमीटर ग्रिड पर प्रदर्शन में वास्तविक सुधार की तुलना में अक्सर बड़ा। और सांख्यिकीय रूप से बोलना, ग्रिड खोज एक बहुत अधिक तुलनात्मक समस्या है: ग्रिड के जितने अधिक बिंदु आप मूल्यांकन करते हैं, उतने ही हाइपरपैरेटर्स के कुछ संयोजन को खोजने का जोखिम उतना अधिक होता है जो आपके द्वारा मूल्यांकन किए जा रहे ट्रेन / परीक्षण विभाजन के लिए गलती से बहुत अच्छा लगता है। यह मेरा मतलब है स्किमिंग विचरण के साथ।

  • सहज रूप से, हाइपरपैरमीटर के एक काल्पनिक परिवर्तन पर विचार करें, जो धीरे-धीरे मॉडल को खराब करने का कारण बनता है: एक परीक्षण मामला निर्णय सीमा की ओर बढ़ता है। 'हार्ड' अनुपात प्रदर्शन के उपाय इस बात का पता नहीं लगाते हैं जब तक कि मामला सीमा पार नहीं करता और गलत पक्ष पर है। फिर, हालांकि, वे तुरंत हाइपरपरमीटर में एक असीम रूप से छोटे परिवर्तन के लिए एक पूर्ण त्रुटि प्रदान करते हैं।
    संख्यात्मक अनुकूलन करने के लिए, आपको अच्छा व्यवहार करने के लिए प्रदर्शन माप की आवश्यकता होती है। इसका मतलब है: अनुपात-प्रकार के प्रदर्शन माप के न तो उछल-कूद (लगातार अलग-अलग नहीं) और न ही उस कूद के अलावा, वास्तव में होने वाले परिवर्तनों का पता लगाने के अनुकूलन के लिए उपयुक्त हैं।
    उचित स्कोरिंग नियमों को एक तरह से परिभाषित किया गया है जो अनुकूलन के लिए विशेष रूप से उपयुक्त है। उनके पास अपनी वैश्विक अधिकतम है जब अनुमानित संभावनाएं प्रत्येक मामले के लिए प्रश्न में वर्ग से संबंधित होने की सही संभावनाओं से मेल खाती हैं।

  • एसवीएम के लिए आपको अतिरिक्त समस्या है कि न केवल प्रदर्शन के उपाय, बल्कि मॉडल भी इस उछल फैशन में प्रतिक्रिया करता है: हाइपरपरमीटर के छोटे परिवर्तन से कुछ भी नहीं बदलेगा। मॉडल केवल तभी बदलता है जब हाइपरपरमेटर्स कुछ परिवर्तन का कारण बनते हैं ताकि किसी भी मामले का समर्थन वेक्टर को रोकने या समर्थन वेक्टर बनने के लिए किया जा सके। फिर से, ऐसे मॉडल को अनुकूलित करना मुश्किल है।

साहित्य:


अद्यतन II: स्किमिंग विचरण

आप मॉडल की तुलना के मामले में क्या बर्दाश्त कर सकते हैं यह स्पष्ट रूप से स्वतंत्र मामलों की संख्या पर निर्भर करता है। चलिए यहां स्किमिंग विचरण के जोखिम के बारे में कुछ त्वरित और गंदे अनुकरण करते हैं:

scikit.learnकहते हैं कि उनके पास 1797 digitsआंकड़े हैं।

  • मान लें कि 100 मॉडल की तुलना की जाती है, उदाहरण के लिए 2 मापदंडों के लिए ग्रिड।10×10
  • मान लें कि दोनों पैरामीटर (रेंज) मॉडल को बिल्कुल प्रभावित नहीं करते हैं,
  • यानी, सभी मॉडलों का एक ही सही प्रदर्शन है, कहते हैं, 97% ( digitsडेटा सेट के लिए विशिष्ट प्रदर्शन )।

  • डेटा सेट में नमूना आकार = 1797 पंक्तियों के साथ "इन मॉडलों के परीक्षण" के सिमुलेशन चलाएं104digits

    p.true = 0.97 # hypothetical true performance for all models
    n.models = 100 # 10 x 10 grid
    
    n.rows = 1797 # rows in scikit digits data
    
    sim.test <- replicate (expr= rbinom (n= nmodels, size= n.rows, prob= p.true), 
                           n = 1e4)
    sim.test <- colMaxs (sim.test) # take best model
    
    hist (sim.test / n.rows, 
          breaks = (round (p.true * n.rows) : n.rows) / n.rows + 1 / 2 / n.rows, 
          col = "black", main = 'Distribution max. observed performance',
          xlab = "max. observed performance", ylab = "n runs")
    abline (v = p.outer, col = "red")
    

यहाँ सबसे अच्छा प्रदर्शन के लिए वितरण है:

स्किमिंग विचरण सिमुलेशन

लाल रेखा हमारे सभी काल्पनिक मॉडल के वास्तविक प्रदर्शन को चिह्नित करती है। औसतन, हम 100 की तुलना में सबसे अच्छे मॉडल के लिए वास्तविक त्रुटि दर का केवल 2/3 निरीक्षण करते हैं (सिमुलेशन के लिए हम जानते हैं कि वे सभी 97% सही भविष्यवाणियों के साथ समान रूप से प्रदर्शन करते हैं)।

यह अनुकरण स्पष्ट रूप से बहुत सरल है:

  • मॉडल के अस्थिरता के कारण परीक्षण के नमूने के आकार के विचरण के अलावा कम से कम विचरण है, इसलिए हम यहां विचरण को कम कर रहे हैं
  • मॉडल जटिलता को प्रभावित करने वाले ट्यूनिंग पैरामीटर आमतौर पर पैरामीटर सेट को कवर करेंगे जहां मॉडल अस्थिर होते हैं और इस प्रकार उच्च विचरण होता है।
  • उदाहरण के लिए यूसीआई अंकों के लिए, मूल डेटा बेस सीए है। 44 व्यक्तियों द्वारा लिखे गए 11000 अंक। क्या होगा यदि डेटा उस व्यक्ति के अनुसार क्लस्टर किया जाता है जिसने लिखा था? (यानी किसी व्यक्ति द्वारा लिखित 8 को पहचानना आसान है यदि आप जानते हैं कि वह व्यक्ति कैसे लिखता है, कह सकता है, तो 3?) प्रभावी नमूना आकार तब 44 के रूप में कम हो सकता है।
  • ट्यूनिंग मॉडल हाइपरपरमेटर्स मॉडल के बीच सहसंबंध पैदा कर सकता है (वास्तव में, इसे संख्यात्मक अनुकूलन दृष्टिकोण से अच्छा व्यवहार माना जाएगा)। उस के प्रभाव की भविष्यवाणी करना मुश्किल है (और मुझे संदेह है कि यह वास्तविक प्रकार के क्लासिफायरियर को ध्यान में रखे बिना असंभव है)।

सामान्य तौर पर, हालांकि, स्वतंत्र परीक्षण मामलों की कम संख्या और तुलनात्मक मॉडल की उच्च संख्या पूर्वाग्रह को बढ़ाती है। इसके अलावा, Cawley और टैलबोट पेपर अनुभवजन्य मनाया व्यवहार देता है।


@ कैशलेस: यदि इष्टतम मॉडल खोजने के लिए ग्रिड खोज एक उपयुक्त विधि नहीं हो सकती है, तो मुझे किस विधि का चयन करना चाहिए?
टोबिप

1
@ ta.ft: दो दृष्टिकोण a) मॉडलिंग में आपके एप्लिकेशन और डेटा के बारे में बहुत अधिक बाहरी ज्ञान को शामिल करते हैं ताकि उन मॉडलों की संख्या को काफी कम किया जा सके जिनकी तुलना करने की आवश्यकता है (= अनुकूलन के बजाय हाइपरपरमेटर्स तय करें)। यह एक क्लासिफायर में बदलने के लिए समग्र रूप से बेहतर हो सकता है जिसमें आंतरिक रूप से सार्थक हाइपरपरमेटर्स होते हैं, अर्थात जहां आप एप्लिकेशन और डेटा प्रकार से जान सकते हैं कि हाइपरपैरमीटर क्या होना चाहिए (लगभग)। बी) उचित स्कोरिंग नियम द्वारा कुछ शेष मॉडल की तुलना करें। उदाहरण के लिए बाधाओं में कई क्लासिफायर के लिए बेहतर गुण हैं।
cbeleites

1
आप सभी (निर्णय (क) के माध्यम से) अनुकूलन करने से मना कर सकते हैं। यदि आपको एक अच्छा-पर्याप्त क्लासिफ़ायर मिलता है और यह तर्क दे सकता है कि आपके पास उपलब्ध नमूना आकार को दिए गए किसी अन्य क्लासिफ़ायर की श्रेष्ठता साबित करने का कोई मौका नहीं है (उदाहरण के लिए कुछ डेमो मैकनेमर गणना करें, एक काल्पनिक उच्च श्रेणी के लिए अनुपात तुलना के लिए आवश्यक नमूना आकार देखें - वहाँ है एक अच्छा मौका है कि ये हास्यास्पद रूप से बड़े काल्पनिक सुधारों के लिए भी बड़ा होगा), आप तर्क दे सकते हैं कि अनुकूलन का कोई मतलब नहीं है और बस ओवरफिटिंग का खतरा पैदा करता है।
cbeleites

मैं "स्किमिंग विचरण" पर आपसे सहमत नहीं हूँ। यदि आपके पास हाइपरपरमीटर अनुकूलन के लिए ग्रिड में बहुत सारे बिंदु हैं, तो एक बिंदु सीवी के एक गुना में अवसरवादी रूप से भाग्यशाली हो सकता है; लेकिन अगर आपके पास 10-सीवी सीवी है, तो यह अभी भी संभावना नहीं है कि पैरामीटर का एक सेट गलती से सीवी के सभी 10 गुना पर भाग्यशाली होगा।
RNA

1
@RNA: सभी सिलवटों में "भाग्यशाली" होने की संभावना सीधे सभी मामलों की कुल संख्या (सभी 10 सिलवटों) से जुड़ी हुई है, और आमतौर पर उन सभी सिलवटों पर केवल औसत माना जाता है। मैंने 100 मॉडलों में से सर्वश्रेष्ठ के एक काल्पनिक उठा के अनुकरण के साथ उत्तर को अद्यतन किया (जैसे, 10 कदम प्रत्येक के साथ 2 हाइपरपरमेटर्स), जो पहले से ही उदाहरण के परिदृश्य के लिए काफी पूर्वाग्रह से जुड़ा हुआ है (त्रुटि दर 1/3 से बहुत कम) । यहाँ बहुत से लोगों के हाथ में शायद ही कुछ हज़ार स्वतंत्र मामले हैं - उदाहरण के लिए, मेरे पास शायद ही 44 व्यक्ति हैं जिन्होंने पूर्ण यूसीआई अंकों के डेटा सेट के लिए अंक लिखे हैं।
cbeleites
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.