निम्नलिखित अंश श्वार्ज की हेज फंड मार्केट विज्ड्र्स (मई 2012) से है, जो लगातार सफल हेज फंड मैनेजर जाफरे वुड्रिफ के साथ एक साक्षात्कार है:
प्रश्न के लिए: "डेटा माइनिंग में लोगों द्वारा किए गए कुछ सबसे खराब त्रुटियां क्या हैं?":
बहुत सारे लोग सोचते हैं कि वे ठीक हैं क्योंकि वे प्रशिक्षण के लिए नमूना डेटा का उपयोग करते हैं और परीक्षण के लिए नमूना डेटा बाहर करते हैं। फिर वे मॉडल को सॉर्ट करते हैं कि उन्होंने इन-सैंपल डेटा पर कैसे प्रदर्शन किया और आउट-ऑफ-सैंपल डेटा पर परीक्षण करने के लिए सबसे अच्छे लोगों को चुना। मानव प्रवृत्ति उन मॉडलों को लेना है जो आउट-ऑफ-सैंपल डेटा में अच्छा प्रदर्शन करना जारी रखते हैं और ट्रेडिंग के लिए उन मॉडलों को चुनते हैं। इस तरह की प्रक्रिया बस आउट-ऑफ-सैंपल डेटा को ट्रेनिंग डेटा के हिस्से में बदल देती है क्योंकि यह उन मॉडलों को चुनता है जो आउट-ऑफ-सैंपल अवधि में सबसे अच्छा करते थे। यह सबसे आम त्रुटियों में से एक है जिसे लोग बनाते हैं और एक कारण है कि डेटा खनन क्योंकि यह आमतौर पर लागू होता है भयानक परिणाम देता है।
साक्षात्कारकर्ता ने पूछा: "इसके बजाय आपको क्या करना चाहिए?":
आप उन पैटर्नों की तलाश कर सकते हैं, जहां औसतन, सभी मॉडल आउट-ऑफ-सैंपल अच्छा करते रहें। आप जानते हैं कि आप अच्छा प्रदर्शन कर रहे हैं, तो आउट-ऑफ-सैंपल मॉडल का औसत नमूना स्कोर का महत्वपूर्ण प्रतिशत है। आमतौर पर, अगर आप आउट-ऑफ-सैंपल परिणाम 50 प्रतिशत से अधिक नमूना लेते हैं, तो आप वास्तव में कहीं न कहीं मिल रहे हैं। QIM का बिजनेस मॉडल कभी काम नहीं करता अगर एसएएस और आईबीएम महान पूर्वानुमानात्मक मॉडलिंग सॉफ्टवेयर का निर्माण कर रहे होते।
मेरे प्रश्न
क्या इसका कोई मतलब है? उसका क्या मतलब है? क्या आपके पास एक सुराग है - या शायद प्रस्तावित पद्धति और कुछ संदर्भों के लिए एक नाम भी है? या इस आदमी को पवित्र कब्र मिल गई जिसे कोई और नहीं समझता है? वह इस साक्षात्कार में यहां तक कहते हैं कि उनकी पद्धति विज्ञान में संभावित रूप से क्रांति ला सकती है ...