डेटा खनन का नया क्रांतिकारी तरीका?


21

निम्नलिखित अंश श्वार्ज की हेज फंड मार्केट विज्ड्र्स (मई 2012) से है, जो लगातार सफल हेज फंड मैनेजर जाफरे वुड्रिफ के साथ एक साक्षात्कार है:

प्रश्न के लिए: "डेटा माइनिंग में लोगों द्वारा किए गए कुछ सबसे खराब त्रुटियां क्या हैं?":

बहुत सारे लोग सोचते हैं कि वे ठीक हैं क्योंकि वे प्रशिक्षण के लिए नमूना डेटा का उपयोग करते हैं और परीक्षण के लिए नमूना डेटा बाहर करते हैं। फिर वे मॉडल को सॉर्ट करते हैं कि उन्होंने इन-सैंपल डेटा पर कैसे प्रदर्शन किया और आउट-ऑफ-सैंपल डेटा पर परीक्षण करने के लिए सबसे अच्छे लोगों को चुना। मानव प्रवृत्ति उन मॉडलों को लेना है जो आउट-ऑफ-सैंपल डेटा में अच्छा प्रदर्शन करना जारी रखते हैं और ट्रेडिंग के लिए उन मॉडलों को चुनते हैं। इस तरह की प्रक्रिया बस आउट-ऑफ-सैंपल डेटा को ट्रेनिंग डेटा के हिस्से में बदल देती है क्योंकि यह उन मॉडलों को चुनता है जो आउट-ऑफ-सैंपल अवधि में सबसे अच्छा करते थे। यह सबसे आम त्रुटियों में से एक है जिसे लोग बनाते हैं और एक कारण है कि डेटा खनन क्योंकि यह आमतौर पर लागू होता है भयानक परिणाम देता है।

साक्षात्कारकर्ता ने पूछा: "इसके बजाय आपको क्या करना चाहिए?":

आप उन पैटर्नों की तलाश कर सकते हैं, जहां औसतन, सभी मॉडल आउट-ऑफ-सैंपल अच्छा करते रहें। आप जानते हैं कि आप अच्छा प्रदर्शन कर रहे हैं, तो आउट-ऑफ-सैंपल मॉडल का औसत नमूना स्कोर का महत्वपूर्ण प्रतिशत है। आमतौर पर, अगर आप आउट-ऑफ-सैंपल परिणाम 50 प्रतिशत से अधिक नमूना लेते हैं, तो आप वास्तव में कहीं न कहीं मिल रहे हैं। QIM का बिजनेस मॉडल कभी काम नहीं करता अगर एसएएस और आईबीएम महान पूर्वानुमानात्मक मॉडलिंग सॉफ्टवेयर का निर्माण कर रहे होते।


मेरे प्रश्न
क्या इसका कोई मतलब है? उसका क्या मतलब है? क्या आपके पास एक सुराग है - या शायद प्रस्तावित पद्धति और कुछ संदर्भों के लिए एक नाम भी है? या इस आदमी को पवित्र कब्र मिल गई जिसे कोई और नहीं समझता है? वह इस साक्षात्कार में यहां तक ​​कहते हैं कि उनकी पद्धति विज्ञान में संभावित रूप से क्रांति ला सकती है ...


4
क्या वह एक एकल विभाजन-नमूना (ट्रेन और सत्यापन) से त्रुटियों पर चर्चा नहीं कर रहा है और एक नेस्टेड क्रॉस सत्यापन प्रक्रिया की वकालत कर रहा है?
B_Miner

12
मैं किसी ऐसे व्यक्ति से सावधान रहूंगा जो कुछ गहरी अंतर्दृष्टि का दावा करता है जो "विज्ञान" में क्रांति लाएगा।
कार्डिनल

2
हेज फंड प्रबंधकों ने "बेहतर मॉडलिंग दृष्टिकोण" का दावा किया है और प्रतियोगिता की बात कर रहे हैं? वहां कुछ भी नया नहीं है।
zbicyclist

2
वाह, यह प्रश्न इतने सारे उत्थान कैसे हो रहा है? आउट ऑफ़ सैंपल प्रिडिक्शन एक ऐसा मुद्दा है जिस पर किसी भी परिचयात्मक मशीन लर्निंग कोर्स के पहले दिन चर्चा की जाती है। ऐसे लोग हैं जो सही-सही भविष्यवाणियों को सही तरीके से संबोधित नहीं करते हैं, लेकिन निश्चित रूप से ऐसा कोई भी नहीं है जिसे भविष्यवाणी के कार्य के बारे में थोड़ा भी सुराग नहीं है।
user4733

ट्रेडिंग निश्चित रूप से एक समय-sereis समस्या है, जो वह कह रहा है कि ऐसा प्रतीत होता है कि क्रॉस-वैलिडेशन (निश्चित रूप से ज्ञात डेटा का उपयोग करके) समय के साथ बदलते हुए संरचना की समस्या को हल नहीं कर सकता है !, इसलिए एक पवित्र कब्र नहीं है। लेकिन वह वास्तव में जो कर रहा है वह अनुमान नहीं किया जा सकता है।
kjetil b halvorsen

जवाबों:


6

क्या इससे कोई मतलब है ? आंशिक रूप से।

उसका क्या मतलब है? कृपया उससे पूछें।

क्या आपके पास एक सुराग है - या शायद प्रस्तावित पद्धति और कुछ संदर्भों के लिए एक नाम भी है?

परिणाम का सत्यापन करना। http://en.wikipedia.org/wiki/Cross-validation_(statistics)

या इस आदमी को पवित्र कब्र मिल गई जिसे कोई और नहीं समझता है? नहीं।

उन्होंने इस साक्षात्कार में यहां तक ​​कहा कि उनकी पद्धति विज्ञान में संभावित क्रांति ला सकती है ... शायद वह उस कथन के संदर्भों को शामिल करना भूल गए ...


2
खैर, कम से कम वह एक सच्ची समस्या की ओर इशारा कर रहा है ...

8

यकीन नहीं होता कि कोई अन्य "रैंटी" प्रतिक्रियाएं आएंगी, लेकिन यह मेरा है।

क्रॉस वैलिडेशन किसी भी तरह से "नया" नहीं है। इसके अतिरिक्त, विश्लेषणात्मक समाधान मिलने पर क्रॉस सत्यापन का उपयोग नहीं किया जाता है। उदाहरण के लिए, आप बेटों का अनुमान लगाने के लिए क्रॉस सत्यापन का उपयोग नहीं करते हैं, आप OLS या IRLS या कुछ अन्य "इष्टतम" समाधान का उपयोग करते हैं।

मैं बोली में एक स्पष्ट रूप से स्पष्ट अंतर के रूप में देखता हूं, वास्तव में "सर्वश्रेष्ठ" मॉडल की जांच करने की किसी भी धारणा का कोई संदर्भ नहीं है यह देखने के लिए कि क्या वे समझ में आते हैं। आम तौर पर, एक अच्छा मॉडल कुछ सहज स्तर पर समझ में आता है। ऐसा लगता है कि दावा है कि CV सभी भविष्यवाणी समस्याओं के लिए एक चांदी की गोली है। ऐसा हम का उपयोग करें - वहाँ भी मॉडल संरचना के उच्च स्तर पर स्थापित करने से दूर नहीं बात है SVM , प्रतिगमन पेड़ , बढ़ाने , जीतना , OLS , GLMS , GLMNS। क्या हम चर को नियमित करते हैं? यदि हां, तो कैसे? क्या हम एक साथ समूह चर बनाते हैं? क्या हम विरलता के लिए मजबूती चाहते हैं? क्या हमारे पास आउटलेयर हैं? क्या हमें डेटा को संपूर्ण या टुकड़ों में मॉडल करना चाहिए? सीवी के आधार पर कई दृष्टिकोण तय किए जाने हैं ।

और एक अन्य महत्वपूर्ण पहलू क्या कंप्यूटर सिस्टम उपलब्ध हैं? डेटा कैसे संग्रहीत और संसाधित किया जाता है? क्या गायब है - हम इसके लिए कैसे जिम्मेदार हैं?

और यहाँ बड़ा एक है: क्या हमारे पास अच्छी भविष्यवाणी करने के लिए पर्याप्त रूप से अच्छा डेटा है? क्या ऐसे ज्ञात चर हैं जो हमारे डेटा सेट में नहीं हैं? क्या हम जो भी भविष्यवाणी करने की कोशिश कर रहे हैं उसका डेटा प्रतिनिधि है?

KK2

npnpnp


9
अच्छा शेख़ी। चाहेंगे बहुत आसान किया गया है पढ़ने के लिए अगर आप हालांकि कभी-कभी टोपी का इस्तेमाल किया था ...
MånsT

4

डेटा खनन में एक सामान्य त्रुटि के बारे में उनकी व्याख्या समझदार लगती है। उनका जो कुछ भी मतलब नहीं है, उसकी व्याख्या। जब वह कहता है कि "आम तौर पर बोल रहा है, तो उसका क्या मतलब है यदि आप आउट-ऑफ-सैंपल परिणाम 50-इन-सैंपल से अधिक हैं?" तब खराब मुंह वाले एसएएस और आईबीएम उसे या तो बहुत स्मार्ट नहीं बनाते हैं। लोगों को आंकड़ों को समझे बिना बाजार में सफलता मिल सकती है और सफलता का हिस्सा भाग्य है। सफल व्यवसायियों के साथ ऐसा व्यवहार करना गलत है जैसे कि वे पूर्वानुमान के गुरु हैं।


1
क्या यह स्पष्ट नहीं है कि उद्धृत वक्तव्य का क्या मतलब था? मॉडल का उपयोग कैसे किया जाए, इस पर निर्भर करते हुए, वह जो कहता है वह बहुत मायने रखता है। उदाहरण के लिए, नेटफ्लिक्स चुनौती से मुख्य "टेकअवे" को "मॉडल सम्मिश्रण" की शक्ति प्रतीत होती है जब तक कि किसी को व्याख्या की बहुत कम आवश्यकता होती है। उस मामले में, विचाराधीन मॉडल के नमूना प्रदर्शन में से कुछ "औसत" पूरी तरह से प्रासंगिक हो सकते हैं।
कार्डिनल

@कार्डिनल: क्या आप इन बहुत ही दिलचस्प विचारों से एक उत्तर दे सकते हैं? बहुत अच्छा होगा, धन्यवाद!
vonjd

2
@कार्डिनल शायद यह आपके लिए स्पष्ट है, लेकिन फिर वाक्य की व्याख्या करें "यदि आप वास्तव में कहीं बाहर हो रहे हैं, तो आउट-ऑफ-सैंपल परिणाम इन-सैंपल के 50 प्रतिशत से अधिक हैं"। यदि आप कह रहे हैं कि मॉडल भर में एम्सटर्ड औसत प्रभावी हो सकता है, तो निश्चित रूप से मैं इससे सहमत हो सकता हूं। कई अनुप्रयोगों में अच्छी तरह से काम करने के लिए बूस्टिंग का प्रदर्शन किया गया है। लेकिन मैं यह नहीं देखता कि वुड्रिफ़ की टिप्पणी से यह कहाँ निकलता है।
बजे माइकल आर। चेरिक जूल

2
मुझे स्पष्ट रूप से इस बात की जानकारी नहीं है कि श्री वुड्रिफ़ क्या दावा कर रहे हैं, लेकिन अंश के आधार पर इस बारे में मेरी व्याख्या कुछ इस प्रकार है: "[मेरे अनुप्रयोगों में] यदि औसत आउट-ऑफ-सैंपल प्रदर्शन [जो भी मीट्रिक का उपयोग कर रहा है] मैं प्रासंगिक हूं] मॉडल को फिट करने के बाद इन-सैंपल परफॉर्मेंस कम से कम आधी है, तो यह मेरे आवेदन के लिए सार्थक है। " मैं गणितज्ञ / सांख्यिकीविद् हूं, इसलिए मुझे कैविएट चाहिए। यदि मैं एक हेज-फंड मैनेजर था, जो कुछ बाहरी मान्यता की तलाश में था, तो मैं अपनी टिप्पणी में अधिक भव्य और पूर्ण हो सकता हूं।
कार्डिनल

1
@ कार्डिनल तो प्रदर्शन दर के रूप में त्रुटि दर लेते हैं, तो आप वुड्रिफ़ को यह कहने के लिए व्याख्या करते हैं कि यदि नमूना त्रुटि दर 5% है और नमूना त्रुटि दर 10% है तो विधि अच्छी है? निर्णय लेने के लिए नमूना प्रदर्शन से बाहर क्यों नहीं देखा? मुझे लगता है कि नमूना प्रदर्शन में नमूना प्रदर्शन से बाहर का अनुपात आपको नमूना त्रुटि दर अनुमान में कितना विश्वसनीय / अविश्वसनीय है के बारे में कुछ बताता है, लेकिन मैं इसे क्लासिफायर के प्रदर्शन के मूल्यांकन में प्रवेश नहीं करता। मैं अभी भी नहीं देखता कि मॉडल सम्मिश्रण उनकी टिप्पणी में कहाँ प्रवेश करता है।
माइकल आर। चेरिक जूल

4

आप उन पैटर्नों की तलाश कर सकते हैं , जहां औसतन, सभी मॉडल आउट-ऑफ-सैंपल अच्छा करते रहें।

शब्द पैटर्न के बारे में मेरी समझ , वह विभिन्न बाजार स्थितियों का मतलब है। एक अनुभवहीन दृष्टिकोण सभी उपलब्ध आंकड़ों का विश्लेषण करेगा (हम सभी अधिक डेटा बेहतर जानते हैं), सबसे अच्छा वक्र फिटिंग मॉडल को प्रशिक्षित करने के लिए, फिर इसे सभी डेटा पर चलाएं, और हर समय इसके साथ व्यापार करें।

अधिक सफल हेज फंड मैनेजर और एल्गोरिथम व्यापारी अपने बाजार ज्ञान का उपयोग करते हैं। एक ठोस उदाहरण के रूप में एक व्यापारिक सत्र का पहला आधा घंटा अधिक अस्थिर हो सकता है। इसलिए वे अपने सभी डेटा पर मॉडल की कोशिश करेंगे, लेकिन पहले आधे घंटे के लिए, और अपने सभी डेटा पर, लेकिन उस पहले आधे घंटे को छोड़कर। उन्हें पता चल सकता है कि उनके दो मॉडल पहले आधे घंटे में अच्छा करते हैं, लेकिन उनमें से आठ ने पैसे खो दिए। जबकि, जब वे उस पहले आधे घंटे को बाहर करते हैं, तो उनके सात मॉडल पैसे कमाते हैं, तीन पैसे खो देते हैं।

लेकिन, उन दो विजेता मॉडल लेने के बजाय और व्यापार के पहले आधे घंटे में उनका उपयोग करते हैं, वे कहते हैं: यह एल्गोरिथम ट्रेडिंग के लिए दिन का एक बुरा समय है, और हम बिल्कुल भी व्यापार नहीं करने जा रहे हैं। बाकी दिन वे अपने सात मॉडलों का उपयोग करेंगे। यानी ऐसा प्रतीत होता है कि बाजार में उस समय मशीन सीखने के साथ भविष्यवाणी करना आसान है, इसलिए उन मॉडलों के विश्वसनीय होने की अधिक संभावना है। (दिन का समय एकमात्र पैटर्न नहीं है; अन्य आमतौर पर समाचार घटनाओं से संबंधित होते हैं, जैसे प्रमुख आर्थिक आंकड़ों की घोषणा से पहले बाजार अधिक अस्थिर होता है।)

वह क्या कह रहा है, यह मेरी व्याख्या है; यह पूरी तरह से गलत हो सकता है, लेकिन मुझे आशा है कि यह अभी भी किसी के लिए विचार के लिए उपयोगी भोजन है।


2

एक वित्त पेशेवर के रूप में मैं पर्याप्त संदर्भ जानता हूं कि बयान में कोई अस्पष्टता नहीं है। वित्तीय समय श्रृंखला को अक्सर शासन परिवर्तन, संरचनात्मक विराम और अवधारणा बहाव के साथ चित्रित किया जाता है, इसलिए अन्य उद्योगों में अभ्यास के रूप में क्रॉस-सत्यापन वित्तीय अनुप्रयोगों में उतना सफल नहीं है। दूसरे भाग में वह एक वित्तीय मीट्रिक को संदर्भित करता है, या तो शार्प अनुपात (अंश में वापसी) पर निवेश करता है, एमएसई या अन्य हानि फ़ंक्शन नहीं। यदि इन-सैंपल स्ट्रैटेजी 10% रिटर्न का उत्पादन करती है, तो वास्तविक ट्रेडिंग में यह काफी वास्तविक रूप से केवल 5% का उत्पादन कर सकता है। "क्रांतिकारी" भाग सबसे निश्चित रूप से उनके मालिकाना विश्लेषण दृष्टिकोण के बारे में है, उद्धरणों के लिए नहीं।


Onlyvix के लिए एक प्रश्न: क्या आप पैरामीटर अनुकूलन के लिए एक उपकरण के रूप में अपने वित्तीय मीट्रिक का उपयोग करते हुए किसी भी काम के बारे में जानते हैं, जो कि अधिकतम संभावना का उपयोग करने के बजाय, उस मीट्रिक को अधिकतम करके मापदंडों को सीधे अनुकूलित करना है?
kjetil b halvorsen

@ मेरी यह मेरी वित्तीय मीट्रिक नहीं है - तेज अनुपात के लिए अनुकूलन बहुत आम है। मेरे सिर के शीर्ष पर एक उदाहरण ssrn.com/abstract=962461 - कोई सटीक सांख्यिकीय मॉडल विकसित नहीं किया गया है, लेकिन (बहुत सामान्य शब्दों में) बनाए गए ट्रेडिंग नियम रिटर्न को अधिकतम करते हैं और जोखिम को कम करते हैं।
onlyvix.blogspot.com
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.