2016 में वास्तव में पूर्वानुमानित मॉडलिंग के लिए परिवर्तनीय चयन की आवश्यकता है?


67

यह प्रश्न सीवी पर कुछ साल पहले पूछा गया है, यह 1 के प्रकाश में एक repost के लायक लगता है) परिमाण बेहतर कंप्यूटिंग प्रौद्योगिकी के आदेश (जैसे समानांतर कंप्यूटिंग, एचपीसी आदि) और 2) नई तकनीकों, जैसे [3]।

पहला, कुछ संदर्भ। मान लेते हैं कि लक्ष्य परिकल्पना परीक्षण नहीं है, प्रभाव आकलन नहीं है, लेकिन संयुक्त राष्ट्र के देखे गए सेट पर भविष्यवाणी है। तो, किसी भी व्याख्या योग्य लाभ के लिए कोई वजन नहीं दिया जाता है। दूसरा, मान लें कि आप विषय वस्तु पर किसी भविष्यवक्ता की प्रासंगिकता को खारिज नहीं कर सकते, अर्थात। वे सभी व्यक्तिगत रूप से या अन्य भविष्यवक्ताओं के साथ संयोजन में प्रशंसनीय लगते हैं। तीसरा, आप लाखों भविष्यवक्ताओं के साथ सामना कर रहे हैं (सैकड़ों)। चौथा, मान लें कि आपके पास असीमित बजट के साथ AWS की पहुंच है, इसलिए कंप्यूटिंग शक्ति एक बाधा नहीं है।

चर चयन के लिए सामान्य रीज़न 1) दक्षता हैं; एक छोटे मॉडल को फिट करने के लिए तेजी से और कम भविष्यवक्ताओं को इकट्ठा करने के लिए सस्ता, 2) व्याख्या; "महत्वपूर्ण" चर को जानने से अंतर्निहित प्रक्रिया में अंतर्दृष्टि मिलती है [1]।

यह अब व्यापक रूप से ज्ञात है कि कई चर चयन विधियां अप्रभावी हैं और अक्सर एकमुश्त खतरनाक (उदाहरण के लिए स्टेपवाइज रिग्रेशन) [2]।

दूसरे, यदि चयनित मॉडल कोई अच्छा है, तो किसी को भविष्यवाणियों की सूची में कटौती करने की आवश्यकता नहीं है। मॉडल को आपके लिए करना चाहिए। एक अच्छा उदाहरण लैस्सो है, जो सभी अप्रासंगिक चर को शून्य गुणांक प्रदान करता है।

मुझे पता है कि कुछ लोग "हाथी" मॉडल का उपयोग करने की वकालत करते हैं, अर्थात। हर बोधगम्य भविष्यवक्ता को फिट में टॉस करें और उसके साथ दौड़ें [2]।

क्या कोई अनुमानित कारण है चर का चयन अगर लक्ष्य पूर्वसूचक सटीकता है?

[१] रेउनेन, जे (२००३)। चर चयन विधियों के बीच तुलना करने में ओवरफिटिंग। जर्नल ऑफ मशीन लर्निंग रिसर्च, 3, 1371-1382।

[२] हैरेल, एफ। (२०१५)। प्रतिगमन मॉडलिंग रणनीतियों: रैखिक मॉडल, लॉजिस्टिक और ऑर्डिनल प्रतिगमन, और अस्तित्व विश्लेषण के लिए अनुप्रयोगों के साथ। स्प्रिंगर।

[३] टेलर, जे।, और तिब्शीरानी, ​​आरजे (२०१५)। सांख्यिकीय शिक्षा और चयनात्मक अनुमान। नेशनल एकेडमी ऑफ साइंसेज की कार्यवाही, 112 (25), 7629-7634।

[४] झोउ, जे।, फोस्टर, डी।, स्टाइन, आर।, और अनगर, एल। (२००५, अगस्त)। अल्फा-निवेश का उपयोग करके स्ट्रीमिंग सुविधा का चयन। डेटा खनन में ज्ञान की खोज पर ग्यारहवें एसीएम एसआईजीकेडीडी अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में (पीपी। 384-393)। एसीएम।


6
अच्छा पहला सवाल - यह संभवतः एक डुप्लिकेट के रूप में बंद किया जा सकता है, लेकिन मैं सराहना करता हूं कि आपने जो प्रयास किया है वह यह निर्धारित करने के लिए खर्च किया है कि आप इसे अलग पहचानते हैं। मैं शीर्षक संपादित करने का सुझाव देता हूं, इसलिए यह स्पष्ट है कि आपका ध्यान केवल भविष्यवाणी पर है।
सिल्वरफिश

5
यदि यह प्रश्न पहले से ही पूछा गया था, लेकिन आप इसे पिछले प्रश्न से लिंक प्रदान कर सकते हैं, तो शायद कुछ समय बीतने के बाद इसे फिर से पोस्ट करना महत्वपूर्ण है? पिछले उत्तरों की तुलना करने में सक्षम होना दिलचस्प हो सकता है।
टिम

1
@ qbert65536 एक दृश्य है आप नहीं। फ़ीचर चयन स्वाभाविक अविश्वसनीय है।
राशिफल

8
स्वचालित रूप से सुविधाओं का एक विरल सबसेट (जैसे एल 1 दंडित मॉडल) का चयन करने वाले तरीके भी सुविधा चयन कर रहे हैं। इसलिए महत्वपूर्ण सवाल यह है कि "सुविधा चयन अच्छा / बुरा" नहीं है, लेकिन "गुण क्या हैं जो बुरे लोगों से अच्छी सुविधा चयन विधियों को अलग करते हैं?"। पैरामीटर अनुमान के साथ संयुक्त रूप से प्रदर्शन किया जा रहा है (जैसा कि लासो में) एक संपत्ति है, और हम पूछ सकते हैं कि क्या यह (कई अन्य गुणों के साथ) मायने रखता है।
user20160

2
@ToussaintLouverture जब से मैंने इस प्रश्न को एक वर्ष पहले पोस्ट किया है, मेरे पास दूसरा (और तीसरा) विचार है। अब मुझे विश्वास है कि उपयुक्त प्रश्न यह है कि, चर चयन के लिए प्रत्यक्ष प्रयास करना कितना महत्वपूर्ण है, बजाय इसके कि मॉडल का चयन एक अधिक सक्षम मॉडल चुनने के लिए जो किसी प्रयोग की सभी विशेषताओं से सामान्य हो।
कुंडली

जवाबों:


37

वर्षों से अफवाहें हैं कि Google अपने पूर्वानुमानित एल्गोरिदम के निर्माण में सभी उपलब्ध सुविधाओं का उपयोग करता है। हालांकि, आज तक, कोई भी अस्वीकरण, स्पष्टीकरण या श्वेत पत्र सामने नहीं आया है जो इस अफवाह को स्पष्ट और / या विवादित करता है। यहां तक ​​कि उनके प्रकाशित पेटेंट भी समझ में मदद नहीं करते हैं। नतीजतन, Google के लिए कोई भी बाहरी नहीं जानता कि वे क्या कर रहे हैं, मेरे सर्वोत्तम ज्ञान के लिए।

/ * सेप्ट 2019 में अपडेट, एक Google Tensorflow इंजीलवादी ने यह कहते हुए एक प्रस्तुति में रिकॉर्ड किया कि Google इंजीनियर नियमित रूप से पेजरैंक के वर्तमान संस्करण के लिए 5 बिलियन से अधिक मापदंडों का मूल्यांकन करते हैं । * /

ओपी नोट के रूप में, भविष्य कहनेवाला मॉडलिंग में सबसे बड़ी समस्याओं में से एक क्लासिक परिकल्पना परीक्षण और सावधानीपूर्वक मॉडल विनिर्देश बनाम क्लासिक खनन खनन के बीच का टकराव है। मॉडल डिजाइन और विकास में "कठोर" की आवश्यकता के बारे में शास्त्रीय रूप से प्रशिक्षित काफी हठधर्मिता प्राप्त कर सकते हैं। तथ्य यह है कि जब भारी संख्या में उम्मीदवार भविष्यवक्ताओं और कई संभावित लक्ष्यों या आश्रित चर के साथ सामना किया जाता है, तो क्लासिक रूपरेखा न तो काम करती है, न ही रखती है और न ही उपयोगी मार्गदर्शन प्रदान करती है। कई हाल ही में कागजात चट्टोपाध्याय और Lipson की शानदार कागज से इस दुविधा को चित्रित डाटा स्मैशिंग: डेटा में गुप्त आदेश Uncovering http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf

महत्वपूर्ण अड़चन यह है कि अधिकांश डेटा तुलना एल्गोरिदम आज एक मानव विशेषज्ञ पर निर्भर करते हैं कि डेटा की 'विशेषताएं' तुलना के लिए प्रासंगिक हैं। यहाँ, हम मनमाने ढंग से डेटा स्ट्रीम के स्रोतों के बीच समानता का आकलन करने के लिए एक नया सिद्धांत प्रस्तावित करते हैं, न तो डोमेन ज्ञान और न ही सीखने का उपयोग करते हुए।

क्लेनबर्ग, एट अल द्वारा भविष्यवाणी नीति समस्याओं पर पिछले साल के एईआर पेपर को । https://www.aeaweb.org/articles?id=10.1257/aer.p20151023 जो डेटा माइनिंग और भविष्यवाणी को आर्थिक नीति बनाने में उपयोगी उपकरण के रूप में बनाता है, उदाहरणों का हवाला देते हुए जहां "कारण निष्कर्ष केंद्रीय नहीं है, या आवश्यक भी है। "

तथ्य यह है कि बड़ा, $ 64,000 का प्रश्न क्लासिक परिकल्पना-परीक्षण ढांचे में निहित सोच और चुनौतियों में व्यापक बदलाव है, उदाहरण के लिए, "अप्रचलित" वैज्ञानिक सोच https://www.edge.org/ पर इस Edge.org संगोष्ठी। प्रतिक्रियाएँ / क्या-वैज्ञानिक-विचार-के लिए तैयार-साथ-साथ सेवानिवृत्ति के बाद हाल ही में एरिक बीन्होकर का यह लेख "नई अर्थशास्त्र" जो व्यवहारिक अर्थशास्त्र, जटिलता सिद्धांत, भविष्य कहनेवाला मॉडल जैसे व्यापक रूप से विभिन्न विषयों को एकीकृत करने के लिए कुछ कट्टरपंथी प्रस्ताव प्रस्तुत करता है विकास, नेटवर्क और पोर्टफोलियो सिद्धांत नीति कार्यान्वयन और गोद लेने के लिए एक मंच के रूप में https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/कहने की जरूरत नहीं है, ये मुद्दे केवल आर्थिक चिंताओं से परे हैं और सुझाव देते हैं कि हम वैज्ञानिक प्रतिमानों में एक मौलिक बदलाव से गुजर रहे हैं। शिफ्टिंग व्यू कम करने वाले, ऑकैम के रेजर जैसे मॉडल-बिल्डिंग बनाम एपिकुरस के विस्तार के सिद्धांत या कई स्पष्टीकरणों के बीच के मूलभूत रूप से मौलिक हैं जो मोटे तौर पर बताते हैं कि यदि कई निष्कर्ष कुछ बताते हैं, तो सभी को बनाए रखें ... https: // en। wikipedia.org/wiki/Principle_of_plenitude

बेशक, Beinhocker जैसे लोग पूरी तरह से व्यावहारिक के साथ अप्रभावित हैं, इस विकसित प्रतिमान के सांख्यिकीय समाधानों के संबंध में खाइयों की चिंताओं में। अल्ट्रा-हाई डायमेंशनल वैरिएबल सेलेक्शन के नॉटी-ग्रिटि प्रश्नों को लिखिए, ओपी मॉडल बिल्डिंग के प्रति व्यवहार्य दृष्टिकोणों के बारे में अपेक्षाकृत निरर्थक है जो लीवर, उदाहरण के लिए, लास्सो, एलएआर, स्टेपवाइज एल्गोरिदम या "एलिफेंट मॉडल" जो सभी उपलब्ध जानकारी का उपयोग करते हैं। वास्तविकता यह है कि, AWS या एक सुपर कंप्यूटर के साथ भी, आप एक ही समय में सभी उपलब्ध सूचनाओं का उपयोग नहीं कर सकते हैं - बस इतना ही नहीं है कि RAM इन सभी को लोड कर सके। इसका क्या अर्थ है? उदाहरण के लिए, कॉम्प्लेक्स या बड़े डेटासेट में NSF की डिस्कवरी: कॉमन स्टैटिस्टिकल थीमबड़े पैमाने पर डेटा खनन के लिए एल्गोरिदम को "विभाजित और जीतना", जैसे, वैंग, एट अल पेपर, सांख्यिकीय डेटा का एक सर्वेक्षण और बिग डेटा के लिए कम्प्यूटिंग http://arxiv.org/pdf/1502.07989.pdf और साथ ही लेसकोवेक, एट अल। पुस्तक विशाल डेटासेटों में खनन http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datasets

अब वास्तव में सैकड़ों हैं, यदि हजारों कागज नहीं हैं जो इन चुनौतियों के विभिन्न पहलुओं से निपटते हैं, तो सभी "डिवाइड और विजय" एल्गोरिदम से अपने कोर के रूप में व्यापक रूप से भिन्न विश्लेषणात्मक इंजनों का प्रस्ताव रखते हैं; अनरूप, "डीप लर्निंग" मॉडल; यादृच्छिक मैट्रिक्स सिद्धांत बड़े पैमाने पर सहसंयोजक निर्माण पर लागू होता है; क्लासिक, पर्यवेक्षित लॉजिस्टिक प्रतिगमन, और अधिक के लिए बायेसियन टेंसर मॉडल। पंद्रह साल या उससे पहले, बहस काफी हद तक क्रमिक परिमित मिश्रण मॉडल बनाम पदानुक्रमित बायेसियन समाधानों के सापेक्ष गुणों से संबंधित प्रश्नों पर केंद्रित थी। इन मुद्दों को संबोधित करने वाले एक पेपर में, एंसली, एट अल। http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdfइस निष्कर्ष पर पहुंचे कि भिन्न सैद्धांतिक दृष्टिकोण, व्यवहार में, विरल और / या उच्च आयामी डेटा से संबंधित समस्याओं के अपवाद के साथ काफी हद तक समकक्ष परिणाम उत्पन्न करते हैं जहां एचबी मॉडल का लाभ था। आज डी एंड सी वर्कअराउंड के आगमन के साथ, किसी भी मध्यस्थ एचबी मॉडल को ऐतिहासिक रूप से आनंदित किया जा सकता है।

इन डी एंड सी वर्कअराउंड के मूल तर्क, ब्रेमेन की प्रसिद्ध यादृच्छिक वन तकनीक के विस्तार और विस्तार से हैं, जो टिप्पणियों और सुविधाओं के बूटस्ट्रैप किए गए पुनरुत्थान पर निर्भर थे। ब्रेमेन ने 90 के दशक के उत्तरार्ध में अपना काम एक ही सीपीयू पर किया जब बड़े पैमाने पर डेटा का मतलब कुछ दर्जन जिग्स और कुछ हज़ार फीचर थे। आज के बड़े पैमाने पर समानांतर, मल्टी-कोर प्लेटफार्मों पर, कुछ ही घंटों में लाखों "आरएफ" मिनी-मॉडल बनाने वाले लाखों विशेषताओं वाले डेटा के टेराबाइट्स का विश्लेषण करने वाले एल्गोरिदम को चलाना संभव है।

इन सभी में से कितने भी महत्वपूर्ण प्रश्न आ रहे हैं। इन वर्कअराउंड की अनुमानित प्रकृति के कारण सटीक नुकसान पर चिंता का सामना करना पड़ता है। इस मुद्दे को चेन और ज़ी ने अपने पेपर में, ए स्प्लिट-एंड-कॉनकेटर एप्रोच फॉर एनालिसिस ऑफ़ एक्सट्राऑर्डिनरी लार्ज डेटा http://dimacs.rutgers.edu/TechnicalReports/TechReet/2012/3-01-01.pdf जहाँ उन्होंने निष्कर्ष निकाला है , को संबोधित किया है। कि अनुमान "पूरी जानकारी" मॉडल से अलग-अलग हैं।

एक दूसरी चिंता, जो मेरे ज्ञान के सर्वश्रेष्ठ के लिए साहित्य द्वारा पर्याप्त रूप से संबोधित नहीं की गई है, परिणाम के साथ क्या किया जाना है (यानी, "पैरामीटर") संभावित भविष्यवाणियों के लाखों संभावित मॉडल से एक बार काम करने के बाद लुढ़का और संक्षेप किया गया है। दूसरे शब्दों में, कोई व्यक्ति इन परिणामों के साथ नए डेटा "स्कोरिंग" के रूप में सरल रूप में कुछ कैसे निष्पादित करता है? क्या मिनी-मॉडल गुणांक को सहेजा और संग्रहीत किया जा सकता है या कोई बस नए डेटा पर डी एंड सी एल्गोरिथ्म को फिर से चलाता है?

कैसर फंग ने अपनी पुस्तक नंबर्स रूल योर वर्ल्ड में अपनी प्रतिस्पर्धा के विजेताओं द्वारा सौंपे गए केवल 104 मॉडलों की टुकड़ी के साथ प्रस्तुत किए गए दुविधा नेटफ्लिक्स का वर्णन किया है। विजेताओं ने, वास्तव में, MSE बनाम अन्य सभी प्रतियोगियों को कम से कम कर दिया था, लेकिन इसने 5-बिंदु पर सटीकता में कई दशमलव स्थान सुधार का अनुवाद किया, उनकी फिल्म सिफारिश प्रणाली द्वारा उपयोग किए जाने वाले लिकर्ट-टाइप रेटिंग पैमाने। इसके अलावा, मॉडल के इस पहनावे के लिए आवश्यक आईटी रखरखाव की लागत मॉडल सटीकता में "सुधार" से देखी गई किसी भी बचत से कहीं अधिक है।

फिर इस परिमाण की जानकारी के साथ "अनुकूलन" भी संभव है या नहीं, इसका पूरा प्रश्न है। उदाहरण के लिए, भौतिक विज्ञानी और वित्तीय इंजीनियर, इमैनुएल डर्मन ने अपनी पुस्तक माई लाइफ़ इन ए क्वांट से यह संकेत दिया है कि अनुकूलन एक अस्थिर मिथक है, कम से कम वित्तीय इंजीनियरिंग में।

अंत में, बड़े पैमाने पर सुविधाओं के सापेक्ष सापेक्ष महत्व के बारे में महत्वपूर्ण प्रश्न अभी तक संबोधित नहीं किए गए हैं।

चर चयन की आवश्यकता और वर्तमान द्वारा खोली गई नई चुनौतियों के संबंध में कोई आसान उत्तर नहीं है। प्रश्न, एपिक्यूरियन वर्कअराउंड को हल किया जाना है। लब्बोलुआब यह है कि अब हम सभी डेटा वैज्ञानिक हैं।

**** EDIT *** संदर्भ

  1. चट्टोपाध्याय I, लिप्सन एच। 2014 डेटा मुंहतोड़: डेटा में गुप्त आदेश को उजागर करना। जेआर सोख। इंटरफ़ेस 11: 20140826. http://dx.doi.org/10.1098/rsif.2014.0826

  2. क्लेनबर्ग, जॉन, जेन्स लुडविग, सेंथिल मुलैनाथन और ज़ियाद ओबेरमेयर। 2015 "भविष्यवाणी नीति समस्याएं।" अमेरिकी आर्थिक समीक्षा, 105 (5): 491-95। DOI: 10.1257 / Aer.p20151023

  3. Edge.org, 2014 वार्षिक प्रश्न: स्कोर के लिए वैज्ञानिक IDEA क्या है? https://www.edge.org/responses/what-scientific-idea-is-ready-for-retirement

  4. एरिक बेन्हॉकर, इकोनॉमिक्स में गहरा बदलाव, लेफ्ट वर्सस राइट डिबेट को अप्रासंगिक बना देता है, 2016, Evonomh.org। https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/

  5. एकाधिक स्पष्टीकरण के एपिकुरस सिद्धांत: सभी मॉडल रखें। विकिपीडिया https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent

  6. NSF, डिस्कवरी इन कॉम्प्लेक्स या मैसिव डेटासेट्स: कॉमन स्टैटिस्टिकल थीम, नेशनल साइंस फाउंडेशन द्वारा वित्तपोषित एक कार्यशाला, अक्टूबर 16-17, 2007 https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf

  7. सांख्यिकीय तरीके और बिग डेटा के लिए कम्प्यूटिंग, चुन वैंग, मिंग-हुई चेन, एलिजाबेथ शिफानो, जिंग वू और जून यान, 29 अक्टूबर, 2015 http://arxiv.org/pdf/1502.07989.pdf द्वारा वर्किंग पेपर

  8. ज्युर लेसकोव, आनंद राजारामन, जेफरी डेविड उल्मैन, माइनिंग डेटासेट्स का खनन, कैम्ब्रिज यूनिवर्सिटी प्रेस; 2 संस्करण (29 दिसंबर, 2014) आईएसबीएन: 978-1107077232

  9. जियानफेंग याओ, शूरॉन्ग झेंग, झिदोंग बाई, कैम्ब्रिज यूनिवर्सिटी प्रेस द्वारा लार्ज सैंपल कोवरिएनस मैट्रिसेस एंड हाई-डायमेंशनल डेटा एनालिसिस (सांख्यिकीय और संभाव्य गणित में कैम्ब्रिज सीरीज़); 1 संस्करण (30 मार्च, 2015) आईएसबीएन: 978-1107065178

  10. RICK L. ANDREWS, ANDREW AINSLIE, और IMRAN S. CURRIM, हेट्रोजीनिटी के असतत वर्सस कंटिन्युअस रिप्रेजेंटेशन ऑफ जर्नलिस्ट, मार्केटिंग रिसर्च, 479 Vol के साथ लॉज च्वाइस मॉडल्स की एक अनुभवजन्य तुलना। XXXIX (नवंबर 2002), 479–487 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf

  11. असाधारण रूप से बड़े डेटा, Xueying चेन और मिंग Xie, DIMACS तकनीकी रिपोर्ट 2012-01, जनवरी 2012 http://dimacs.rutgers.edu/Technical.eports/TechReports/2012/2012-01.pdf के विश्लेषण के लिए एक स्प्लिट-एंड-कॉनकेटर एप्रोच।

  12. कैसर फंग, नंबर्स रूल योर वर्ल्ड: द हिडन इन्फ्लुएंस ऑफ़ प्रोबेबिलिटीज़ एंड स्टैटिस्टिक्स ऑन एवरीथिंग डू, मैकग्रा-हिल एजुकेशन; 1 संस्करण (15 फरवरी, 2010) आईएसबीएन: 978-0071626538

  13. इमैनुएल डरमन, माई लाइफ ए क्वांट: रिफ्लेक्शंस ऑन फिजिक्स एंड फाइनेंस, विली; 1 संस्करण (11 जनवरी, 2016) आईएसबीएन: 978-0470192733

* नवंबर 2017 में अपडेट करें *

नाथन कुटज़ की 2013 की पुस्तक, डेटा-चालित मॉडलिंग और वैज्ञानिक संगणना: कॉम्प्लेक्स सिस्टम और बिग डेटा के लिए तरीके एक गणितीय और पीडीई-केंद्रित भ्रमण के साथ-साथ आयाम में कमी के तरीकों और उपकरणों का चयन है। उनकी सोच का एक उत्कृष्ट, 1 घंटे का परिचय इस जून 2017 के यूट्यूब वीडियो डेटा ड्रिवेन डिस्कवरी ऑफ डायनामिक सिस्टम्स और पीडीई में पाया जा सकता है । इसमें, वह इस क्षेत्र के नवीनतम विकास का संदर्भ देता है। https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop


1
मशीन लर्निंग समर स्कूल में कुछ साल पहले, Google के एक साथी ने एक नाम दिया (नाम भूल गया)। उन्होंने कहा कि उत्पादन में कुछ (~ द्विआधारी वर्गीकरण) मॉडल के कुछ ~ ~ 200 मिलियन विशेषताएं बैच-प्रशिक्षित ~ 30 टीबी डेटासेट पर शामिल हैं; उनमें से ज्यादातर शायद द्विआधारी विशेषताएं हैं। मुझे याद नहीं है कि उन्होंने कभी चर चयन का उल्लेख किया हो।
राशिफल

1
शानदार टिप्पणियां (हालांकि इसका एक हिस्सा एक स्पर्शरेखा पर चला गया)। मुझे विशेष रूप से यह दृष्टिकोण पसंद है कि कई पुराने जमाने के विचारों को बिग डेटा के युग में फिर से जांचने की आवश्यकता है।
राशिफल

1
@horaceT बहुत दिलचस्प है। कम से कम यह अफवाह की पुष्टि करता है। धन्यवाद। वह कौन सा एमएल कार्यक्रम था?
माइक हंटर

1
UCSS सांता क्रूज़ में MLSS 2012। स्पीकर तुषार चंद्रा थे, यहां स्लाइड्स के अनुसार, users.soe.ucsc.edu/~niejiazhong/slides/chandra.pdf
horaceT

2
@Glen_b टिप्पणियों के लिए धन्यवाद। मुझे लगा कि टूटी हुई कड़ी के कारण मैंने संदर्भ के लिए नाम और शीर्षक ठीक-ठीक प्रदान किए हैं। भले ही, मैं अंत में एक संदर्भ अनुभाग जोड़ूंगा। अगर कुछ भी याद आ रहा है तो मुझे बताएं।
माइक हंटर

14

भविष्यवाणी के संदर्भ में, आपको शायद इस सवाल पर विचार करने की आवश्यकता है कि मॉडल कितनी जल्दी महत्वपूर्ण विशेषताओं को सीखता है। यहां तक ​​कि ओएलएस के बारे में सोचते हुए, यह आपको कुछ विकल्प देगा जैसे मॉडल का चयन पर्याप्त डेटा देता है। लेकिन हम जानते हैं कि यह जल्दी से इस समाधान में नहीं जुटता है - इसलिए हम कुछ बेहतर खोजते हैं।

अधिकांश विधियाँ एक प्रकार के बीट / गुणांक के बारे में एक धारणा बना रही हैं जो सामने आने वाली हैं (जैसे बायेसियन मॉडल में पूर्व वितरण की तरह)। इन मान्यताओं को धारण करने पर वे सबसे अच्छा काम करते हैं। उदाहरण के लिए, रिज / लास्सो रिग्रेशन मानता है कि अधिकांश बेटास शून्य के पास सबसे अधिक समान पैमाने पर हैं। वे "सुइयों में एक घास का ढेर" के लिए काम नहीं करेंगे, जहां ज्यादातर बेट्स शून्य हैं, और कुछ दांव बहुत बड़े हैं (यानी तराजू बहुत अलग हैं)। फ़ीचर का चयन यहाँ बेहतर काम कर सकता है - लसको सिकुड़ते शोर और सिग्नल को छोडने के बीच फंस सकता है। फ़ीचर चयन अधिक चंचल है - एक प्रभाव या तो "सिग्नल" या "शोर" है।

निर्णय लेने के संदर्भ में - आपको यह विचार करने की आवश्यकता है कि आपके पास किस प्रकार का भविष्यवक्ता चर है। क्या आपके पास वास्तव में कुछ अच्छे हैं? या सभी चर कमजोर हैं? यह आपके पास मौजूद betas की प्रोफ़ाइल को चलाएगा। और आपके द्वारा उपयोग किए जाने वाले दंड / चयन के तरीके (पाठ्यक्रमों के लिए घोड़े और वह सब)।

फ़ीचर चयन भी बुरा नहीं है, लेकिन कम्प्यूटेशनल प्रतिबंधों के कारण पुराने अनुमानों में से कुछ अब अच्छे नहीं हैं (स्टेपवाइज, फॉरवर्ड)। फीचर सेलेक्शन (सभी 1 var मॉडल, 2 var मॉडल इत्यादि) को अपने प्रदर्शन के आधार पर इस्तेमाल करते हुए मॉडल औसत भविष्यवाणी के अनुसार बहुत अच्छा काम करेगा। लेकिन ये अनिवार्य रूप से उस चर के साथ मॉडल को दिए गए वजन के माध्यम से बेटों को दंडित कर रहे हैं - केवल सीधे नहीं - और उत्तल अनुकूलन समस्या तरह से नहीं।


12

मैं आपको उद्योग का परिप्रेक्ष्य देता हूं।

उद्योग सेंसरों और निगरानी प्रणालियों पर पैसा खर्च करना पसंद नहीं करते हैं, जो यह नहीं जानते हैं कि वे इससे कितना लाभान्वित होंगे।

उदाहरण के लिए, मैं नाम नहीं देना चाहता, इसलिए हर मिनट में 10 सेंसर डेटा इकट्ठा करने वाले एक घटक की कल्पना करें। परिसंपत्ति स्वामी मेरे पास जाता है और मुझसे पूछता है कि आप 10 सेंसर से इन आंकड़ों के साथ मेरे घटक के व्यवहार की कितनी अच्छी भविष्यवाणी कर सकते हैं? तब वे लागत-लाभ विश्लेषण करते हैं।

फिर, उनके पास 20 सेंसर के साथ एक ही घटक है, वे मुझसे पूछते हैं, फिर से, आप 20 सेंसर के साथ इन आंकड़ों के साथ मेरे घटक के व्यवहार की कितनी अच्छी भविष्यवाणी कर सकते हैं? वे एक और लागत-लाभ विश्लेषण करते हैं।

इनमें से प्रत्येक मामले में, वे सेंसर की स्थापना के कारण निवेश लागत के साथ लाभ की तुलना करते हैं। (यह सिर्फ एक घटक में $ 10 सेंसर नहीं जोड़ रहा है। बहुत सारे कारक एक भूमिका निभाते हैं)। यहां वह जगह है जहां एक चर चयन विश्लेषण उपयोगी हो सकता है।


1
अच्छी बात। लेकिन आप 10 सेंसर को अच्छी तरह से नहीं जान पाएंगे या आपको किसी और 10 की ज़रूरत नहीं होगी जब तक कि आपके पास 20 से कुछ डेटा न हो।
होरेस

सच है, और आप हमेशा कुछ अध्ययनों के आधार पर अनुमान लगा सकते हैं। विफलताओं से बचने के लिए, आप प्रत्येक सेंसर को एक लक्ष्य के साथ स्थापित करते हैं। यदि विफलता की दर कम है या आपने पहले ही किसी घटक के महत्वपूर्ण भागों को कवर कर लिया है, तो आपको पता है कि 1 सेंसर के अलावा एक बड़ा रिटर्न नहीं आएगा। तो, आपको उन सेंसर को स्थापित करने की आवश्यकता नहीं है, डेटा एकत्र करें और यह जानने के लिए एक अध्ययन करें कि क्या उन अतिरिक्त सेंसर वास्तव में काफी अच्छे हैं।
PeyM87

'सेंसर' का मतलब सेंसर नहीं हो सकता - मेरी कंपनी में, हम अपने सभी डेटा की सदस्यता लेते हैं, इसलिए वास्तव में उन सुविधाओं की खोज करने का एक अवसर है जो किसी भी चीज़ में योगदान नहीं दे रहे हैं, और उन्हें सब्सक्रिप्शन सेवा से हटाकर (स्पष्ट होने के लिए, लागत में कटौती करें) व्यक्तिगत कॉलम की तुलना में उच्च स्तर पर सदस्यता दरों पर काम किया जाता है, लेकिन निश्चित रूप से सदस्यता के एक तत्व की कल्पना करना एक अंतिम मॉडल में एक विशेषता का योगदान देता है, और अगर यह प्रदर्शन में सुधार नहीं करता है तो इसे बंद करने में सक्षम होना संभव है)
रॉबर्ट डी ग्रेफ

9

विशुद्ध रूप से भविष्य कहनेवाला मॉडल सीखने के लिए एक एल्गोरिथ्म के भाग के रूप में, चर चयन प्रदर्शन के दृष्टिकोण से आवश्यक रूप से खराब नहीं है और न ही यह स्वचालित रूप से खतरनाक है। हालाँकि, कुछ ऐसे मुद्दे हैं जिनके बारे में लोगों को जानकारी होनी चाहिए।

सवाल थोड़ा और अधिक ठोस बनाने के लिए, के साथ रेखीय प्रतीपगमन समस्या पर विचार करते हैं के लिए , और और जा रहा है आयामी की वैक्टर चर और पैरामीटर, क्रमशः। इसका उद्देश्य फ़ंक्शन एक अच्छा सन्निकटन जो दिए गए की भविष्यवाणी है । यह अनुमान लगा कर प्राप्त किया जा सकतामैं = 1 , ... , एन एक्स मैं β पी एक्स ( Y | एक्स = एक्स ) = एक्स टी β , वाई एक्स = एक्स β

E(YiXi)=XiTβ
i=1,,NXiβp
xE(YX=x)=XTβ,
YX=xβपरिवर्तनीय चयन के संयोजन का उपयोग करना और दंड के साथ या बिना हानि फ़ंक्शन को कम करना। मॉडल औसत या बायेसियन विधियों का भी उपयोग किया जा सकता है, लेकिन आइए एकल मॉडल भविष्यवाणियों पर ध्यान दें।

फ़ॉरवर्ड और बैकवर्ड वैरिएबल सलेक्शन जैसे स्टेपवाइज़ सिलेक्शन एल्गोरिदम को एक बेस्ट सब्मिट सिलेक्शन प्रॉब्लम को हल करने के अनुमानित प्रयासों के रूप में देखा जा सकता है, जो कि कम्प्यूटेशनल रूप से कठिन है (इतना कठिन कि कम्प्यूटेशनल पॉवर के मामले कम ही सुधरते हैं)। ब्याज प्रत्येक लिए सबसे अच्छा है (या कम से कम एक अच्छा) चर के साथ मॉडल । इसके बाद, हम पर अनुकूलन कर सकते हैं ।k=1,,min(N,p)kkk

इस तरह के एक चर चयन प्रक्रिया के साथ खतरा यह है कि चर चयन पर कई मानक वितरण परिणाम सशर्त रूप से अमान्य हैं। यह मानक परीक्षणों और विश्वास अंतरालों के लिए है, और उन समस्याओं में से एक है जिनके बारे में हार्लेल [2] चेतावनी दे रहा है। Breiman भी मॉडल चयन जैसे Mallows 'पर आधारित बारे में चेतावनी दी में ... लिटिल बूटस्ट्रैप । मैलोव्स , या एआईसी उस मामले के लिए, मॉडल के चयन के लिए खाता नहीं है , और वे अत्यधिक आशावादी पूर्ववर्ती त्रुटियां देंगे।सी पीCpCp

हालाँकि, पूर्वानुमान त्रुटि के आकलन के लिए और चयन करने के लिए क्रॉस-वेरिएशन का उपयोग किया जा सकता है , और चर चयन पूर्वाग्रह और विचरण के बीच एक अच्छा संतुलन प्राप्त कर सकता है। यह विशेष रूप से सच है यदि पास शून्य के करीब कुछ बड़े निर्देशांक हैं @probabilityislogic उल्लेखों के रूप में।β -kβ

रिज रिग्रेशन और लासो जैसे संकोचन विधियां स्पष्ट चर चयन के बिना पूर्वाग्रह और विचरण के बीच एक अच्छा व्यापार प्राप्त कर सकती हैं। हालांकि, जैसा कि ओपी का उल्लेख है, लसो का अर्थ है कि परिवर्तनीय चयन। यह वास्तव में मॉडल नहीं है, बल्कि उस मॉडल को फिट करने की विधि है जो चर चयन करता है। उस परिप्रेक्ष्य से, चर चयन (निहित या स्पष्ट) मॉडल को डेटा में फिट करने के लिए विधि का हिस्सा है, और इसे इस तरह से माना जाना चाहिए।

लैसो अनुमानक की गणना के लिए एल्गोरिदम चर चयन (या स्क्रीनिंग) से लाभ उठा सकते हैं। में विरलता के साथ सांख्यिकीय सीखना: कमंद और सामान्यीकरण , धारा 5.10, यह बताया कि किस तरह स्क्रीनिंग, में लागू किया glmnet, उपयोगी है। यह लैसो अनुमानक की काफी तेजी से गणना कर सकता है।

एक व्यक्तिगत अनुभव एक उदाहरण से है जहां चर चयन ने चयनित चर का उपयोग करके अधिक जटिल मॉडल (एक सामान्यीकृत योज्य मॉडल) को फिट करना संभव बना दिया है। क्रॉस-मान्यता परिणामों ने संकेत दिया कि यह मॉडल कई विकल्पों में से बेहतर था हालांकि एक यादृच्छिक जंगल के लिए नहीं। यदि gamsel चारों ओर से किया गया था जो चर चयन के साथ सामान्यीकृत additive मॉडल को एकीकृत मैं इसे साथ ही बाहर की कोशिश कर रहा पर विचार हो सकता है।- -

संपादित करें: जब से मैंने यह उत्तर लिखा है, मेरे मन में एक विशेष आवेदन पर एक पेपर है। कागज में परिणामों को पुन: प्रस्तुत करने के लिए आर-कोड उपलब्ध है।

संक्षेप में, मैं कहूंगा कि चर चयन (एक रूप या दूसरे में) है और उपयोगी रहेगा यहां तक ​​कि विशुद्ध रूप से भविष्य कहनेवाला उद्देश्यों के लिए भी पूर्वाग्रह-विचरण व्यापार को नियंत्रित करने के तरीके के रूप में। यदि अन्य कारणों से नहीं, तो कम से कम क्योंकि अधिक जटिल मॉडल बहुत बड़ी संख्या में वेरिएबल्स आउट-ऑफ-द-बॉक्स को संभालने में सक्षम नहीं हो सकते हैं। हालाँकि, समय बीतने के साथ हम स्वाभाविक रूप से गैम्सेल जैसे घटनाक्रम देखेंगे जो अनुमान चयन पद्धति में चर चयन को एकीकृत करते हैं। -

यह निश्चित रूप से, हमेशा आवश्यक होता है कि हम चर चयन को अनुमान पद्धति के हिस्से के रूप में मानते हैं। खतरा यह है कि चर चयन एक ओरेकल की तरह प्रदर्शन करता है और चर के सही सेट की पहचान करता है। यदि हम ऐसा मानते हैं और वैसा ही आगे बढ़ते हैं जैसे कि डेटा के आधार पर वेरिएबल्स का चयन नहीं किया जाता है, तो हमें त्रुटियां होने का खतरा है।


1
मैं इस बारे में स्पष्ट नहीं हूं कि कैसे चर चयन ने अधिक जटिल मॉडल को फिट करना संभव बना दिया। परिवर्तनीय चयन के साथ आप अभी भी बड़ी संख्या में मापदंडों का अनुमान लगा रहे हैं; आप उनमें से कुछ को शून्य मान रहे हैं। परिवर्तनीय चयन के बाद लगे सशर्त मॉडल की स्थिरता एक मृगतृष्णा हो सकती है।
फ्रैंक हरेल

1
@ हरेल, विशेष उदाहरण में मॉडल में स्थिरता चयन के साथ संयोजन में लसो का उपयोग करके चर चयन किया गया था, जहां सभी चर रैखिक रूप से प्रवेश करते थे। गाम को तब चयनित चर का उपयोग करके फिट किया गया था। मैं पूरी तरह से सहमत हूं कि चर चयन केवल कुछ मापदंडों को शून्य करने के लिए अनुमान लगा रहा है, और एप्लिकेशन ने एक गम मॉडल में दो-चरणीय प्रक्रिया द्वारा ठीक वैसा ही किया। मुझे यकीन है कि gamsel एक अधिक व्यवस्थित दृष्टिकोण प्रदान करता है। मेरा कहना था कि इस तरह के दृष्टिकोण के बिना, चर चयन उपयोगी शॉर्टकट हो सकता है।
NRH

1
पहले के दंड चरण में चयनित चर को फिर से फिट करने के लिए एक अनपेक्षित विधि का उपयोग करना उचित नहीं है। यह काफी हद तक पक्षपातपूर्ण होगा। और अनपेक्षितकृत चर चयन एक अच्छा शॉर्टकट नहीं है।
फ्रैंक हरेल

1
स्थिरता का चयन लैस्सो का उपयोग करके चर का चयन करने और दंड के बिना पुन: फिटिंग की तुलना में अधिक रूढ़िवादी है। उत्तरार्द्ध ने, उम्मीद के मुताबिक, एक पूर्वानुमान के दृष्टिकोण से बहुत अच्छी तरह से काम नहीं किया (जैसा कि क्रॉस-मान्यता द्वारा माप)। जब मैं किसी ठोस मामले में क्रॉस-वैधीकरण के माध्यम से पाता हूं कि परिवर्तनशील चयन + गम रिज या लैसो अनुमानक की तुलना में बेहतर भविष्य कहनेवाला प्रदर्शन देता है, तो यह मेरा उपाय है कि क्या प्रक्रिया अच्छी है।
NRH

1
कृपया 'स्थिरता चयन' को परिभाषित करें। और दंड के बिना फिर से फिटिंग विरोधी रूढ़िवादी है।
फ्रैंक हरेल

4

मुझे इस कथन पर टिप्पणी करने की अनुमति दें: "... फिटिंग k पैरामीटर to n <k टिप्पणियों बस होने वाला नहीं है।"

रसायन विज्ञान में हम अक्सर पूर्वानुमान मॉडल में रुचि रखते हैं, और स्थिति k >> n का अक्सर सामना होता है (जैसे स्पेक्ट्रोस्कोपिक डेटा में)। यह समस्या आम तौर पर टिप्पणियों को निम्न आयामी उप-स्थान के लिए प्रोजेक्ट करके हल की जाती है a, जहां एक <n, प्रतिगमन से पहले (जैसे प्रधान घटक प्रतिगमन)। आंशिक कमानी वर्गों के प्रतिगमन का उपयोग करते हुए प्रक्षेपण और प्रतिगमन एक साथ भविष्यवाणी की गुणवत्ता का समर्थन करते हैं। उल्लिखित विधियों में एक (विलक्षण) सहसंयोजक या सहसंबंध मैट्रिक्स के लिए इष्टतम छद्म व्युत्क्रम पाए जाते हैं, उदाहरण के लिए एकवचन मूल्य अपघटन।

अनुभव से पता चलता है कि शोर चर को हटा दिए जाने पर बहुभिन्नरूपी मॉडल का पूर्वानुमानात्मक प्रदर्शन बढ़ जाता है। तो भले ही हम - एक सार्थक तरीके से - केवल n समीकरण (n <k) होने वाले k मापदंडों का अनुमान लगाने में सक्षम हों, हम पारसी मॉडल के लिए प्रयास करते हैं। उस उद्देश्य के लिए, चर चयन प्रासंगिक हो जाता है, और इस विषय के लिए बहुत अधिक रसायन विज्ञान साहित्य समर्पित होता है।

जबकि भविष्यवाणी एक महत्वपूर्ण उद्देश्य है, एक ही समय में प्रक्षेपण विधियाँ उदाहरणों में डेटा और चर की प्रासंगिकता में मूल्यवान अंतर्दृष्टि प्रदान करती हैं। यह मुख्य रूप से विविध मॉडल-भूखंडों, जैसे स्कोर, लोडिंग, अवशिष्ट, आदि द्वारा सुविधा प्रदान करता है ...

रसायन विज्ञान प्रौद्योगिकी का उपयोग उद्योग में बड़े पैमाने पर किया जाता है, जहां विश्वसनीय और सटीक भविष्यवाणियां वास्तव में गिनती होती हैं।


3

कई प्रसिद्ध मामलों में, हां, चर चयन आवश्यक नहीं है। इस कारण से दीप अधिगम थोड़ा अधिक हो गया है।

उदाहरण के लिए, जब एक दृढ़ तंत्रिका नेटवर्क ( http://cs231n.github.io/convolutional-networks/ ) यह अनुमान लगाने की कोशिश करता है कि क्या एक केंद्रित छवि में एक मानवीय चेहरा है, तो छवि के कोनों में न्यूनतम मूल्य का मान होता है। पारंपरिक मॉडलिंग और परिवर्तनशील चयन से मॉडलर को भविष्यवाणियों के रूप में कोने के पिक्सल को हटाना होगा; हालाँकि, जटिल तंत्रिका नेटवर्क इन भविष्यवाणियों को अनिवार्य रूप से स्वचालित रूप से छोड़ने के लिए पर्याप्त स्मार्ट है। यह सबसे गहरी सीखने वाले मॉडल के लिए सच है जो एक छवि में किसी वस्तु की उपस्थिति की भविष्यवाणी करने की कोशिश करता है (उदाहरण के लिए, सेल्फ हैंडलिंग कारें "मार्किंग" लेन मार्किंग, बाधाएं या ऑनबोर्ड स्ट्रीमिंग वीडियो के फ्रेम में अन्य कारें)।

डीप लर्निंग शायद बहुत सारी पारंपरिक समस्याओं के लिए ओवरकिल है, जहां डेटासेट छोटे हैं या जहां डोमेन ज्ञान प्रचुर मात्रा में है, इसलिए पारंपरिक चर चयन संभवतः लंबे समय तक, कम से कम कुछ क्षेत्रों में प्रासंगिक रहेगा। फिर भी, गहरी शिक्षा महान है जब आप न्यूनतम मानवीय हस्तक्षेप के साथ एक "बहुत अच्छा" समाधान फेंकना चाहते हैं। छवियों में हस्तलिखित अंकों को पहचानने के लिए मुझे कई घंटे लग सकते हैं और भविष्यवाणियों का चयन करने के लिए, लेकिन एक जटिल तंत्रिका नेटवर्क और शून्य चर चयन के साथ, मैं Google के TensorFlow का उपयोग करके केवल 20 मिनट में एक अत्याधुनिक मॉडल रख सकता हूं ( https://www.tensorflow.org/versions/r0.8/tutorials/mnist/pros/index.html )।


3
मुझे वास्तव में यह डीएल परिप्रेक्ष्य पसंद है। कंप्यूटर विज़न में, आपके द्वारा सामना की जाने वाली डेटा मैट 2 डी छवियों को समतल किया जाता है, जहां किसी विशेष कॉलम का अर्थ अवलोकन पर निर्भर करता है। उदाहरण के लिए, पिक्सेल 147 छवि संख्या 27 में एक बिल्ली का चेहरा हो सकता है, लेकिन यह छवि नंबर 42 में पृष्ठभूमि की दीवार है। इसलिए, सुविधा चयन जैसा कि हम जानते हैं कि यह बुरी तरह से विफल होगा। यही कारण है कि ConvNet इतना शक्तिशाली है क्योंकि इसमें बिल्ट-इन ट्रांसलेशनल / रोटेशनल इनवेरियन है।
राशिफल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.