वर्षों से अफवाहें हैं कि Google अपने पूर्वानुमानित एल्गोरिदम के निर्माण में सभी उपलब्ध सुविधाओं का उपयोग करता है। हालांकि, आज तक, कोई भी अस्वीकरण, स्पष्टीकरण या श्वेत पत्र सामने नहीं आया है जो इस अफवाह को स्पष्ट और / या विवादित करता है। यहां तक कि उनके प्रकाशित पेटेंट भी समझ में मदद नहीं करते हैं। नतीजतन, Google के लिए कोई भी बाहरी नहीं जानता कि वे क्या कर रहे हैं, मेरे सर्वोत्तम ज्ञान के लिए।
/ * सेप्ट 2019 में अपडेट, एक Google Tensorflow इंजीलवादी ने यह कहते हुए एक प्रस्तुति में रिकॉर्ड किया कि Google इंजीनियर नियमित रूप से पेजरैंक के वर्तमान संस्करण के लिए 5 बिलियन से अधिक मापदंडों का मूल्यांकन करते हैं । * /
ओपी नोट के रूप में, भविष्य कहनेवाला मॉडलिंग में सबसे बड़ी समस्याओं में से एक क्लासिक परिकल्पना परीक्षण और सावधानीपूर्वक मॉडल विनिर्देश बनाम क्लासिक खनन खनन के बीच का टकराव है। मॉडल डिजाइन और विकास में "कठोर" की आवश्यकता के बारे में शास्त्रीय रूप से प्रशिक्षित काफी हठधर्मिता प्राप्त कर सकते हैं। तथ्य यह है कि जब भारी संख्या में उम्मीदवार भविष्यवक्ताओं और कई संभावित लक्ष्यों या आश्रित चर के साथ सामना किया जाता है, तो क्लासिक रूपरेखा न तो काम करती है, न ही रखती है और न ही उपयोगी मार्गदर्शन प्रदान करती है। कई हाल ही में कागजात चट्टोपाध्याय और Lipson की शानदार कागज से इस दुविधा को चित्रित डाटा स्मैशिंग: डेटा में गुप्त आदेश Uncovering http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf
महत्वपूर्ण अड़चन यह है कि अधिकांश डेटा तुलना एल्गोरिदम आज एक मानव विशेषज्ञ पर निर्भर करते हैं कि डेटा की 'विशेषताएं' तुलना के लिए प्रासंगिक हैं। यहाँ, हम मनमाने ढंग से डेटा स्ट्रीम के स्रोतों के बीच समानता का आकलन करने के लिए एक नया सिद्धांत प्रस्तावित करते हैं, न तो डोमेन ज्ञान और न ही सीखने का उपयोग करते हुए।
क्लेनबर्ग, एट अल द्वारा भविष्यवाणी नीति समस्याओं पर पिछले साल के एईआर पेपर को । https://www.aeaweb.org/articles?id=10.1257/aer.p20151023 जो डेटा माइनिंग और भविष्यवाणी को आर्थिक नीति बनाने में उपयोगी उपकरण के रूप में बनाता है, उदाहरणों का हवाला देते हुए जहां "कारण निष्कर्ष केंद्रीय नहीं है, या आवश्यक भी है। "
तथ्य यह है कि बड़ा, $ 64,000 का प्रश्न क्लासिक परिकल्पना-परीक्षण ढांचे में निहित सोच और चुनौतियों में व्यापक बदलाव है, उदाहरण के लिए, "अप्रचलित" वैज्ञानिक सोच https://www.edge.org/ पर इस Edge.org संगोष्ठी। प्रतिक्रियाएँ / क्या-वैज्ञानिक-विचार-के लिए तैयार-साथ-साथ सेवानिवृत्ति के बाद हाल ही में एरिक बीन्होकर का यह लेख "नई अर्थशास्त्र" जो व्यवहारिक अर्थशास्त्र, जटिलता सिद्धांत, भविष्य कहनेवाला मॉडल जैसे व्यापक रूप से विभिन्न विषयों को एकीकृत करने के लिए कुछ कट्टरपंथी प्रस्ताव प्रस्तुत करता है विकास, नेटवर्क और पोर्टफोलियो सिद्धांत नीति कार्यान्वयन और गोद लेने के लिए एक मंच के रूप में https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/कहने की जरूरत नहीं है, ये मुद्दे केवल आर्थिक चिंताओं से परे हैं और सुझाव देते हैं कि हम वैज्ञानिक प्रतिमानों में एक मौलिक बदलाव से गुजर रहे हैं। शिफ्टिंग व्यू कम करने वाले, ऑकैम के रेजर जैसे मॉडल-बिल्डिंग बनाम एपिकुरस के विस्तार के सिद्धांत या कई स्पष्टीकरणों के बीच के मूलभूत रूप से मौलिक हैं जो मोटे तौर पर बताते हैं कि यदि कई निष्कर्ष कुछ बताते हैं, तो सभी को बनाए रखें ... https: // en। wikipedia.org/wiki/Principle_of_plenitude
बेशक, Beinhocker जैसे लोग पूरी तरह से व्यावहारिक के साथ अप्रभावित हैं, इस विकसित प्रतिमान के सांख्यिकीय समाधानों के संबंध में खाइयों की चिंताओं में। अल्ट्रा-हाई डायमेंशनल वैरिएबल सेलेक्शन के नॉटी-ग्रिटि प्रश्नों को लिखिए, ओपी मॉडल बिल्डिंग के प्रति व्यवहार्य दृष्टिकोणों के बारे में अपेक्षाकृत निरर्थक है जो लीवर, उदाहरण के लिए, लास्सो, एलएआर, स्टेपवाइज एल्गोरिदम या "एलिफेंट मॉडल" जो सभी उपलब्ध जानकारी का उपयोग करते हैं। वास्तविकता यह है कि, AWS या एक सुपर कंप्यूटर के साथ भी, आप एक ही समय में सभी उपलब्ध सूचनाओं का उपयोग नहीं कर सकते हैं - बस इतना ही नहीं है कि RAM इन सभी को लोड कर सके। इसका क्या अर्थ है? उदाहरण के लिए, कॉम्प्लेक्स या बड़े डेटासेट में NSF की डिस्कवरी: कॉमन स्टैटिस्टिकल थीमबड़े पैमाने पर डेटा खनन के लिए एल्गोरिदम को "विभाजित और जीतना", जैसे, वैंग, एट अल पेपर, सांख्यिकीय डेटा का एक सर्वेक्षण और बिग डेटा के लिए कम्प्यूटिंग http://arxiv.org/pdf/1502.07989.pdf और साथ ही लेसकोवेक, एट अल। पुस्तक विशाल डेटासेटों में खनन http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datasets
अब वास्तव में सैकड़ों हैं, यदि हजारों कागज नहीं हैं जो इन चुनौतियों के विभिन्न पहलुओं से निपटते हैं, तो सभी "डिवाइड और विजय" एल्गोरिदम से अपने कोर के रूप में व्यापक रूप से भिन्न विश्लेषणात्मक इंजनों का प्रस्ताव रखते हैं; अनरूप, "डीप लर्निंग" मॉडल; यादृच्छिक मैट्रिक्स सिद्धांत बड़े पैमाने पर सहसंयोजक निर्माण पर लागू होता है; क्लासिक, पर्यवेक्षित लॉजिस्टिक प्रतिगमन, और अधिक के लिए बायेसियन टेंसर मॉडल। पंद्रह साल या उससे पहले, बहस काफी हद तक क्रमिक परिमित मिश्रण मॉडल बनाम पदानुक्रमित बायेसियन समाधानों के सापेक्ष गुणों से संबंधित प्रश्नों पर केंद्रित थी। इन मुद्दों को संबोधित करने वाले एक पेपर में, एंसली, एट अल। http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdfइस निष्कर्ष पर पहुंचे कि भिन्न सैद्धांतिक दृष्टिकोण, व्यवहार में, विरल और / या उच्च आयामी डेटा से संबंधित समस्याओं के अपवाद के साथ काफी हद तक समकक्ष परिणाम उत्पन्न करते हैं जहां एचबी मॉडल का लाभ था। आज डी एंड सी वर्कअराउंड के आगमन के साथ, किसी भी मध्यस्थ एचबी मॉडल को ऐतिहासिक रूप से आनंदित किया जा सकता है।
इन डी एंड सी वर्कअराउंड के मूल तर्क, ब्रेमेन की प्रसिद्ध यादृच्छिक वन तकनीक के विस्तार और विस्तार से हैं, जो टिप्पणियों और सुविधाओं के बूटस्ट्रैप किए गए पुनरुत्थान पर निर्भर थे। ब्रेमेन ने 90 के दशक के उत्तरार्ध में अपना काम एक ही सीपीयू पर किया जब बड़े पैमाने पर डेटा का मतलब कुछ दर्जन जिग्स और कुछ हज़ार फीचर थे। आज के बड़े पैमाने पर समानांतर, मल्टी-कोर प्लेटफार्मों पर, कुछ ही घंटों में लाखों "आरएफ" मिनी-मॉडल बनाने वाले लाखों विशेषताओं वाले डेटा के टेराबाइट्स का विश्लेषण करने वाले एल्गोरिदम को चलाना संभव है।
इन सभी में से कितने भी महत्वपूर्ण प्रश्न आ रहे हैं। इन वर्कअराउंड की अनुमानित प्रकृति के कारण सटीक नुकसान पर चिंता का सामना करना पड़ता है। इस मुद्दे को चेन और ज़ी ने अपने पेपर में, ए स्प्लिट-एंड-कॉनकेटर एप्रोच फॉर एनालिसिस ऑफ़ एक्सट्राऑर्डिनरी लार्ज डेटा http://dimacs.rutgers.edu/TechnicalReports/TechReet/2012/3-01-01.pdf जहाँ उन्होंने निष्कर्ष निकाला है , को संबोधित किया है। कि अनुमान "पूरी जानकारी" मॉडल से अलग-अलग हैं।
एक दूसरी चिंता, जो मेरे ज्ञान के सर्वश्रेष्ठ के लिए साहित्य द्वारा पर्याप्त रूप से संबोधित नहीं की गई है, परिणाम के साथ क्या किया जाना है (यानी, "पैरामीटर") संभावित भविष्यवाणियों के लाखों संभावित मॉडल से एक बार काम करने के बाद लुढ़का और संक्षेप किया गया है। दूसरे शब्दों में, कोई व्यक्ति इन परिणामों के साथ नए डेटा "स्कोरिंग" के रूप में सरल रूप में कुछ कैसे निष्पादित करता है? क्या मिनी-मॉडल गुणांक को सहेजा और संग्रहीत किया जा सकता है या कोई बस नए डेटा पर डी एंड सी एल्गोरिथ्म को फिर से चलाता है?
कैसर फंग ने अपनी पुस्तक नंबर्स रूल योर वर्ल्ड में अपनी प्रतिस्पर्धा के विजेताओं द्वारा सौंपे गए केवल 104 मॉडलों की टुकड़ी के साथ प्रस्तुत किए गए दुविधा नेटफ्लिक्स का वर्णन किया है। विजेताओं ने, वास्तव में, MSE बनाम अन्य सभी प्रतियोगियों को कम से कम कर दिया था, लेकिन इसने 5-बिंदु पर सटीकता में कई दशमलव स्थान सुधार का अनुवाद किया, उनकी फिल्म सिफारिश प्रणाली द्वारा उपयोग किए जाने वाले लिकर्ट-टाइप रेटिंग पैमाने। इसके अलावा, मॉडल के इस पहनावे के लिए आवश्यक आईटी रखरखाव की लागत मॉडल सटीकता में "सुधार" से देखी गई किसी भी बचत से कहीं अधिक है।
फिर इस परिमाण की जानकारी के साथ "अनुकूलन" भी संभव है या नहीं, इसका पूरा प्रश्न है। उदाहरण के लिए, भौतिक विज्ञानी और वित्तीय इंजीनियर, इमैनुएल डर्मन ने अपनी पुस्तक माई लाइफ़ इन ए क्वांट से यह संकेत दिया है कि अनुकूलन एक अस्थिर मिथक है, कम से कम वित्तीय इंजीनियरिंग में।
अंत में, बड़े पैमाने पर सुविधाओं के सापेक्ष सापेक्ष महत्व के बारे में महत्वपूर्ण प्रश्न अभी तक संबोधित नहीं किए गए हैं।
चर चयन की आवश्यकता और वर्तमान द्वारा खोली गई नई चुनौतियों के संबंध में कोई आसान उत्तर नहीं है। प्रश्न, एपिक्यूरियन वर्कअराउंड को हल किया जाना है। लब्बोलुआब यह है कि अब हम सभी डेटा वैज्ञानिक हैं।
**** EDIT ***
संदर्भ
चट्टोपाध्याय I, लिप्सन एच। 2014 डेटा मुंहतोड़: डेटा में गुप्त आदेश को उजागर करना। जेआर सोख। इंटरफ़ेस 11: 20140826.
http://dx.doi.org/10.1098/rsif.2014.0826
क्लेनबर्ग, जॉन, जेन्स लुडविग, सेंथिल मुलैनाथन और ज़ियाद ओबेरमेयर। 2015 "भविष्यवाणी नीति समस्याएं।" अमेरिकी आर्थिक समीक्षा, 105 (5): 491-95। DOI: 10.1257 / Aer.p20151023
Edge.org, 2014 वार्षिक प्रश्न: स्कोर के लिए वैज्ञानिक IDEA क्या है?
https://www.edge.org/responses/what-scientific-idea-is-ready-for-retirement
एरिक बेन्हॉकर, इकोनॉमिक्स में गहरा बदलाव, लेफ्ट वर्सस राइट डिबेट को अप्रासंगिक बना देता है, 2016, Evonomh.org।
https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/
एकाधिक स्पष्टीकरण के एपिकुरस सिद्धांत: सभी मॉडल रखें। विकिपीडिया
https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent
NSF, डिस्कवरी इन कॉम्प्लेक्स या मैसिव डेटासेट्स: कॉमन स्टैटिस्टिकल थीम, नेशनल साइंस फाउंडेशन द्वारा वित्तपोषित एक कार्यशाला, अक्टूबर 16-17, 2007
https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf
सांख्यिकीय तरीके और बिग डेटा के लिए कम्प्यूटिंग, चुन वैंग, मिंग-हुई चेन, एलिजाबेथ शिफानो, जिंग वू और जून यान, 29 अक्टूबर, 2015 http://arxiv.org/pdf/1502.07989.pdf द्वारा वर्किंग पेपर
ज्युर लेसकोव, आनंद राजारामन, जेफरी डेविड उल्मैन, माइनिंग डेटासेट्स का खनन, कैम्ब्रिज यूनिवर्सिटी प्रेस; 2 संस्करण (29 दिसंबर, 2014) आईएसबीएन: 978-1107077232
जियानफेंग याओ, शूरॉन्ग झेंग, झिदोंग बाई, कैम्ब्रिज यूनिवर्सिटी प्रेस द्वारा लार्ज सैंपल कोवरिएनस मैट्रिसेस एंड हाई-डायमेंशनल डेटा एनालिसिस (सांख्यिकीय और संभाव्य गणित में कैम्ब्रिज सीरीज़); 1 संस्करण (30 मार्च, 2015) आईएसबीएन: 978-1107065178
RICK L. ANDREWS, ANDREW AINSLIE, और IMRAN S. CURRIM, हेट्रोजीनिटी के असतत वर्सस कंटिन्युअस रिप्रेजेंटेशन ऑफ जर्नलिस्ट, मार्केटिंग रिसर्च, 479 Vol के साथ लॉज च्वाइस मॉडल्स की एक अनुभवजन्य तुलना। XXXIX (नवंबर 2002), 479–487
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf
असाधारण रूप से बड़े डेटा, Xueying चेन और मिंग Xie, DIMACS तकनीकी रिपोर्ट 2012-01, जनवरी 2012 http://dimacs.rutgers.edu/Technical.eports/TechReports/2012/2012-01.pdf के विश्लेषण के लिए एक स्प्लिट-एंड-कॉनकेटर एप्रोच।
कैसर फंग, नंबर्स रूल योर वर्ल्ड: द हिडन इन्फ्लुएंस ऑफ़ प्रोबेबिलिटीज़ एंड स्टैटिस्टिक्स ऑन एवरीथिंग डू, मैकग्रा-हिल एजुकेशन; 1 संस्करण (15 फरवरी, 2010) आईएसबीएन: 978-0071626538
इमैनुएल डरमन, माई लाइफ ए क्वांट: रिफ्लेक्शंस ऑन फिजिक्स एंड फाइनेंस, विली; 1 संस्करण (11 जनवरी, 2016) आईएसबीएन: 978-0470192733
* नवंबर 2017 में अपडेट करें *
नाथन कुटज़ की 2013 की पुस्तक, डेटा-चालित मॉडलिंग और वैज्ञानिक संगणना: कॉम्प्लेक्स सिस्टम और बिग डेटा के लिए तरीके एक गणितीय और पीडीई-केंद्रित भ्रमण के साथ-साथ आयाम में कमी के तरीकों और उपकरणों का चयन है। उनकी सोच का एक उत्कृष्ट, 1 घंटे का परिचय इस जून 2017 के यूट्यूब वीडियो डेटा ड्रिवेन डिस्कवरी ऑफ डायनामिक सिस्टम्स और पीडीई में पाया जा सकता है । इसमें, वह इस क्षेत्र के नवीनतम विकास का संदर्भ देता है। https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop