'69 में डेटा से सामान्य रूप से सीखने की कला


16

मैं 1969 से प्रसिद्ध Minsky और Papert पुस्तक "Perceptrons" के संदर्भ को समझने की कोशिश कर रहा हूं, ताकि तंत्रिका नेटवर्क के लिए महत्वपूर्ण हो।

जहां तक ​​मुझे पता है, परसेप्ट्रॉन को छोड़कर अभी तक कोई अन्य सामान्य पर्यवेक्षित शिक्षण एल्गोरिदम नहीं थे: निर्णय पेड़ वास्तव में केवल 70 के दशक के उत्तरार्ध में उपयोगी होने लगे, यादृच्छिक वन और एसवीएम 90 के दशक हैं। ऐसा लगता है कि जैकनाइफ पद्धति पहले से ही ज्ञात थी, लेकिन के-क्रॉस सत्यापन (70) या बूटस्ट्रैप (1979?) नहीं।

विकिपीडिया का कहना है कि नेमन-पियर्सन और फिशर के शास्त्रीय सांख्यिकी ढांचे '50 के दशक में अभी भी असहमति में थे, इसके बावजूद कि संकर सिद्धांत का वर्णन करने के पहले प्रयास 40 के दशक में ही थे।

इसलिए मेरा प्रश्न: डेटा से भविष्यवाणी करने की सामान्य समस्याओं को हल करने के अत्याधुनिक तरीके क्या थे?


6
लॉजिस्टिक रिग्रेशन का इस्तेमाल तब शुरू हुआ जब आज 70 के दशक के अंत में क्रैमर, जेएस (2002) को देखा गया। "लॉजिस्टिक रिग्रेशन की उत्पत्ति", पी। 12, papers.tinbergen.nl/02119.pdf
टिम

रैखिक प्रतिगमन संभवतः एक "जेनेरिक सुपरवाइज्ड लर्निंग एल्गोरिथम" है और इसकी शुरुआत 1800 के दशक में हुई थी; प्रोबिट रिग्रेशन, कम से कम किसी रूप में, जाहिर तौर पर 1930 के दशक में उत्पन्न हुआ था । क्या आप यहाँ "जेनेरिक" द्वारा विशेष रूप से कुछ मतलब है?
डगल

@ डगल: बस "विभिन्न क्षेत्रों में बड़ी संख्या में समस्याओं के लिए लागू पाया जाता है", जैसा कि "एक विशिष्ट समस्या को हल करने के लिए डिज़ाइन किया गया" के विपरीत है। मैं यह समझने की कोशिश कर रहा हूं कि 60 के दशक में एक सांख्यिकीविद् या एआई वैज्ञानिक द्वारा कौन से तरीकों का इस्तेमाल किया जाएगा, जब कोई नया अज्ञात समस्या का सामना करना पड़ रहा है जब कोई सरल काम नहीं होता है जब सबसे सरल दृष्टिकोण (जैसे, मुझे लगता है, रैखिक प्रतिगमन?) काम नहीं करता है? और इसलिए अधिक जटिल उपकरणों की तलाश उचित है। उदाहरण के लिए, यादृच्छिक वन अब इस तरह के एल्गोरिदम में से एक है: वे विभिन्न क्षेत्रों के बहुत सारे डेटासेट पर यथोचित कार्य करते हैं।
लियोरी

हां यकीनन। यह शायद ध्यान देने योग्य है कि प्रोबेट रिग्रेशन वास्तव में मूल पेरिसेप्ट्रान की तुलना में बेहतर सामान्य-उद्देश्य वर्गीकरण मॉडल है। उस समय इसका उपयोग किया गया था या नहीं, मुझे नहीं पता। परसेप्ट्रॉन को उस समय अलग माना जाता था क्योंकि उन्हें एक SGD-जैसे ऑप्टिमाइज़ेशन एल्गोरिथ्म के साथ बांधा गया था, जिसने संभवतः उन्हें प्रोबेट की तुलना में उस समय के कंप्यूटरों के लिए अधिक स्केलेबल बना दिया था, हालांकि आज हमें एहसास है कि वे विकल्प स्वतंत्र हैं।
डगल

1
यहाँ अभी भी किसी के लिए भी इस विषय में दिलचस्पी है: मैंने 60 के दशक में ऑल्टरप्टन विवादों के विषय पर विज्ञान के क्षेत्र के समाजशास्त्र से एक दिलचस्प अध्ययन पाया: ओलाजारन, "आधिकारिक इतिहास पर्सेप्ट्रॉन का विवाद"। पाठ यहाँ वर्णित प्रश्न का उत्तर नहीं देता है, लेकिन मिन्स्की और पैपर्ट पुस्तक के लिए समाजशास्त्रीय संदर्भ प्रदान करता है - एक जो मुझे अब विज्ञान की वास्तविक स्थिति से अधिक महत्वपूर्ण लगता है।
लियोरी

जवाबों:


12

मैं इस बारे में उत्सुक था, इसलिए मैंने कुछ खुदाई की। मुझे यह जानकर आश्चर्य हुआ कि कई सामान्य वर्गीकरण एल्गोरिदम के पहचानने वाले संस्करण पहले से ही 1969 में उपलब्ध थे। लिंक और उद्धरण नीचे दिए गए हैं।

यह ध्यान देने योग्य है कि एआई अनुसंधान हमेशा वर्गीकरण पर इतना केंद्रित नहीं था। योजना और प्रतीकात्मक तर्क में बहुत रुचि थी, जो अब प्रचलन में नहीं हैं, और लेबल किए गए डेटा को खोजने के लिए बहुत कठिन था। इन सभी लेखों को व्यापक रूप से या तो उपलब्ध नहीं किया जा सकता है: उदाहरण के लिए, प्रोटो-एसवीएम कार्य ज्यादातर रूसी में प्रकाशित किया गया था। इस प्रकार, यह अनुमान लगा सकता है कि 1969 में वर्गीकरण के बारे में एक औसत वैज्ञानिक कितना जानता था।


विभेदक विश्लेषण

फिशर ने 1936 के आर्टिकल में यूजीनिक्स के एक लेख में एक रेखीय फलन को खोजने की एक प्रक्रिया का वर्णन किया है जो आइरिस फूलों की तीन प्रजातियों के बीच भेदभाव करता है, जो उनकी पंखुड़ियों और सेपल आयामों के आधार पर होता है। उस पेपर में उल्लेख किया गया है कि ई। एस। मार्टिन और कार्ल पियर्सन ( jstor ) के सहयोग से फिशर ने मिस्र में खुदाई की गई मानव मंडियों (जबड़े की हड्डियों) के लिंग की भविष्यवाणी करने के लिए एक समान तकनीक लागू की थी। ) के साथ-साथ एक अलग कपाल माप परियोजना के एक मिस माइल्ड्रेड बर्नार्ड के साथ (जिसे मैं नीचे ट्रैक नहीं कर सकता था)।

रसद प्रतिगमन

लॉजिस्टिक फ़ंक्शन को 19 वीं शताब्दी के बाद से ही जाना जाता है, लेकिन ज्यादातर संतृप्त प्रक्रियाओं के लिए एक मॉडल के रूप में, जैसे कि जनसंख्या वृद्धि या जैव रासायनिक प्रतिक्रियाएं। टिम जेएसएम क्रैमर के लेख के ऊपर लिंक करते हैं, जो अपने शुरुआती दिनों का एक अच्छा इतिहास है। हालांकि, 1969 तक, कॉक्स ने बाइनरी डेटा के विश्लेषण का पहला संस्करण प्रकाशित किया था मुझे मूल नहीं मिला, लेकिन बाद के संस्करण में वर्गीकरण करने के लिए लॉजिस्टिक प्रतिगमन का उपयोग करने पर एक संपूर्ण अध्याय शामिल है। उदाहरण के लिए:

y=0,1एक्स'yy

) के ।

तंत्रिका जाल

रोज़ेनब्लाट प्रकाशित एक तकनीकी रिपोर्ट 1957 में perceptron का वर्णन है और यह बाद के साथ एक पुस्तक , Neurodynamics के सिद्धांतों से काम सहित backpropagation के 1962 सतत संस्करणों में 1960 के दशक के बाद से आसपास किया गया है, केली , Bryson, और Bryson और हो (में संशोधित १ ९ from५, लेकिन मूल १ ९ ६ ९ से है । हालांकि, इसे कुछ समय बाद तक तंत्रिका नेटवर्क पर लागू नहीं किया गया था, और बहुत गहरे नेटवर्क के प्रशिक्षण के तरीके बहुत अधिक हाल के हैं। गहन अध्ययन पर यह विद्वानपेडिया लेख में अधिक जानकारी है।

सांख्यकी पद्धतियाँ

मुझे संदेह है कि वर्गीकरण के लिए बेयस नियम का उपयोग किया गया है और कई बार इसे फिर से खोजा गया है - यह स्वयं नियम का एक सुंदर प्राकृतिक परिणाम है। सिग्नल डिटेक्शन सिद्धांत ने यह तय करने के लिए एक मात्रात्मक रूपरेखा विकसित की कि क्या एक दिया गया इनपुट "सिग्नल" या शोर था। यह कुछ WWII के बाद रडार अनुसंधान से बाहर आया था, लेकिन इसे तेजी से अवधारणात्मक प्रयोगों (जैसे, ग्रीन और स्वाइप द्वारा ) के लिए अनुकूलित किया गया था । मुझे नहीं पता कि किसने अनुमान लगाया था कि भविष्यवक्ताओं के बीच स्वतंत्रता का अनुमान लगाने से काम अच्छा हो जाता है, लेकिन 1970 के दशक की शुरुआत से इस विचार का फायदा उठा, जैसा कि इस लेख में संक्षेप में बताया गया है । संयोग से, यह लेख यह भी बताता है कि Naive Bayes को कभी "बेवकूफ बेयस" कहा जाता था!

समर्थन वेक्टर मशीन

1962 में, वाप्निक और चेरोवेनेकिस ने "सामान्यीकृत पोर्ट्रेट एल्गोरिथ्म" ( भयानक स्कैन, सॉरी ) का वर्णन किया , जो एक समर्थन वेक्टर मशीन (या वास्तव में, एक-वर्ग एसवीएम) के एक विशेष मामले जैसा दिखता है। Chervonenkis ने "प्रारंभिक इतिहास समर्थन वेक्टर मशीनों" नामक एक लेख लिखा, जो इसे और उनके अनुवर्ती कार्य को अधिक विस्तार से बताता है। कर्नेल ट्रिक (आंतरिक उत्पादों के रूप में गुठली) का वर्णन 1964 में आइज़रमन, ब्रेवरमैन और रोज़ोनर द्वारा किया गया था। यहाँ svms.org का समर्थन वेक्टर मशीनों के इतिहास के बारे में कुछ अधिक है


2
समय-श्रृंखला विश्लेषण भी कुछ दिलचस्प समस्याओं को हल कर रहा था। ARMA और Kalman फ़िल्टर ने 50 और 60 के दशक में कुछ अच्छा लाभ कमाया।
एंग्रीस्टुडेंट - मोनिका

1
दिलचस्प! मैं इसके बारे में या इसके इतिहास के बारे में ज्यादा नहीं जानता, लेकिन अगर आपने एक लिखा तो मैं खुशी से इसका जवाब दूंगा!
मैट क्रूस

3

अस्वीकरण : यह उत्तर अधूरा है, लेकिन मेरे पास अभी इसे वर्तमान बनाने के लिए समय नहीं है। मुझे इस सप्ताह के अंत में इस पर काम करने की उम्मीद है।


सवाल:
1969 के आंकड़ों से अनुमान लगाने की सामान्य समस्याओं को हल करने की अत्याधुनिक विधियाँ क्या थीं?

नोट: यह 'मैट क्रूस' द्वारा उत्कृष्ट उत्तर को दोहराने के लिए नहीं जा रहा है।

"स्टेट ऑफ द आर्ट" का अर्थ है "सर्वश्रेष्ठ और सबसे आधुनिक" लेकिन जरूरी नहीं कि उद्योग के मानदंड के रूप में अभ्यास किया जाए। इसके विपरीत, यूएस पेटेंट कानून "गैर-स्पष्ट" के रूप में "कला में साधारण कौशल" द्वारा परिभाषित दिखता है। 1969 के लिए "कला की स्थिति" को संभवतः अगले दशक में पेटेंट में डाल दिया गया था।

यह अत्यंत संभावना है कि 1969 के "सबसे अच्छे और सबसे चमकीले" दृष्टिकोणों का उपयोग या उपयोग ECHELON (1) (2) में किया गया था । यह दूसरे के मूल्यांकन में भी दिखाई देगा, जो युग की काफी गणितीय रूप से सक्षम महाशक्ति है, USSR। (3) किसी उपग्रह को बनाने में मुझे कई साल लग जाते हैं, और इसलिए किसी को यह भी उम्मीद होगी कि १ ९ ६ ९ की कला की स्थिति को दिखाने के लिए संचार, टेलीमेट्री, या टोही उपग्रहों के अगले ~ ५ वर्षों के लिए प्रौद्योगिकी या सामग्री। मौसम -2 मौसम उपग्रह 1967 में शुरू हुआ और प्रारंभिक डिजाइन 1971 में पूरा हुआ। (4) स्पेक्ट्रोमेट्रिक और एक्टिनोमेट्रिक पेलोड इंजीनियरिंग दिन के डेटा-प्रोसेसिंग क्षमताओं द्वारा सूचित किया जाता है, और उस समय के "निकट-भविष्य" डेटा हैंडलिंग के द्वारा। इस प्रकार के डेटा का प्रसंस्करण वह है जहां अवधि की सर्वोत्तम प्रथाओं की तलाश की जाती है।

"जर्नल ऑफ़ ऑप्टिमाइज़ेशन थ्योरी एंड एप्लीकेशंस" का एक अंश कई वर्षों से चल रहा था और इसकी सामग्री सुलभ है। (5) इस पर विचार करें (6) इष्टतम आकलनकर्ताओं का मूल्यांकन, और पुनरावर्ती आकलनकर्ताओं के लिए यह एक। (7)

1970 के दशक में शुरू की गई SETI परियोजना, कम बजट तकनीक और तकनीकों का उपयोग कर रही थी जो उस समय की तकनीक को फिट करने के लिए पुराने थे। की खोजप्रारंभिक SETI तकनीकों 1969 के आसपास अग्रणी मानी जाने वाली तकनीक से भी बात कर सकती है। एक संभावित उम्मीदवार " SETI " के लिए उपयुक्त है। "सूटकेस SETI" ने ~ 130k संकीर्ण-बैंड चैनलों में ऑटोक्रॉलेशन रिसीवर्स बनाने के लिए डीएसपी का उपयोग किया। SETI लोग विशेष रूप से स्पेक्ट्रम विश्लेषण करने के लिए देख रहे थे। Aricebo डेटा को संसाधित करने के लिए पहले दृष्टिकोण का ऑफ़लाइन उपयोग किया गया था। इसे बाद में लाइव डेटा के लिए 1978 में इसे Aricebo रेडियो टेलीस्कोप से जोड़ा गया और उसी वर्ष प्रकाशित किया गया । 1982 में वास्तविक सूटकेस-सेटी को पूरा किया गया था। (लिंक) एक ब्लॉक आरेख प्रक्रिया दिखा रहा है।

दृष्टिकोण था ऑफ़-लाइन लॉन्ग-फूरियर ट्रांसफॉर्म (~ 64k सैंपल) का उपयोग करने के लिए चिरप को संभालने सहित बैंडविड्थ सेगमेंट की खोज, और डॉपलर शिफ्ट के लिए वास्तविक समय का मुआवजा। दृष्टिकोण "नया नहीं है" और संदर्भ सहित प्रदान किए गए: देखें, उदाहरण के लिए,

A. G. W. Cameron, Ed., 
In- terstellar Communication 
(Benjamin, New York,1963); 

I. S. Shklovskii and C. Sagan, 
In-telligent Life in the Universe 
(Holden-Day, San Francisco, 1966); 

C. Sagan, Ed., 
Communication with Extraterrestrial Intelligence 
(MIT Press, Cambridge, Mass., 1973); 
P. Morrison, J.

B. M. Oliver and J. Billingham, 
"Project Cyclops: A Design Study of a System for Detecting Extraterrestrial Intelligent Life," 
NASA Contract. Rep. CR114445 (1973). 

अगले राज्य की भविष्यवाणी के लिए इस्तेमाल किए गए उपकरण, जो पिछली स्थिति को देखते हुए उस समय लोकप्रिय थे, में शामिल हैं:

  • कलमन (और व्युत्पन्न) फिल्टर (वेनर, बुकी, नॉनलाइनर ...)
  • समय श्रृंखला (और व्युत्पन्न) तरीके
  • फ़्रीक्वेंसी डोमेन मेथड (फूरियर) जिसमें फ़िल्टरिंग और प्रवर्धन शामिल हैं

आम "कीवर्ड" (या बज़-शब्द) में "सहायक, परिवर्तनशील, ढाल, इष्टतम, दूसरा क्रम और संयुग्मन" शामिल हैं।

एक कलमन फ़िल्टर का आधार एक विश्लेषणात्मक और पूर्वानुमान मॉडल के साथ वास्तविक विश्व डेटा का इष्टतम मिश्रण है। उनका इस्तेमाल मिसाइल बनाने जैसी चीज़ों के लिए किया जाता था, जो एक लक्ष्य को निशाना बनाती हैं।


उस लिखने के लिए धन्यवाद - मुझे आपके द्वारा लिया गया एप्लिकेशन-संचालित दृष्टिकोण पसंद है!
मैट क्राउज़

@MattKrause - मेरे पास अभी भी इसे डालने के लिए थोड़ा सा है। मुझे लगा कि इस मामले में आवेदन संचालित दृष्टिकोण "गणित के पुरातत्व" की सेवा करेगा। हम देख लेंगे। काम मुझे एक "सूटकेस-एसईटीआई" का निर्माण करना चाहता है और इसका उपयोग जीवन के लिए अपने मानव वातावरण को देखने के लिए करता है, बस यह अनुमान लगाने के लिए कि 50 साल के उपकरण क्या कर रहे थे।
एंग्रीस्टूडेंट -
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.