अच्छा प्रश्न। @ G5W वी-यिन लोह के पेपर को संदर्भित करने में सही रास्ते पर है। Loh का पेपर निर्णय पेड़ों की सांख्यिकीय पूर्ववृत्त पर चर्चा करता है और, सही ढंग से, विभेदक विश्लेषण पर फिशर (1936) के कागज पर अपने ठिकानों का पता लगाता है - अनिवार्य रूप से प्रतिगमन कई समूहों को आश्रित चर के रूप में वर्गीकृत करता है - और वहां से AID, THAID, CHAID और कार्ट मॉडल।
संक्षिप्त उत्तर यह है कि पहला लेख जो मुझे पता चला है कि 1959 में एक "निर्णय पेड़" दृष्टिकोण तिथियां विकसित करता है और एक ब्रिटिश शोधकर्ता, विलियम बेलसन ने जैविक वर्गीकरण के सिद्धांत पर मिलान और भविष्यवाणी शीर्षक वाले एक पेपर में लिखा है , ( JRSS) , सी सीरीज, एप्लाइड स्टैटिस्टिक्स, वॉल्यूम 8, नंबर 2, जून, 1959, पीपी। 65-75), जिसका सार मिलान जनसंख्या के नमूनों और विकासशील मानदंडों में से एक के रूप में उनके दृष्टिकोण का वर्णन करता है:
इस लेख में डॉ। बेलसन ने जनसंख्या के नमूनों के मिलान के लिए एक तकनीक का वर्णन किया है। यह अनुभवजन्य रूप से विकसित भविष्यवक्ताओं के संयोजन पर निर्भर करता है ताकि सर्वोत्तम उपलब्ध पूर्वानुमान, या मिलान, समग्र दिया जा सके। अंतर्निहित सिद्धांत कई सहसंबंध विधि में निहित से काफी अलग है।
"लंबे" उत्तर यह है कि अन्य, पहले से विचार की धाराएं यहां प्रासंगिक लगती हैं। उदाहरण के लिए, मृत्यु की बीमांकिक सारणियों में नियोजित साधारण आयु-लिंग कोहार्ट ब्रेकआउट कई शताब्दियों पहले की तारीखों के बारे में सोचने के लिए एक रूपरेखा प्रस्तुत करते हैं। यह भी तर्क दिया जा सकता है कि बेबीलोनियों में वापस काम करने के प्रयासों ने द्विघात समीकरणों को नियोजित किया था, जो कि चर में अशुद्ध थे (मापदंडों में नहीं, http://www-history.mcs.st-and.ac.uk/HotTopics/Quadratic_etc_equations)। html ) प्रासंगिकता है, कम से कम अनिद्रा के रूप में वे लॉजिस्टिक विकास के पैरामीट्रिक मॉडल प्रस्तुत करते हैं (मैं मानता हूं कि यह एक खिंचाव हैटिप्पणी, कृपया इसके बारे में पूरी जानकारी के लिए पढ़ें)। इसके अलावा, दार्शनिकों ने लंबे समय से श्रेणीबद्ध, गुणात्मक जानकारी, उदाहरण के लिए, अरस्तू की पुस्तक श्रेणियाँ पर अस्तित्व के बारे में सिद्धांत दिया है । एक पदानुक्रम की अवधारणा और धारणा यहाँ महत्वपूर्ण है। अन्य प्रासंगिक, बहुत बाद की खोज डेविड हिल्बर्ट के अनंत, हिल्बर्ट के विकास में 3-डी यूक्लिडियन अंतरिक्ष की सीमाओं से परे धकेलने में थी4-डी मिंकोव्स्की अंतरिक्ष, दूरी और समय से संबंधित भौतिकी में अंतरिक्ष, कॉम्बिनेटरिक्स, खोजों, आइंस्टीन के विशेष सापेक्षता के सिद्धांत के पीछे सांख्यिकीय यांत्रिकी के साथ-साथ मार्कोव श्रृंखला, संक्रमण और प्रक्रियाओं के मॉडल से संबंधित संभाव्यता के सिद्धांत में नवाचार। यहाँ यह मुद्दा यह है कि किसी भी सिद्धांत और उसके अनुप्रयोग के बीच एक महत्वपूर्ण अंतराल हो सकता है - इस मामले में, गुणात्मक जानकारी और उनके अनुभवजन्य आकलन, भविष्यवाणी, वर्गीकरण और मॉडलिंग से संबंधित विकास के सिद्धांतों के बीच अंतराल।
एक सबसे अच्छा अनुमान यह है कि इन विकासों को सांख्यिकीविदों के बढ़ते परिष्कार के इतिहास के साथ जोड़ा जा सकता है, ज्यादातर 20 वीं सी में, निरंतर (जैसे, नाममात्र या, अधिक सरल, स्पष्ट जानकारी) के अलावा अन्य प्रकार के मॉडल विकसित करने में, डेटा मॉडल की गणना करें (पॉइसन), क्रॉस-वर्गीकृत आकस्मिक तालिकाओं, वितरण-रहित गैर-समरूप आंकड़े, बहुआयामी स्केलिंग (जैसे, JG कैरोल, अन्य लोगों के बीच), गुणात्मक निर्भर चर वाले मॉडल जैसे दो समूह लॉजिस्टिक प्रतिगमन और साथ ही पत्राचार विश्लेषण (ज्यादातर हॉलैंड और फ्रांस में) 70 और 80 के दशक में)।
एक व्यापक साहित्य है जो दो समूह विवेकपूर्ण विश्लेषण के साथ दो समूह लॉजिस्टिक प्रतिगमन की चर्चा करता है और तुलना करता है, और पूरी तरह से नाममात्र की सुविधाओं के लिए, उन्हें समान समाधान प्रदान करता है (जैसे, डिलन और गोल्डस्टीन के मल्टीवेरिएट विश्लेषण , 1984)।
लॉजिस्टिक रिग्रेशन ( लॉजिस्टिक्स रिग्रेशन का इतिहास , http://papers.tinbergen.nl/02119.pdf ) के इतिहास पर जेएस क्रैमर का लेख इसे अविभाजित, लॉजिस्टिक घटनाओं या क्लासिक एस-आकार के वक्र के विकास के साथ उत्पन्न होने के रूप में वर्णित करता है :
लॉजिस्टिक शब्द के अस्तित्व और डिवाइस के विस्तृत अनुप्रयोग को व्यक्तिगत इतिहास और कुछ विद्वानों के व्यक्तिगत कार्यों द्वारा निर्णायक रूप से निर्धारित किया गया है ...
1825 में लॉजिस्टिक वक्र के नियतात्मक मॉडल की शुरुआत हुई, जब बेंजामिन गोम्पर्ट्ज़ ( https://en.wikipedia.org/wiki/Benjamin_Gompertz ) ने एक पेपर प्रकाशित किया जो वास्तव में नॉनलाइनर लॉजिस्टिक मॉडल (मापदंडों में नॉनलाइनियर और न केवल चर के साथ वैसा ही था) द बैबिलोनियंस) - गोमर्ट्ज़ मॉडल और कर्व।
मैं सुझाव दूंगा कि इस श्रृंखला में एक और महत्वपूर्ण कड़ी निर्णय वृक्षों के आविष्कार की ओर ले जाती है जो कि कोलंबिया के समाजशास्त्री पॉल लार्सफेल्ड ने अव्यक्त संरचना मॉडल पर काम किया था। उनका काम 30 के दशक में शुरू हुआ, नवजात ओएसएस (बाद में सीआईए, के रूप में जॉन Naisbett की किताब में चर्चा के लिए जर्मन समाचार पत्र के बारे में उनकी सामग्री विश्लेषण के साथ द्वितीय विश्व युद्ध के दौरान जारी Megatrends ) और अंत में 1950 में प्रकाशित एंडरसन इसे इस तरह का वर्णन करता है ( अव्यक्त संरचना विश्लेषण: ए सर्वे , एरलिंग बी। एंडरसन, स्कैंडिनेवियाई जर्नल ऑफ़ स्टैटिस्टिक्स , वॉल्यूम 9, नंबर 1, 1982, पीपी। 1-12):
अव्यक्त संरचना विश्लेषण के शास्त्रीय सिद्धांत की नींव पॉल लार्सफेल्ड द्वारा 1950 में WWII के दौरान अमेरिकी सैनिकों के नृवंशविज्ञानवाद के अध्ययन में विकसित की गई थी। लेज़रसफ़ेल्ड मुख्य रूप से अव्यक्त संरचना मॉडल की वैचारिक नींव को विकसित करने में रुचि रखते थे ... लेज़र्सफेल्ड द्वारा विकसित सांख्यिकीय तरीके, हालांकि, आदिम थे ... कुशल अनुमान विधियों और परीक्षण प्रक्रियाओं को प्राप्त करने का एक प्रारंभिक प्रयास कोलंबिया विश्वविद्यालय के लार्सफेल्ड के सहयोगी द्वारा किया गया था। , लेड एंडरसन, जो एक पेपर में हैं ( साइकोमेट्रिक , मार्च 1954, वॉल्यूम 19, अंक 1, पीपी 1–10, अव्यक्त संरचना विश्लेषण में मापदंडों के आकलन पर), अव्यक्त वर्ग मॉडल के मापदंडों के लिए एक कुशल आकलन विधि विकसित की ... फ्रेमवर्क (अव्यक्त वर्ग मॉडल के) का परिचय देने के लिए हम मूल अवधारणाओं की संक्षिप्त रूपरेखा तैयार करेंगे ... और गुडमैन द्वारा बहुत बाद में विकसित किए गए एक सूचना प्रणाली का उपयोग करें। (1974a) ... डेटा एक एकाधिक आकस्मिक तालिका के रूप में दिया गया है ...
यहाँ बनाने के लिए एक उपयोगी अंतर है, क्योंकि यह AID से CHAID (बाद में CART) तक की प्रगति से संबंधित हो सकता है, आकस्मिक तालिका-आधारित मॉडल (मॉडल में सभी चर नाममात्र स्केल किए गए हैं) और अधिक हाल के अव्यक्त वर्ग मॉडल (अधिक ठीक है, परिमार्जन और वितरण के "मिश्रण" के आधार पर परिमित मिश्रण मॉडल, उदाहरण के लिए, कामाकुरा और रसेल, 1989, बाजार विभाजन और लोच संरचना के लिए एक संभाव्य विकल्प मॉडल) कैसे वे मॉडल के अवशेष बनाते हैं। पुराने आकस्मिक टेबल मॉडल के लिए, सेल पूरी तरह से क्रॉस-वर्गीकृत तालिका में निहित गणना को "प्रतिकृति" के लिए आधार बनाता है और इसलिए, वर्गों में विभाजन में उपयोग किए गए मॉडल के अवशेषों में विविधता। दूसरी ओर, अधिक हालिया मिश्रण मॉडल अवशिष्ट में विषमता के विभाजन के आधार के रूप में एक ही विषय पर दोहराए गए उपायों पर निर्भर करते हैं। यह प्रतिक्रिया नहीं हैअव्यक्त वर्ग मॉडल और निर्णय पेड़ों के बीच सीधा संबंध सुझाना। AID और CHAID की प्रासंगिकता को मॉडल का मूल्यांकन करने के लिए नियोजित आँकड़ों में संक्षेपित किया जा सकता है, AID निरंतर F वितरण का उपयोग करता है जबकि CHAID ची-वर्ग वितरण का उपयोग करता है, श्रेणीबद्ध जानकारी के लिए उपयुक्त है। उनके विश्लेषण और आकस्मिक तालिकाओं के मॉडलिंग में, एलसीएम का गठन होता है, मेरी राय में, पहेली या कथा में एक महत्वपूर्ण टुकड़ा निर्णय पेड़ों के विकास के लिए अग्रणी है, साथ ही कई अन्य नवाचार पहले से ही नोट किए गए हैं।
CHAID एक बाद का विकास था, जिसे पहली बार 1980 में पीएचडी शोध प्रबंध द्वारा प्रस्तावित किया गया था, जैसा कि CHAID ( https://en.wikipedia.org/wiki/CHAID ) पर इस विकी पीस में उल्लिखित है । बेशक, CART कुछ वर्षों बाद 80 के दशक में ब्रेमेन, एट अल, अब प्रसिद्ध पुस्तक वर्गीकरण और प्रतिगमन पेड़ों के साथ आया था ।
AID, CHAID और CART सभी पॉज़िटिव ट्री की तरह, पदानुक्रमिक रूप से व्यवस्थित संरचनाओं को वास्तविकता के इष्टतम प्रतिनिधित्व के रूप में। वे बस अलग-अलग एल्गोरिदम और विधियों का उपयोग करके इस बारे में जाते हैं। मेरे लिए, नवाचार की इस प्रगतिशील श्रृंखला में अगले चरण संरचना के विषम सिद्धांतों का उदय हैं। जैसा कि इस विकी लेख में परिभाषित किया गया है, विधर्मियाँ "संगठन की एक प्रणाली है जहाँ संगठन के तत्व अपरिवर्तित (गैर-श्रेणीबद्ध) होते हैं या जहाँ वे विभिन्न तरीकों से कई स्थान पर रहने की क्षमता रखते हैं" ( https: //en.wikipedia) .org / wiki / पदानुक्रम या विषम , दार्शनिक दृष्टिकोण पर अधिक गहन दर्शन के लिए Kontopoulos, The Logics of Social Structure देखें)। अनुभवजन्य दृष्टिकोण से, नेटवर्क संरचनाओं का विश्लेषण और मॉडलिंग संरचना की समझ में इस ऐतिहासिक विकास के सबसे प्रतिनिधि हैं (उदाहरण के लिए, फ्रीमैन की पुस्तक द डेवलपमेंट ऑफ सोशल नेटवर्क एनालिसिस )। हालांकि कई नेटवर्क विश्लेषक परिणामी नेटवर्क पर एक पदानुक्रमित व्यवस्था की कोशिश करेंगे और इसे लागू करेंगे, यह जटिल दुनिया में मल्टीप्लेक्स नेटवर्क संरचना के अनुभवजन्य वास्तविकता के बारे में बयान की तुलना में निगलना और बेहोश धारणाओं की अभिव्यक्ति है।
यह प्रतिक्रिया सुझाव दे रही है कि निर्णय के पेड़ों के विकास के लिए अग्रणी विकास के चाप ने प्रक्रिया में प्रत्येक चरण या चरण में मौजूदा "अत्याधुनिक" तरीकों के साथ नए प्रश्न या असंतोष पैदा किया, जिससे नए समाधान और नए मॉडल की आवश्यकता होती है। इस मामले में, असंतोष को दो समूहों (लॉजिस्टिक रिग्रेशन) की मॉडलिंग की सीमाओं में देखा जा सकता है और उस ढांचे को दो समूहों से अधिक चौड़ा करने की आवश्यकता को मान्यता दी जा सकती है। एक अंतर्निहित सामान्य वितरण (विवेकाधीन विश्लेषण या एआईडी) की अप्रमाणिक मान्यताओं के साथ-साथ असमानता, वितरण-मुक्त मान्यताओं और मॉडल (जैसे, CHAID और कार्ट) को नियोजित करने के लिए सापेक्ष "स्वतंत्रता" की तुलना में असंतोष।
जैसा कि सुझाव दिया गया है, निर्णय वृक्षों की उत्पत्ति लगभग निश्चित रूप से एक लंबा इतिहास है जो सदियों से चली आ रही है और भौगोलिक रूप से छितरी हुई है। मानव इतिहास, विज्ञान, दर्शन और विचार में कई धाराओं का पता आज चल रहे निर्णय वृक्षों के कई स्वादों के विकास के लिए अग्रणी कथा को रेखांकित करने में लगाया जा सकता है। मैं इस इतिहास के मेरे संक्षिप्त स्केच की महत्वपूर्ण सीमाओं को स्वीकार करने वाला पहला व्यक्ति बनूंगा।
/ ** परिशिष्ट ** /
न्यू साइंटिस्ट के इस 2014 के लेख का शीर्षक है कि हम पेड़ों में ज्ञान को व्यवस्थित करने के लिए क्यों प्यार करते हैं? ( https://www.newscientist.com/article/mg22229630-800-why-do-we-love-to-organise-knowledge-into-trees/ ), यह डेटा विज़ुअलाइज़ेशन गुरु मैनुएल भीमा की किताब की समीक्षा है । पेड़ों जो ज्ञान के लिए सहस्राब्दी पुराने वृक्षों के एक दृश्य और mnemonic सहायता के रूप में पता लगाता है। थोड़ा सवाल लगता है लेकिन यह कि AID, CHAID और CART जैसे तरीकों में निहित धर्मनिरपेक्ष और अनुभवजन्य मॉडल और ग्राफिक्स इस मूल रूप से वर्गीकरण की धार्मिक परंपरा के निरंतर विकास का प्रतिनिधित्व करते हैं।
इस वीडियो में (सलफोर्ड सिस्टम्स द्वारा ऑनलाइन पोस्ट किया गया, कार्ट सॉफ्टवेयर के कार्यान्वयनकर्ता), ए ट्रिब्यूट टू लियो ब्रेमन , ब्रीमन अपनी सोच के विकास के बारे में बात करते हैं, जो कार्ट पद्धति के कारण बना। यह सब अलग-अलग WWII-युग के युद्धपोतों के सिल्हूट के साथ प्लास्टर वाली दीवार के साथ शुरू हुआ।
https://www.salford-systems.com/videos/conferences/cart-founding-fathers/a-tribute-to-leo-breiman?utm_source=linkedin&utm_medium=social&utm_content=3599323
डेनिस कोनिग की 1936 की थ्योरी ऑफ फिनाइट और इनफिनिट ग्राफ्स की प्रस्तावना को पढ़ने के लिए , व्यापक रूप से पहली कठोर, गणितीय ग्राउंडिंग प्रदान करने के रूप में देखा गया, जो पहले से ही बच्चों के लिए मनोरंजन और पहेली के स्रोत के रूप में देखा गया था, टुट्टे नोट्स (पृष्ठ 13) उस अध्याय। कोनिग की किताब के 4 (शुरुआत 62 पृष्ठ पर) ग्राफ सिद्धांत में पेड़ों के लिए समर्पित है। कोटिग की एक पेड़ की परिभाषा के बारे में टुट्टे ने बताया, "जहां एक 'एसाइक्लिक' ग्राफ बिना सर्किट वाला ग्राफ है, एक पेड़ एक परिमित जुड़ा हुआ एसाइक्लिक ग्राफ है ... दूसरे शब्दों में, एक पेड़ में एक और केवल एक ही रास्ता होता है। दूसरे को दिया गया शीर्ष ... "मेरे लिए (और मैं न तो एक ग्राफ सिद्धांतवादी हूं और न ही गणितज्ञ हूं), इससे पता चलता है कि ग्राफ सिद्धांत और पॉइनकेयर के विश्लेषण साइटस या वेबलेन में इसके अग्रदूत हैं ' कॉम्बीनेटरियल टोपोलॉजी पर व्याख्यान, बाद के सांख्यिकीविदों के लिए एक विषय बन गया है, के लिए प्रारंभिक बौद्धिक और गणितीय पूर्ववृत्त प्रदान कर सकता है।
ज्ञान का पहला वृक्ष व्यापक रूप से नियोप्लाटोनिक दार्शनिक पोर्फिरी को जिम्मेदार ठहराया गया है, जिसने 270 ईस्वी सन् के आसपास एक प्रस्तावना लिखी थी जिसमें ज्ञान का वर्णन करने और व्यवस्थित करने के लिए एक रूपक वृक्ष का उपयोग किया गया था ... http://www.historyofinformation.com/expanded.php? id = 3857
बाइबल में उत्पत्ति की पुस्तक में ज्ञान के एक पेड़ के संदर्भ में अभी भी पहले से खोजा गया, इस विकी लेख में चर्चा की गई ... https://en.wikipedia.org/wiki/Tree_of_life_(b बाइबिल ) । इस संदर्भ के आधार पर उत्पत्ति संभवत: 1,400 ईसा पूर्व की है ... https://www.biblica.com/bible/bible-faqs/when-was-the-bible-written/ भले ही, उत्पत्ति की पुस्तक कई शताब्दियों पहले आई थी पोरफायरी।
Classification and Regression Trees Leo Breiman, Jerome Friedman, Charles J. Stone, R.A. Olshen (1984)
लेकिन निश्चित रूप से यह जल्द से जल्द नहीं था। विस्कॉन्सिन विश्वविद्यालय के वी-यिन लोह ने निर्णय पेड़ों के इतिहास के बारे में लिखा है। यहां एक कागज और इतिहास पर कुछ स्लाइड हैं ।