"डेटा को स्वयं बोलने दें" इसका क्या उद्देश्य है?


10

निम्नलिखित पत्र पढ़ने में , मैं निम्नलिखित कथन पर आया:

जैसा कि उल्लेख किया गया है, यह प्रायः बेंज़ेक्री [1973] के विचार के अनुसार, संभाव्य मॉडल के संदर्भ के बिना प्रस्तुत किया जाता है, "डेटा को स्वयं के लिए बोलने दें।"

(उद्धरण जेपी बेंज़रेक से है। लेनिअलसे डेस डोनेस। टोम II: लेनिअलिलेस डेस कॉरेस्पोंडेंस। डुनोड, 1973।)

मैं इस पत्र को कैसे पढ़ रहा हूं, यह लगता है कि "डेटा को अपने लिए बोलने दें" का अर्थ है किसी संभावित कार्य या डेटा जनरेट करने की प्रक्रिया के संबंध में डेटा के विभिन्न उपायों पर विचार करना ।

जब मैंने उद्धरण सुना है "इससे पहले कि डेटा को खुद के लिए बोलने दें", मैंने यह नहीं सोचा है कि क्या निहित है। क्या मेरी उक्त व्याख्या इस बोली के द्वारा कैनोनिक रूप से निहित है?


9
बोली को अपने लिए बोलने दो।
मार्क एल। स्टोन

@ MarkL.Stone: डेटा की तरह, उद्धरण को संदर्भ के साथ बेहतर समझा जाता है
Cliff AB

जवाबों:


8

व्याख्या संदर्भ पर निर्भर करती है, लेकिन कुछ सामान्य संदर्भ हैं जिनमें यह सामने आता है। इस तथ्य को अक्सर बायेसियन विश्लेषण में उपयोग किया जाता है ताकि हम इस तथ्य पर जोर दे सकें कि हम आदर्श रूप से विश्लेषण में पीछे के वितरण को पहले की धारणाओं के लिए मजबूत होना पसंद करेंगे, ताकि डेटा का प्रभाव पोस्टीरियर पर "हावी" हो। अधिक आम तौर पर, आमतौर पर उद्धरण का मतलब है कि हम चाहते हैं कि हमारा सांख्यिकीय मॉडल डेटा की संरचना के अनुरूप हो, बजाय इसके कि डेटा को एक व्याख्या में मजबूर किया जाए जो मॉडल की एक नॉन-वैरिएबल संरचनात्मक धारणा है।

आप जिस विशेष उद्धरण का उल्लेख कर रहे हैं, उसे अतिरिक्त उद्धरण द्वारा पूरक किया गया है: "मॉडल को डेटा का अनुसरण करना चाहिए, न कि किसी अन्य तरीके से" (बेंज़रेक जे (1973) से अनुवाद किया गया) L'Analyse des Données। टोम II: L'Analyse des Correspondances। । डुनोड, पृष्ठ 6)। बेंज़ियर ने तर्क दिया कि सांख्यिकीय मॉडल को संरचना को लागू करने के बजाय डेटा से संरचना को निकालना चाहिए । उन्होंने विश्लेषक को "डेटा को बोलने दें" की अनुमति देने के लिए खोजपूर्ण चित्रमय विधियों के उपयोग को बहुत महत्वपूर्ण माना।


(+1) इस बात को ध्यान में रखते हुए, मुझे लगता है कि पहले लिंक किए गए पेपर में उद्धरण का अर्थ है कि ये तरीके मॉडल आधारित निर्भरता संरचना के बजाय अनुभवजन्य सहसंयोजक संरचना को देख रहे हैं।
क्लिफ एबी

1
हाँ, मुझे लगता है कि यह सही है। यह ध्यान देने योग्य है कि बेंज़ियर ने दावा किया कि डेटा विश्लेषण मूल रूप से पीसीए में ईजन-अपघटन के बराबर था। उन्हें यह कहते हुए उद्धृत किया गया है, "सभी में, डेटा विश्लेषण, अच्छे गणित में, बस eigenvectors की खोज कर रहे हैं; इसके सभी विज्ञान (या कला) तिरछेपन को सही मैट्रिक्स खोजने में है।" ( हसन एट अल 2016 , पी। 2 देखें)
बेन -

2
हा, यह उसके लिए एक बहुत ही दिलचस्प दावा है। वह प्रसंग कागज़ में उद्धरण को अधिक महत्वपूर्ण बनाता है।
क्लिफ एबी

हाँ, यह बहुत चरम है!
बेन -

(+1)। हालांकि, पहली नज़र में, उद्धरण से असहमत होना मुश्किल लगता है (क्यों "थोपना" कुछ एक अच्छी बात होगी, आखिरकार?), गैरपारंपरिक आंकड़ों में आयामीता का अभिशाप, उदाहरण के लिए, यह दर्शाता है कि यह बोलने के लिए है? जब हम इसे एक पैरामीट्रिक मॉडल के माध्यम से सुन रहे हैं तो अपने लिए बोल रहे डेटा को सुनना आसान हो जाता है।
क्रिस्टोफ़ हनक

1

2005 के आसपास जब "डेटा माइनिंग" सांख्यिकीय पेशे के लिए नवीनतम खतरा था, मुझे याद है कि "डेटा माइनिंग प्रिंसिपल्स" के साथ एक पोस्टर देखकर, जिसमें से एक "डेटा को बोलने दें" (खुद के लिए "याद नहीं कर सकता है") शामिल किया गया था)। यदि आप एल्गोरिदम के बारे में सोचते हैं जिसे "डेटा माइनिंग" माना जा सकता है, तो एप्रीओरी और रिकर्सिव विभाजन दिमाग में आते हैं, दो एल्गोरिदम जो सांख्यिकीय मान्यताओं के बिना प्रेरित हो सकते हैं और परिणामस्वरूप अंतर्निहित डेटा सेट के सुंदर मूल सारांश में हो सकते हैं।

@ फिर वाक्यांश के इतिहास को और अधिक समझता है तो मैं करता हूं, लेकिन कागज में उद्धृत उद्धरण के बारे में सोच रहा हूं:

एमसीए को स्पष्ट डेटा के लिए पीसीए के समकक्ष के रूप में देखा जा सकता है और इसमें एक उप-स्थान प्रदान करने के लिए डेटा की गतिशीलता को कम करना शामिल है जो अनुमानित अंकों की परिवर्तनशीलता को अधिकतम करने के अर्थ में डेटा का प्रतिनिधित्व करता है। जैसा कि उल्लेख किया गया है, यह प्रायः बिना किसी संभावित मॉडल के संदर्भ में प्रस्तुत किया जाता है, जो बेंज़चेरी [1973] के विचार से "डेटा को स्वयं के लिए बोलने देता है।"

यह मुझे प्रतीत होता है कि एमसीए की प्रक्रिया एपोरी या पुनरावर्ती विभाजन (या नरक, उस मामले के लिए अंकगणितीय माध्य) से मिलती-जुलती है, जिसमें यह बिना किसी मॉडलिंग के प्रेरित किया जा सकता है और एक डेटा पर एक यांत्रिक संचालन है जो समझदारी पर आधारित है कुछ पहले सिद्धांतों पर।

डेटा को बोलने देने का एक स्पेक्ट्रम है। पूरी तरह से मजबूत पुजारियों के साथ बायेसियन मॉडल एक छोर पर होंगे। बार-बार अप्राप्य मॉडल दूसरे छोर के करीब होंगे।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.