क्या आपके पास उन विश्लेषण तकनीकों पर वैश्विक दृष्टि है?


24

मैं वर्तमान में एक ऐसी परियोजना पर हूं, जहां मुझे मूल रूप से जरूरत है, जैसे हम सब समझते हैं कि आउटपुट इनपुट से कैसे संबंधित है । यहाँ ख़ासियत यह है कि डेटा मुझे एक बार में एक टुकड़ा दिया जाता है, इसलिए मैं हर बार जब मैं एक नया प्राप्त करता हूं, तो मैं अपने विश्लेषण को अपडेट करना चाहता हूं । मेरा मानना ​​है कि इसे "ऑन-लाइन" प्रसंस्करण कहा जाता है, "बैच" प्रसंस्करण के विपरीत, जहां आपके पास आवश्यक सभी डेटा हैं और एक ही समय में सभी डेटा का उपयोग करके अपनी गणना करते हैं।x ( y , x ) ( y , x )yx(y,x)(y,x)

इसलिए मैंने विचारों के लिए चारों ओर देखा है, और मैं आखिरकार इस निष्कर्ष के साथ आया हूं कि दुनिया तीन में विभाजित है:

  • पहला भाग सांख्यिकी और अर्थमिति की भूमि है। वहां के लोग ओएलएस, जीएलएस, इंस्ट्रूमेंट वैरिएबल, एआरआईएमए, टेस्ट, डिफरेंस का अंतर, पीसीए और व्हाट्नॉट करते हैं। इस भूमि में ज्यादातर रैखिकता का प्रभुत्व है और केवल "बैच" प्रसंस्करण है।

  • दूसरा भाग मशीन लर्निंग और कृत्रिम बुद्धिमत्ता, पर्यवेक्षित और अनुपयोगी अधिगम, तंत्रिका नेटवर्क और एसवीएम जैसे अन्य शब्दों का द्वीप है। दोनों "बैच" और "ऑन-लाइन" प्रसंस्करण यहां किए जाते हैं।

  • तीसरा भाग एक संपूर्ण महाद्वीप है जिसे मैंने अभी-अभी खोजा है, ज्यादातर विद्युत इंजीनियरों द्वारा आबाद है, इसलिए ऐसा लगता है। वहां, लोग अक्सर अपने टूल में "फिल्टर" शब्द जोड़ते हैं, और उन्होंने विडो-हॉफ एल्गोरिथ्म, रिकर्सिव कम से कम वर्ग , वीनर फिल्टर , कलमन फिल्टर और शायद अन्य चीजें जैसे महान सामान का आविष्कार किया , जो मैंने अभी तक नहीं खोजा है। जाहिरा तौर पर वे ज्यादातर "ऑन-लाइन" प्रसंस्करण करते हैं क्योंकि यह उनकी आवश्यकताओं को बेहतर ढंग से फिट करता है।

तो मेरा सवाल यह है कि क्या आपके पास इस सब पर वैश्विक दृष्टि है? मैं इस धारणा के तहत हूं कि दुनिया के ये तीन हिस्से एक-दूसरे से बहुत ज्यादा बात नहीं करते हैं। क्या मै गलत हु? क्या एक ग्रैंड यूनिफाइड थ्योरी ऑफ़ अंडरस्टैंडिंग है कि कैसे , संबंधित है ? क्या आप किसी ऐसे संसाधन को जानते हैं जहाँ उस सिद्धांत के आधारों को रखा जा सकता है?एक्सYएक्स

मुझे यकीन नहीं है कि अगर यह प्रश्न वास्तव में समझ में आता है, लेकिन मैं उन सभी सिद्धांतों के बीच थोड़ा खो गया हूं। मैं प्रश्न के उत्तर की कल्पना करता हूं "क्या मुझे यह या वह उपयोग करना चाहिए?" होगा "यह इस बात पर निर्भर करता है कि आप क्या करना चाहते हैं (और अपने डेटा पर)"। हालाँकि मुझे ऐसा लगता है कि उन तीनों दुनियाओं ने एक ही सवाल ( ?) का जवाब देने की कोशिश की है और इसलिए इस सब पर एक उच्च विचार होना संभव है, और गहराई से समझना चाहिए कि प्रत्येक तकनीक को क्या खास बनाता है।y=(एक्स)


मुझे लगता है कि पहले 2 क्षेत्र इन दिनों एक दूसरे से बहुत अधिक बात करते हैं। हालांकि महान सवाल!
Zach

डायनामाइट विषय और लिखित प्रश्न!
18land में rolando2

1
कृपया इसे सी.डब्ल्यू।
कार्डिनल

1
मैं खुद को एक सांख्यिकीविद् कहूंगा, लेकिन मैं बहुत सारे ऑन-लाइन सामान करता हूं, विभिन्न प्रकार के कुछ नॉनलाइनर मॉडलिंग करता हूं, और कम से कम एअर इंडिया में डब किया हुआ हूं। मुझे लगता है कि विशिष्ट साधनों में अंतर उन लोगों की समस्याओं के प्रकार से अधिक है जिनसे लोग मुठभेड़ करते हैं। जहाँ उनकी समस्याएँ मिलती हैं, जल्दी या बाद में वे एक ही उपकरण (अक्सर अलग-अलग नामों से और थोड़े अलग घंटियों और सीटी के साथ) को खोजने या फिर से बनाने के लिए जाते हैं।
Glen_b -Reinstate मोनिका

जवाबों:


4

बैच बनाम ऑन-लाइन के संदर्भ में, मेरा अनुभव मुझे बताता है कि कभी-कभी आप दोनों को जोड़ते हैं। मेरे कहने का मतलब यह है कि आप मॉडल तैयार करने से संबंधित हैवी-लिफ्टिंग यानी कम्प्यूटरीकृत सघन सामान को ऑफ-लाइन कर दें और फिर इन मॉडलों का उपयोग करने के लिए त्वरित / अनुकूली प्रक्रियाओं को नियोजित करें। हमने पाया है कि "नया डेटा" तीन तरीकों से उपयोग किया जा सकता है; 1. बस पूर्वानुमान लगाने के लिए; 2. ज्ञात मॉडल के मापदंडों को संशोधित करने के लिए और 3. मापदंडों को संशोधित करने और संभवतः मॉडल को संशोधित करने के लिए। इन तीन दृष्टिकोणों का उपयोग "लाइव विश्लेषण" के लिए किया गया है और निश्चित रूप से इन तीन चरणों में से एक को पूरा करने के लिए उपयोग किए गए सॉफ़्टवेयर और उपलब्ध हार्डवेयर दोनों पर निर्भर करता है।

अब आपके अन्य बिंदु के बारे में कि कैसे y बनाम x को मॉडल करें। मैं प्रतिगमन के विस्तारित संस्करण (जिसे ट्रांसफ़र फ़ंक्शंस या ARMAX मॉडल कहा जाता है) का उपयोग करना पसंद करता हूं, वाई के इतिहास और एक्स के वर्तमान और पेस मूल्यों के प्रभाव को बाहर निकालने के आधार के रूप में। यह महत्वपूर्ण है कि एक गॉसियन आवश्यकताओं को मान्य करता है और एआरएमए घटक के माध्यम से छोड़े गए नियतात्मक संरचना (आउटलाइर डिटेक्शन के माध्यम से) और छोड़े गए स्टोचस्टिक संरचना दोनों के लिए आवश्यक परदे के पीछे के रूप में शामिल करना है। इसके अतिरिक्त यह सुनिश्चित करने की आवश्यकता है कि किसी ने बहुत अधिक डेटा (पैरामीटर कॉन्स्टेंसी के लिए परीक्षण) का उपयोग नहीं किया है और यह कि निर्धारक / स्टोकेस्टिक त्रुटि विचलन और / या y के अपेक्षित मूल्य के बीच संबंध के परिणामस्वरूप कोई भी निरंतर स्थिरांक त्रुटि नहीं है। बच गया।

अब ऐतिहासिक रूप से (या यदि आप चाहें तो हिस्टेरिकली) विचार के विभिन्न साइलो ने दृष्टिकोण तैयार करने का प्रयास किया है। हमारे पूर्वजों द्वारा इस्तेमाल किए गए कई तदर्थ मॉडल को एक ट्रांसफर फ़ंक्शन के सबसेट के रूप में दिखाया जा सकता है, लेकिन ऐसे डेटा सेट हैं जिनकी कल्पना की जा सकती है, जो एक ट्रांसफर फ़ंक्शन की मान्यताओं को चुनौती देते हैं। हालांकि ये डेटा सेट मौजूद हो सकते हैं, यह नहीं माना जाना चाहिए कि जब तक विश्लेषण उस निष्कर्ष को प्राप्त नहीं करता, वे सीधे आपको प्रभावित करेंगे।

वेई (एडिसन-वेस्ले) या बॉक्स-जेनकिन्स जैसे ग्रंथों को मेरे स्मारक का समर्थन करने और आपको कुछ और "जवाब" देने के लिए एक उचित रोड-मैप प्रदान करना चाहिए।

वैसे यह एक महान प्रश्न है!

इसके अतिरिक्त यदि आपके पास कोई डेटा है जिसे आप उपयोग करना चाहते हैं, तो मैं यहां उल्लिखित विभिन्न विकल्पों को प्रदर्शित कर सकता हूं। कृपया "y से x" से संबंधित अपने प्रयासों को देखने और उपयोग करने के लिए वेब पर अपना डेटा पोस्ट करें।


आपके उत्तर के लिए धन्यवाद! मैं और अधिक गहराई से देखूंगा जैसे ही मेरे पास समय होगा और शायद मैं आपके पास वापस आ जाऊंगा। मुझे कहना चाहिए कि मुझे ARMAX मॉडल नहीं पता था। मुझे लगता है कि मैं सीधे एक सभी अंतर्जात VAR के लिए गया था। डेटा के लिए, वास्तव में हम अभी भी हमारी परियोजना के लिए अन्य सामान का निर्माण कर रहे हैं, इसलिए मेरे पास अभी बहुत अधिक प्रासंगिक डेटा नहीं है। लेकिन आपका बहुत-बहुत धन्यवाद, आपको मेरी बात फिर से सुननी चाहिए!
आर्थर

"गॉसियन आवश्यकताओं को मान्य करें": गॉसियन / नॉनपैरेमेट्रिक / भूल-मॉडलिंग (पेस ब्रेमेन) एक गहरी विभाजन नहीं है?
Denis

2

ब्रेमेन इस मुद्दे को " सांख्यिकीय मॉडलिंग: दो संस्कृतियों " में संबोधित करता है । एक उत्कृष्ट प्रश्न के लिए पहली प्रतिक्रिया।


धन्यवाद! आपके लिंक ने मेरे लिए काम नहीं किया, जो एक काम करता है और यह एक सीधे पीडीएफ में जाता है। मैंने केवल सार और कुछ भाग को पाठ में बेतरतीब ढंग से पढ़ा है और यह बहुत दिलचस्प लगता है। लोगों को पूरी तरह से "विरोधी क्लासिक आँकड़े" लगता है, हालांकि। एक बार फिर धन्यवाद।
आर्थर

महान - मैंने लिंक को अपडेट किया। यह एक मजेदार पढ़ा है - आनंद लें!
राम अहलूवालिया

ब्रेमेन की "दो संस्कृतियों" पर यहां चर्चा की गई है : कुछ दिलचस्प बिंदु, लेकिन यह किसी के मन-परिवर्तन को बदलने या यहां तक ​​कि समझाने के लिए कठिन है।
Denis

1

मुझे संदेह है कि इस सवाल का जवाब "कुछ भी नहीं है, दोपहर का भोजन है" की तर्ज पर कुछ है। शायद कारण सांख्यिकीविदों, कंप्यूटर वैज्ञानिकों और इलेक्ट्रिकल इंजीनियरों ने अलग-अलग एल्गोरिदम विकसित किए हैं, वे विभिन्न प्रकार की समस्याओं को हल करने में रुचि रखते हैं।


0

मैं कहूंगा कि आपके द्वारा इंगित ये तीन समूह वास्तव में केवल दो समूह हैं:

  • आंकड़े
  • मशीन लर्निंग, आर्टिफिशियल इंटेलिजेंस और पैटर्न मान्यता।

सिग्नल फ़िल्टरिंग से संबंधित सभी शाखाएं दो पहलुओं पर आधारित हैं: फीचर निष्कर्षण (वेवलेट्स, गैबोर और फूरियर) जो कि पैटर्न मान्यता और डिस्क्रीट फूरियर परिवर्तन से संबंधित है जो कठिन गणित से संबंधित है। वास्तव में, डिजिटल फ़िल्टरिंग एक इंजीनियरिंग पक्ष के अधिक निकट है क्योंकि यह सरल और कम कम्प्यूटेशनल लागत एल्गोरिदम के माध्यम से इस पैटर्न मान्यता समस्या को हल करने का प्रयास करता है। लेकिन अनिवार्य रूप से, यह मशीन लर्निंग है।

इसके अलावा, फ़िल्टरिंग, वेवलेट्स, गैबोर और फूरियर कृत्रिम प्रसंस्करण का व्यापक रूप से उपयोग किया जाता है जो कृत्रिम दृष्टि का मूल है।

अंतर आंकड़ों और मशीन सीखने के बीच मौजूद है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.