डेटा विज्ञान बनाम संचालन अनुसंधान

11

शीर्षक से पता चलता है कि सामान्य प्रश्न है:

DS और OR / ऑप्टिमाइज़ेशन में क्या अंतर है।

एक वैचारिक स्तर पर मैं समझता हूं कि डीएस उपलब्ध आंकड़ों से ज्ञान निकालने की कोशिश करता है और ज्यादातर सांख्यिकीय, मशीन लर्निंग तकनीकों का उपयोग करता है। दूसरी ओर, या डेटा के आधार पर निर्णय लेने के लिए डेटा का उपयोग करता है , उदाहरण के लिए डेटा (इनपुट) पर कुछ उद्देश्य फ़ंक्शन (मानदंड) को अनुकूलित करके।

मुझे आश्चर्य है, इन दोनों प्रतिमानों की तुलना कैसे होती है।

क्या एक दूसरे का सबसेट है?
क्या वे पूरक क्षेत्र मानते हैं?
क्या ऐसे उदाहरण हैं कि एक क्षेत्र दूसरे को पूरक करता है या उनका उपयोग संयोजन में किया जाता है?

विशेष रूप से, मुझे निम्नलिखित में दिलचस्पी है:

क्या कोई उदाहरण है जहाँ डेटा विज्ञान प्रश्न / समस्या को हल करने के लिए OR तकनीकों का उपयोग किया जाता है?

optimization data-mining

— PsySp
स्रोत

3

मुझे यकीन नहीं है कि यह वास्तव में कंप्यूटर विज्ञान के बारे में एक सवाल है, लेकिन मुझे लगता है कि यह काफी करीब है। मैंने एक पक्ष के लोगों को दूसरे के बारे में सोचने के बारे में बताया, क्योंकि यह पूरी तरह से एक राय है।

— डेविड रिचेर्बी

@DavidRicherby धन्यवाद मैं आपसे सहमत हूं कि यह राय का विषय हो सकता है। परंपरागत रूप से, दोनों विषयों को सीएस समुदाय से सिखाया और उभरा है, इसलिए मुझे लगता है, यह पूछने के लिए सही जगह है।

— PsySp

en.wikipedia.org/wiki/Operations_research , en.wikipedia.org/wiki/Data_science

— DW

@DW धन्यवाद। मैंने लेखों को पढ़ा है और ईमानदार होने के लिए मैं दो उल्लिखित क्षेत्रों के बीच ओवरलैप और / या अंतर के बारे में किसी भी चर्चा को देखने में विफल रहता हूं। विशेष रूप से, एक दूसरे को कैसे पूरक करता है।

— PsySp

1

डेटा साइंस मुख्य रूप से डेटा के माध्यम से जानकारी खोजने के लिए काम करने के बारे में है। ऑपरेशन रिसर्च मुख्य रूप से निर्णय लेने में सुधार के लिए काम करने के बारे में है। निर्णय लेने में उपयोग के लिए एक इष्टतम नीति खोजने के लिए आप अक्सर या देख सकते हैं। OR में प्रयुक्त कुछ विधियों को CS समुदाय में सुदृढीकरण सीखने के तरीकों के रूप में वर्गीकृत किया जा सकता है, हालांकि सभी OR समस्याएँ इस प्रकार की नहीं हैं।

— १tr

9

जबकि ऑपरेशन रिसर्च और डेटा साइंस दोनों ही बड़ी मात्रा में विषयों और क्षेत्रों को कवर करते हैं, मैं अपने दृष्टिकोण को देने की कोशिश करूँगा कि मैं प्रत्येक के सबसे प्रतिनिधि और मुख्यधारा के हिस्सों के रूप में क्या देखता हूं।

जैसा कि दूसरों ने बताया है, ऑपरेशंस रिसर्च का बड़ा हिस्सा मुख्य रूप से निर्णय लेने से संबंधित है । जबकि निर्णय लेने के तरीके को निर्धारित करने के कई अलग-अलग तरीके हैं, या (मेरी राय में) का सबसे मुख्य भाग गणितीय प्रोग्रामिंग ढांचे में मॉडलिंग निर्णय समस्याओं पर केंद्रित है। इस प्रकार के ढांचे में, आपके पास आमतौर पर निर्णय चर का एक सेट होता है, इन चर पर बाधाओं और आपके निर्णय चर पर एक उद्देश्य फ़ंक्शन निर्भर करता है जिसे आप कम या अधिकतम करने की कोशिश कर रहे हैं। जब निर्णय चर $\mathbb{R}$ में मान ले सकते हैं , तो बाधाएं आपके निर्णय चर पर रैखिक असमानताएं हैं, और उद्देश्य समारोह निर्णय चर का एक रैखिक कार्य है, तो आपके पास एक रैखिक कार्यक्रम है- पिछले साठ वर्षों से OR का मुख्य कार्यक्षेत्र है। यदि आपके पास अन्य प्रकार के उद्देश्य फ़ंक्शन या बाधाएं हैं, तो आप अपने आप को पूर्णांक प्रोग्रामिंग , द्विघात प्रोग्रामिंग , अर्ध-निश्चित प्रोग्रामिंग , आदि के दायरे में पाते हैं ...

दूसरी ओर, डेटा विज्ञान, ज्यादातर इनफ़ेक्शन बनाने से संबंधित है। यहाँ, आप आम तौर पर डेटा के एक बड़े ढेर से शुरू कर रहे हैं और आप अपने बड़े ढेर में अभी तक देखे गए डेटा के बारे में कुछ नहीं जानना चाहेंगे। आपके द्वारा यहां देखी जाने वाली विशिष्ट प्रकार की चीजें हैं: 1) डेटा का बड़ा ढेर दो अलग-अलग विकल्पों के पिछले परिणामों का प्रतिनिधित्व करता है और आप जानना चाहते हैं कि कौन सा विकल्प सबसे अच्छा परिणाम देगा, 2) डेटा का बड़ा ढेर एक समय का प्रतिनिधित्व करता है श्रृंखला और आप यह जानना चाहते हैं कि उस समय श्रृंखला भविष्य में कैसे विस्तारित होगी, 3) डेटा का बड़ा ढेर टिप्पणियों के एक लेबल सेट का प्रतिनिधित्व करता है और आप नए, अप्रकाशित टिप्पणियों के लिए अवर लेबल पसंद करेंगे। पहले दो उदाहरण क्रमशः शास्त्रीय सांख्यिकीय क्षेत्रों (परिकल्पना परीक्षण और समय-श्रृंखला पूर्वानुमान) में वर्धित रूप से आते हैं, जबकि तीसरा उदाहरण मुझे लगता है कि आधुनिक मशीन लर्निंग विषयों (वर्गीकरण) के साथ अधिक निकटता से जुड़ा हुआ है।

इसलिए, मेरी राय में, ऑपरेशन्स रिसर्च एंड डेटा साइंस ज्यादातर ऑर्थोगोनल विषयों हैं, हालांकि कुछ ओवरलैप हैं। विशेष रूप से, मुझे लगता है कि OR में एक गैर-तुच्छ राशि में समय-श्रृंखला पूर्वानुमान दिखाई देता है; यह OR के अधिक महत्वपूर्ण, गैर-गणित प्रोग्रामिंग-आधारित भागों में से एक है। संचालन अनुसंधान वह जगह है जहां आप इनपुट और आउटपुट के बीच एक ज्ञात संबंध रखते हैं; यदि आप उस संबंध (इनपुट और आउटपुट की कुछ परिभाषा के लिए) को निर्धारित करने का प्रयास कर रहे हैं तो डेटा साइंस वह जगह है जहां आप जाते हैं।

— mhum
स्रोत

स्पष्ट उत्तर के लिए धन्यवाद। मैं सोच रहा था कि, उदाहरण के लिए, कोई डीएस समस्याओं को हल करने के लिए किसी भी OR तकनीकों का उपयोग कर सकता है। मुझे इस तरह के उदाहरण में दिलचस्पी होगी लेकिन, आपके जवाब से, मुझे संदेह है कि कोई भी है।

— PsySp

@Pysp एह, शायद? मैं अपने सिर के ऊपर से किसी के बारे में नहीं सोच सकता, लेकिन यह निश्चित है।

— 23

1

मुझे नहीं लगता कि ओआर और डीएस के बीच विभाजन एक सख्त है जैसा कि आप मानते हैं, लेकिन यह इसलिए हो सकता है क्योंकि मैं डीएस को सांख्यिकी का पर्याय मानने के बजाय मशीन लर्निंग और डेटामाइनिंग जैसे विषयों को डीएस के कुछ हिस्सों के रूप में मानता हूं। (दुर्भाग्य से, जैसा कि डीएस एक चर्चा है, इसकी कोई व्यापक रूप से स्वीकृत परिभाषा नहीं है, जहां तक मुझे पता है) हालांकि, निराशा और अनुमान के कार्यों को पारस्परिक रूप से अनन्य नहीं होना चाहिए। मशीन लर्निंग ठीक वह क्षेत्र है जहाँ दोनों को संयुक्त किया जाता है: कभी-कभी सभ्य निर्णय लेने के लिए चतुर निर्णय लेने होते हैं, अन्य समय में अच्छे निर्णय के लिए चतुर निष्कर्षों का उपयोग किया जाता है।

— छिपकली

@Discretelizard ज़रूर, मैं कुछ हद तक सहमत हूँ। मैं एक बल्कि स्टार्क डिवीजन (शायद लगभग एक कैरिकेचर) पेश कर रहा हूं और प्रत्येक क्षेत्र के मुख्य भागों पर ध्यान केंद्रित कर रहा हूं ताकि प्रत्येक क्षेत्र की समस्याओं के प्रकारों में अंतर को उजागर किया जा सके। दोनों क्षेत्रों के किनारों को बहुत फजी हो सकता है (विशेष रूप से डीएस में जो बहुत नया है) और वहां शायद अधिक ओवरलैप है। इसके अलावा, मैं इस बात से सहमत हूं कि डीएस की मुख्य धारा में एमएल सामान शामिल है, लेकिन मुझे यकीन नहीं था कि डीएस एमएल से कैसे विभाजित है।

— mhum

4

यह पूर्ण उत्तर नहीं है, क्योंकि mhum's OR या DS के अलग-अलग लक्ष्यों के विपरीत होने में काफी अच्छा है ।

बल्कि, मैं आपकी इस टिप्पणी को संबोधित करना चाहता हूं:

मैं सोच रहा था कि, उदाहरण के लिए, कोई डीएस समस्याओं को हल करने के लिए किसी भी OR तकनीकों का उपयोग कर सकता है।

इसका जवाब है हाँ। स्पष्ट उदाहरण जो दिमाग में आता है वह है सपोर्ट वेक्टर मशीनें (एसवीएम) ।

एसवीएम मॉडल को कुछ आंकड़ों में "फिट" करने के लिए (जो आपको अनुमान लगाने के लिए इसका उपयोग करने से पहले किया जाना चाहिए), निम्न अनुकूलन समस्या को हल किया जाना चाहिए:

दोहरे को अधिकतम करें,

$जी (ए) = Σ_{मैं = 1}^{म} α_{मैं} - \frac{1}{2} Σ_{मैं = 1}^{म} Σ_{जे = 1}^{म} α_{मैं} α_{जे} y_{मैं} y_{जे} {एक्स}_{मैं}^{टी} {एक्स}_{जे},$ $g(a) = \sum_{i=1}^{m} \alpha_i - \frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_i \alpha_j y_i y_j x_i^T x_j,$

बाधाओं के अधीन

$0 \leq α_{मैं} \leq सी, Σ_{मैं = 1}^{n} y_{मैं} α_{मैं} = 0$ $0 \leq \alpha_i \leq C, \qquad \sum_{i=1}^n y_i \alpha_i = 0$

यह एक विवश अनुकूलन अनुकूलन समस्या है, जैसे कि OR के क्षेत्र में बहुत सी है, और इसे द्विघात प्रोग्रामिंग विधियों या आंतरिक बिंदु विधियों का उपयोग करके हल किया जाता है। ये आम तौर पर डीएस के बजाय OR के क्षेत्र से जुड़े होते हैं लेकिन यह उनकी व्यापक प्रयोज्यता का एक उदाहरण है।

आम तौर पर, डीएस के क्षेत्र में नियोजित सांख्यिकीय और मशीन लर्निंग मॉडल में से कई के लिए अनुकूलन महत्वपूर्ण है, क्योंकि इन मॉडलों को प्रशिक्षित करने की प्रक्रिया को आमतौर पर एक नुकसान / पछतावा समारोह में शामिल न्यूनतम समस्या के रूप में तैयार किया जा सकता है - विनम्र सदियों पुराने से बहुत नवीनतम गहरी सीखने तंत्रिका नेटवर्क के लिए रैखिक प्रतिगमन मॉडल।

एसवीएम पर एक अच्छा संदर्भ बिशप है ।

— एजी
स्रोत

2

एक रणनीतिकार के रूप में, मुझे अनुशासन के दोनों पक्षों के साथ काम करने का अवसर मिला है। ओआर और डीएस एक गुणात्मक एमबीए कार्यकारी के लिए क्या समझाने की कोशिश कर रहे हैं, मेरी (पीढ़ी) प्रत्येक के लिए सरल एक लाइन परिचय

या: अर्थशास्त्रियों को पता है कि
डीएस को कैसे कोड करना है : सांख्यिकीविदों को पता है कि कोड कैसे करना है।

व्यावहारिक रूप से, दो समूह आम तौर पर एक साथ कैसे आते हैं: OR पक्ष निर्णय मॉडल को विकसित करता है, और DS पक्ष मॉडल को खिलाने के लिए उपयुक्त डेटा कार्यान्वयन का आंकलन करता है।

प्रत्येक अपने दम पर, अपने विषयों की सैद्धांतिक परंपराओं पर भरोसा करेगा - एक साथ, वे डेटा को संरचना करने के लिए प्रयोग करते हैं और इष्टतम निर्णयों के लिए आवश्यक वास्तविक अंतर्दृष्टि को प्राप्त करने के लिए मॉडल को परिष्कृत करते हैं। जैसा कि प्रत्येक को दूसरे को पता है, उनकी सोच और उनकी भाषा आमतौर पर अभिसरण होगी।

— user88056
स्रोत

1

मैं डीएस के व्यावहारिक विवरण को 'सांख्यिकीविदों के रूप में समझता हूं जो कोड करते हैं', लेकिन OR के लिए विवरण मुझे थोड़ा अजीब लगता है। या लॉजिस्टिक्स और संबंधित रूटिंग समस्याओं को शामिल करता है। यह वास्तव में मेरे लिए एक अर्थशास्त्री के लिए एक प्राकृतिक जगह की तरह नहीं है। शायद आप इस बात पर विस्तार से जान सकते हैं कि अर्थशास्त्रियों द्वारा अभ्यास क्यों किया जाता है?

— असतत छिपकली

1

@Discretelizard मुझे संदेह नहीं है कि अर्थशास्त्री OR करते हैं, लेकिन जैसा कि आप कहते हैं, बहुत से OR की एक बिल्ली है जिसका अर्थशास्त्र से कोई लेना-देना नहीं है और यह कंप्यूटर वैज्ञानिकों, गणितज्ञों और अन्य लोगों द्वारा किया जाता है।

— डेविड रिचेर्बी

0

डेटा विज्ञान एक व्यापक क्षेत्र है जो सामान्य रूप से डेटा से संबंधित है। अगर यह अस्पष्ट लगता है तो यह सामान्य है क्योंकि यह वास्तव में है। यह काफी सालों से चर्चा का विषय बना हुआ है। अनिवार्य रूप से, यह डेटा का दोहन करने का एक तरीका खोजने की कोशिश करता है: मैं अपने डेटा के साथ क्या कर सकता हूं (इससे मुझे क्या अंतर्दृष्टि मिल सकती है?)।

ऑपरेशंस रिसर्च गणितीय अनुकूलन का विज्ञान है: आप एक समस्या को "समीकरणों" में रखते हैं, इस गणितीय मॉडल को हल करें और समाधानों को अपनी नई समस्या सेटिंग में अनुवाद करें। यह निर्णय लेने में मदद करने के लिए एक उपकरण है: मुझे इसे प्राप्त करने के लिए क्या करना चाहिए / कर सकता हूं।

कई व्यावसायिक समस्याओं को अनुकूलन समस्या के रूप में देखा जा सकता है। यह देखते हुए कि मैं अपने राजस्व को अधिकतम करने की कोशिश कर रहा हूं, संसाधनों की कमी को देखते हुए, मैं अपने व्यवसाय को कैसे पूरा करूंगा, मुझे अपने निर्णय चर के लिए किन मूल्यों को निर्धारित करना चाहिए। शेड्यूलिंग, सुविधा योजना, आपूर्ति श्रृंखला प्रबंधन ... आदि सभी लाभ उठाने की अनुकूलन तकनीक जैसी समस्याएं।

पोर्टफोलियो ऑप्टिमाइज़ेशन भी एक उत्कृष्ट उदाहरण है जहां अनुकूलन का उपयोग किया जा रहा है। मान लीजिए कि मैं अपने पोर्टफोलियो में कई अलग-अलग परिसंपत्तियों में निवेश कर सकता हूं, प्रत्येक गैर-नियतात्मक रिटर्न के साथ, मुझे अपने पोर्टफोलियो को कैसे संतुलित करना चाहिए ताकि मैं मौद्रिक रिटर्न के स्तर को बनाए रखते हुए अपने समग्र पोर्टफोलियो के जोखिम को कम कर सकूं। इस सेटिंग में, उद्देश्य फ़ंक्शन अक्सर पोर्टफोलियो का जोखिम / भिन्नता बन जाता है, और बाधाएं निवेश पर वापसी की आवश्यक दर है, साथ ही आपके पास जितना पैसा है।

— रमीज़
स्रोत

3

आप केवल दोनों क्षेत्रों के संक्षिप्त सारांशों को सूचीबद्ध करते हैं। यह उत्तर डीएस और ओआर के बीच अंतर और / या समानता को संबोधित नहीं करता है, जिसके लिए विशेष रूप से प्रश्न पूछा गया है। आप उस भाग पर ध्यान केंद्रित करके अपने जवाब में सुधार कर सकते

— असतत छिपकली

-1

यदि आप ML और AI को ML द्वारा डाटा साइंस के एक भाग के रूप में गिनते हैं (जो कुछ लोग करते हैं और कुछ मेरे अनुभव के अनुसार नहीं हैं, उदाहरण के लिए AI में Microsoft पेशेवर प्रोग्राम में डेटा साइंस + मशीन लर्निंग के महत्वपूर्ण पहलू शामिल हैं (DL और RL दोनों के साथ) ) जबकि हायर स्कूल ऑफ़ इकोनॉमिक्स व्यावहारिक रूप से माइक्रोसॉफ्ट क्यूरिकुलम के उन्नत भागों को उन्नत मशीन लर्निंग के रूप में प्रस्तुत करता है) फिर गणित में कई समानताएँ हैं जो दोनों क्षेत्रों में उपयोग की जाती हैं। उदाहरण के लिए: नॉनलाइनियर प्रोग्रामिंग (लैगेंज मल्टीप्लायर, केकेटी स्थितियां ...) -> सपोर्ट वेक्टर मशीनों की व्युत्पत्ति के लिए उपयोग किया जाता है ... इकोनोमेट्रिक्स जो ज्यादातर रेजगारी पर आधारित होता है ---> रिग्रेशन सामान्य रूप से डाटा स्किनस दोनों का प्रमुख हिस्सा है और विशेष रूप से पर्यवेक्षित अधिगम ... सांख्यिकी (सामान्य रूप से या पाठ्यक्रम में पाया जाता है) ---> डेटा विज्ञान और मशीन लर्निंग के लिए कुंजी ... स्टोचस्टिक प्रोसेस ---> रीइनफोर्समेंट लर्निंग में बहुत महत्वपूर्ण ... डायनामिक प्रोग्रामिंग ---> फिर से रेनफोर्समेंट लर्निंग में पाया गया ... तो, मैं कहूंगा कि डेटा साइंस के साथ कुछ समानताएँ हैं और सामान्य तौर पर एमएल के साथ बहुत समानताएँ हैं। बेशक, इन विषयों के लक्ष्य अलग-अलग हैं, लेकिन गणित में बहुत सी समानताएं हैं जो इन विषयों में उपयोग की जा रही हैं।

— गोरान माबिक
स्रोत

यह प्रश्न का उत्तर कैसे देता है?

— ईविल