बिग डेटा केस स्टडी या केस उदाहरण का उपयोग करें


13

मैंने बहुत से ब्लॉग्स के लेख पढ़े हैं कि कैसे विभिन्न प्रकार के उद्योग बिग डेटा एनालिटिक का उपयोग कर रहे हैं। लेकिन इन लेखों में से अधिकांश का उल्लेख करने में विफल रहता है

  1. इन कंपनियों ने किस तरह का डेटा इस्तेमाल किया। डेटा का आकार क्या था
  2. डेटा को संसाधित करने के लिए वे किस प्रकार की टूल तकनीकों का उपयोग करते हैं
  3. उन्हें किस समस्या का सामना करना पड़ रहा था और उन्हें डेटा कैसे मिला, इस मुद्दे को सुलझाने में उनकी मदद की।
  4. कैसे उन्होंने अपनी जरूरत के अनुरूप टूल \ प्रौद्योगिकी का चयन किया।
  5. वे डेटा से किस तरह के पैटर्न की पहचान करते थे और डेटा से किस तरह के पैटर्न देख रहे थे।

मुझे आश्चर्य है कि अगर कोई मुझे इन सभी सवालों के जवाब या एक लिंक प्रदान कर सकता है जो कम से कम कुछ सवालों के जवाब देता है। मैं वास्तविक विश्व उदाहरण की तलाश में हूं।

यह बहुत अच्छा होगा यदि कोई साझा करे कि वित्त उद्योग बिग डेटा एनालिटिक का उपयोग कैसे कर रहा है।

जवाबों:


14

समाचार आउटलेट "बिग डेटा" का उपयोग बहुत कम करते हैं। विक्रेता आमतौर पर अपने विशिष्ट उत्पादों के आसपास केस स्टडीज प्रदान करते हैं। ओपन सोर्स कार्यान्वयन के लिए बहुत कुछ नहीं है, लेकिन वे उल्लेख करते हैं। उदाहरण के लिए, अपाचे ने हडूप पर एक केस स्टडी बनाने में बहुत समय खर्च नहीं किया है, लेकिन क्लोडेरा और हॉर्टनवर्क्स जैसे विक्रेताओं शायद करेंगे।

वित्त क्षेत्र में क्लूडेरा का एक उदाहरण मामला अध्ययन है

अध्ययन का हवाला देते हुए:

दुष्ट व्यापार गतिविधि की पहचान करने में मदद करने के लिए एक प्रमुख वैश्विक वित्तीय सेवा समूह क्लोदेरा और डेटामेयर का उपयोग करता है। फर्म के एसेट मैनेजमेंट ग्रुप के भीतर की टीमें मूल्य, स्थिति और ऑर्डर की जानकारी के दैनिक फीड पर तदर्थ विश्लेषण कर रही हैं। विस्तृत डेटा के सभी के लिए तदर्थ विश्लेषण होने से समूह कुछ परिसंपत्ति वर्गों में विसंगतियों का पता लगाने और संदिग्ध व्यवहार की पहचान करने की अनुमति देता है। उपयोगकर्ता पहले केवल डेस्कटॉप स्प्रेडशीट टूल पर निर्भर थे। अब, Datameer और Cloudera के साथ, उपयोगकर्ताओं के पास एक शक्तिशाली प्लेटफ़ॉर्म है जो उन्हें अधिक डेटा के माध्यम से अधिक तेज़ी से झारने और संभावित नुकसानों को शुरू करने से पहले पूरा करने की अनुमति देता है।

एक प्रमुख रिटेल बैंक डोड-फ्रैंक एक्ट और अन्य विनियमों द्वारा आवश्यक डेटा सटीकता और गुणवत्ता को मान्य करने के लिए क्लाउडरा और डेटामेकर का उपयोग कर रहा है। ऋण और शाखा डेटा के साथ-साथ धन प्रबंधन डेटा को एकीकृत करना, बैंक की डेटा गुणवत्ता पहल यह सुनिश्चित करने के लिए जिम्मेदार है कि हर रिकॉर्ड सटीक है। इस प्रक्रिया में 50 से अधिक डेटा स्वच्छता और गुणवत्ता जांच के अधीन डेटा शामिल हैं। समय-समय पर उन जाँचों के परिणामों को यह सुनिश्चित करने के लिए ट्रेंड किया जाता है कि डेटा भ्रष्टाचार और डेटा डोमेन के लिए सहिष्णुता में प्रतिकूल परिवर्तन नहीं हो रहा है और यह कि निवेशकों और नियामक एजेंसियों को सूचित किए जाने वाले जोखिम प्रोफाइल विवेकपूर्ण हैं और नियामक आवश्यकताओं के अनुपालन में हैं। परिणाम मुख्य जोखिम अधिकारी और मुख्य वित्तीय अधिकारी को डेटा गुणवत्ता डैशबोर्ड के माध्यम से सूचित किए जाते हैं,

मैंने क्लाउडरा में किसी अन्य वित्त संबंधी अध्ययन को नहीं देखा, लेकिन मैंने बहुत कठिन खोज नहीं की। आप यहाँ उनके पुस्तकालय पर एक नज़र डाल सकते हैं ।

इसके अलावा, हॉर्टनवर्क्स का ट्रेडिंग स्ट्रैटेजीज पर एक केस स्टडी है, जहां उन्होंने के-मीन्स, हडोप और आर का लाभ उठाकर एक रणनीति विकसित करने में लगने वाले समय में 20% की कमी देखी।

प्रत्येक रंग एक लाभ और हानि की समान संभावना के साथ रणनीतियों के एक समूह को इंगित करता है

Hadoop (Hortonworks Data Platform), और k-means एल्गोरिथम का उपयोग करके ट्रेडिंग सिस्टम को कैसे बेहतर बनाया गया था

ये आपके सभी सवालों का जवाब नहीं देते हैं। मुझे पूरा यकीन है कि इन दोनों अध्ययनों ने उनमें से अधिकांश को कवर किया। मैं विशेष रूप से उपकरण चयन के बारे में कुछ नहीं देखता। मुझे लगता है कि बिक्री प्रतिनिधि के पास दरवाजे में समग्र उत्पाद प्राप्त करने के लिए बहुत कुछ था, लेकिन डेटा वैज्ञानिकों ने उन उपकरणों का लाभ उठाया जो वे सबसे अधिक आरामदायक थे। मुझे उस क्षेत्र में बड़े डेटा स्थान में बहुत अधिक जानकारी नहीं है।


1
धन्यवाद। यह बहुत मददगार है। मुझे इसका बग स्पेस पता है और इसका कोई सही जवाब नहीं है। मुझे यह जानने में बहुत दिलचस्पी है कि कोई व्यक्ति अपनी आवश्यकताओं के अनुरूप बड़े डेटा उपकरण और प्रौद्योगिकी का चयन कैसे करता है। मैं इसे अभी के लिए सही उत्तर के रूप में चिह्नित नहीं कर रहा हूं, लेकिन यह निश्चित रूप से बहुत सारे यूपी वोटों के लायक है। चीयर्स :)
ब्राउन_डायनामाइट

6

फाइनेंशियल सर्विसेज बिग डेटा का एक बड़ा उपयोगकर्ता है, और इनोवेटर भी। एक उदाहरण बंधक बॉन्ड ट्रेडिंग है। इसके लिए अपने सवालों के जवाब देने के लिए:

इन कंपनियों ने किस तरह का डेटा इस्तेमाल किया। डेटा का आकार क्या था?

  • पिछले कई वर्षों से जारी किए गए प्रत्येक बंधक के लंबे इतिहास, और उनके खिलाफ महीने के भुगतान। (अरबों पंक्तियों का)
  • क्रेडिट इतिहास के लंबे इतिहास। (अरबों पंक्तियों का)
  • घर की कीमत सूचकांकों। (उतना बड़ा नहीं)

डेटा को संसाधित करने के लिए वे किस प्रकार की टूल तकनीकों का उपयोग करते हैं?

ये बदलता रहता है। कुछ इन-हाउस सॉल्यूशंस का उपयोग करते हैं जो नेटिज़ा या टेराडाटा जैसे डेटाबेस पर निर्मित होते हैं। अन्य डेटा प्रदाताओं द्वारा प्रदान की गई प्रणालियों के माध्यम से डेटा तक पहुंचते हैं। (Corelogic, Experian, आदि) कुछ बैंक KDB या 1010data जैसे स्तंभ डेटाबेस तकनीकों का उपयोग करते हैं।

उन्हें किस समस्या का सामना करना पड़ रहा था और उन्हें डेटा कैसे मिला, इस मुद्दे को सुलझाने में उनकी मदद की।

मुख्य मुद्दा यह निर्धारित कर रहा है कि बंधक बांड (बंधक समर्थित-प्रतिभूतियां) प्रीपे या डिफ़ॉल्ट होगी। यह उन बांडों के लिए विशेष रूप से महत्वपूर्ण है जिनमें सरकारी गारंटी की कमी है। भुगतान इतिहास, क्रेडिट फ़ाइलों में खुदाई और घर के वर्तमान मूल्य को समझने से, डिफ़ॉल्ट की संभावना का अनुमान लगाना संभव है। एक ब्याज दर मॉडल और प्रीपेमेंट मॉडल जोड़ना भी पूर्व भुगतान की संभावना का अनुमान लगाने में मदद करता है।

कैसे उन्होंने अपनी जरूरत के अनुरूप टूल \ प्रौद्योगिकी का चयन किया।

यदि परियोजना आंतरिक आईटी द्वारा संचालित होती है, तो आमतौर पर यह ओरेकल, टेराडाटा या नेटिज़ा जैसे बड़े डेटाबेस विक्रेता से दूर होता है। यदि यह क्वेंट द्वारा संचालित होता है, तो वे सीधे डेटा विक्रेता, या एक 3 पार्टी "ऑल इन" सिस्टम पर जाने की अधिक संभावना रखते हैं।

वे डेटा से किस तरह के पैटर्न की पहचान करते थे और डेटा से किस तरह के पैटर्न देख रहे थे।

डेटा को जोड़ने से उनके ऋणों में डिफ़ॉल्ट होने की संभावना है, और उन्हें प्रीपे करने में महान अंतर्दृष्टि मिलती है। जब आपने ऋणों को बांडों में एकत्रित किया, तो यह 20,000 जारी किए गए बॉन्ड के बीच का अंतर हो सकता है ।100,000,000beingworththatamount,oraslittleas


क्या आपने कोई उदाहरण देखा है जहाँ मशीन सीखने की तकनीक का उपयोग प्रीपे मॉडलिंग के लिए किया जा रहा है। यानी तंत्रिका जाल, यादृच्छिक वन, GBM?
जोश

5

काग्ले के पास आवेदनों का संक्षिप्त सारांश है:

क्रांति विश्लेषिकी ने कई सामान्य केस स्टडी, डेटाशीट और श्वेत पत्र प्रकाशित किए:

विज्ञान और इंजीनियरिंग में आवेदन के लिए, आप नूतन के मामले के अध्ययन से परामर्श कर सकते हैं :

एनालिटिक्स ने संभावित ग्राहकों को वाणिज्य में अनुप्रयोगों के बारे में बताया:

फाइनेंशियल टाइम्स प्रकाशित बड़ा डेटा की व्यावसायिक अनुप्रयोगों के बारे में कहानियों का एक संग्रह:

मैकिन्से ने 2011 में वापस आवेदन की रूपरेखा प्रस्तुत की:

अन्य परामर्श फर्मों ने इसी तरह की रिपोर्ट बनाई।

गार्टनर ने बिग डेटा के लिए हाइप साइकिल बनाया:

यहाँ छवि विवरण दर्ज करें

अन्य कंपनियों द्वारा मामले के अध्ययन और श्वेत पत्र का उल्लेख नहीं करना जो अपने उत्पादों को बढ़ावा देना चाहते हैं।


1

ओ'रेली मुफ्त डेटा रिपोर्ट पर एक नज़र डालें । आप बैंकिंग और फिनटेक, खेल, फैशन, संगीत, स्वास्थ्य, तेल और गैस और इतने पर रिपोर्ट पा सकते हैं।

ध्यान रखें कि पहले उल्लेखित मैकिन्से रिपोर्ट एक क्लासिक रिपोर्ट और एक अवश्य पढ़ें।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.