डेटाबेस एकत्रीकरण एक मोनॉइड कैसे बनाते हैं?

पर cs.stackexchange मैं के बारे में पूछा algebird GitHub पर स्केला पुस्तकालय, क्यों वे एक सार बीजगणित पैकेज की आवश्यकता हो सकती पर अटकलें।

जीथब पृष्ठ में कुछ सुराग हैं:

दिलचस्प सन्निकटन एल्गोरिदम, जैसे ब्लूम फ़िल्टर, हाइपरलॉगलॉग और काउंटमाइनकेट के लिए मोनॉयड का कार्यान्वयन। ये आपको इन परिष्कृत परिचालनों के बारे में सोचने की अनुमति देते हैं, जैसे कि आप संख्याएँ कर सकते हैं, और उन्हें शक्तिशाली आँकड़ों और विश्लेषणों के निर्माण के लिए हडूप या ऑनलाइन में जोड़ सकते हैं।

और GitHub पृष्ठ के दूसरे भाग में:

यह मूल रूप से स्कैलडिंग के मैट्रिक्स एपीआई के हिस्से के रूप में विकसित किया गया था, जहां मैट्रिसेस में मान थे जो मोनॉयड, समूह या रिंग्स के तत्व हैं। इसके बाद, यह स्पष्ट था कि कोड में ट्विटर के भीतर स्केलिंग और अन्य परियोजनाओं पर व्यापक आवेदन था।

यहां तक कि ट्विटर के ऑस्कर बॉयकिन ने भी इसमें हिस्सा लिया:

मुख्य उत्तर यह है कि अर्ध-समूह संरचना का शोषण करके, हम उन प्रणालियों का निर्माण कर सकते हैं जो अंतर्निहित ऑपरेशन को जानने के बिना सही ढंग से समानांतर करते हैं (उपयोगकर्ता आशाजनक साहचर्य है)।

मोनॉयड्स का उपयोग करके, हम स्पार्सिटी का लाभ उठा सकते हैं (हम बहुत सारे विरल मैट्रिस से निपटते हैं, जहां लगभग सभी मूल्य कुछ मोनॉयड में शून्य हैं)।

रिंग्स का उपयोग करके, हम संख्याओं के अलावा अन्य चीजों पर मैट्रिक्स गुणा कर सकते हैं (जो हमने इस अवसर पर किया है)।

स्वयं एल्जेबर्ड प्रोजेक्ट (साथ ही साथ मुद्दा इतिहास) बहुत स्पष्ट रूप से बताता है कि यहां क्या चल रहा है: हम बड़े डेटा सेटों के एकत्रीकरण के लिए बहुत सारे एल्गोरिदम का निर्माण कर रहे हैं, और संचालन की संरचना का लाभ उठाते हुए हमें सिस्टम साइड पर एक जीत देता है। (जो आमतौर पर नोड्स के अधिक पर एल्गोरिदम का उत्पादन करने की कोशिश करते समय दर्द बिंदु होता है)।

किसी भी सेमिग्रुप / मोनॉयड / ग्रुप / रिंग के लिए एक बार सिस्टम की समस्याओं को हल करें, और फिर आप किसी भी एल्गोरिथ्म में प्लग कर सकते हैं बिना मेमेचे, होडोप, स्टॉर्म, आदि के बारे में सोचने के लिए ...

नंबर कैसे Bloom filters/ hyperloglog/ countminsketchहैं?

यह कैसे है कि डेटाबेस एकत्रीकरण में एक मोनोइडल संरचना है?
यह मोनॉयड कैसा दिखता है? क्या उनके पास कभी समूह संरचना है?

साहित्य के संदर्भ सहायक होंगे।

— जॉन मेंगल
स्रोत

यह भी कि क्या कोई कनेक्शन "स्पर मैट्रिस जहां लगभग सभी मूल्य एक शून्य में शून्य हैं" को स्केच कर सकते हैं?

— vzn

e

$e$

e \cdot 0 = e

$e \cdot 0 = e$

n \times n

$n \times n$

@vzn, मैट्रिक्स के अंदर कोई तत्व नहीं है।

— निकोलस मंचुसो

आप पूछते हैं कि डेटाबेस एकत्रीकरण में मोनोइडल संरचना क्यों है।

$a$ $b$ $a$ $b$ $a.b$

$.$ $(a.b).c = a.(b.c)$

लगभग हमेशा किसी न किसी तरह की पहचान होती है, चाहे वह नंबर 0 हो या 1, खाली स्ट्रिंग, एक पहचान मैट्रिक्स, एक समान वितरण या खाली सेट, जो ऑपरेशन पर निर्भर करता है। तो वास्तव में डेटा आमतौर पर एक मोनॉइड बनाता है ।

एक मोनोड के रूप में डेटा के बारे में सोचने का व्यावहारिक बिंदु यह है कि यह एक सामान्य बीजीय भाषा का उपयोग करके विभिन्न प्रकार के डेटा पर संचालन पर चर्चा करने का एक तरीका प्रदान करता है। इसके बाद जेनेरिक कोड पुस्तकालयों में तब्दील हो जाता है, जो एक तर्क के रूप में एक उपयुक्त एकत्रीकरण ऑपरेशन को पारित करके, किसी भी मोनॉयड से निपट सकते हैं।

ध्यान दें कि कई प्रकार के डेटा में उलटा नहीं होता है, इसलिए एक समूह संरचना बहुत अधिक है जिसकी उम्मीद है। यदि आपके पास समूह संरचना है, तो डेटा में हेरफेर करने के कुछ अतिरिक्त तरीके संभव हो जाते हैं, लेकिन चूंकि न तो गुणा के साथ मैट्रिसेस, और न ही इसके साथ सकारात्मक पूर्णांक में व्युत्क्रम होते हैं, गैर-समूह-संरचित डेटा काफी सामान्य है।

$+$ $.$ $.$ $+$ $.$

डेटा एकत्रीकरण का एक संगोष्ठी मॉडल कुछ समय के लिए बाधा संतुष्टि समुदाय में रहा है। ध्यान दें कि एक बाधा संतुष्टि समस्या उदाहरण तथ्यों के एक विशेष डेटाबेस पर एक संवादात्मक प्रश्न है, इसलिए यह बहुत सामान्य है: डेटा पर अधिकांश व्यावहारिक प्रश्न संयुग्मक हैं।

स्टेफानो बिस्टारेली, उगो मोंटानारी, और फ्रांसेस्का रॉसी, सेमिनार-आधारित बाधा संतुष्टि और अनुकूलन , जेएसीएम 44 (2), 1997, 201236। doi: 10.1145 / 256303.256306

डेटा एकत्रीकरण के सेमिनार मॉडल के सैद्धांतिक विश्लेषण का वर्तमान क्षेत्र 2007 में, सिद्ध के संदर्भ में किक- स्टार्ट किया गया था । डेटा एनोटेट करने के लिए प्रोवेंस एक फैंसी शब्द है। चूँकि किसी भी डेटाबेस टपल को कुछ अद्वितीय टपल पहचानकर्ता पर लागू एनोटेशन के रूप में देखा जा सकता है, डेटा के एकत्रीकरण को एनोटेशन के संयोजन के रूप में देखा जा सकता है। प्रोवेंस इसलिए डेटा एकत्र करने के विचार का एक सामान्यीकरण है, और यह स्पष्ट रूप से तर्क दिया गया है कि एनोटेशन के संयोजन का सही सैद्धांतिक मॉडल एक सेमिनार है। सबसे सामान्य संगोष्ठी, सिद्ध बहुपद, वास्तव में किसी को पूरे इतिहास पर नज़र रखने की अनुमति देता है कि घटक भागों से डेटा का एक टुकड़ा कैसे प्राप्त किया गया था। एक उदाहरण के रूप में, एक पी-मूल्यएक नैदानिक परीक्षण के विश्लेषण में यह ट्रैक कर सकता है कि प्रत्येक व्यक्तिगत परीक्षण परिणामों से इसकी गणना कैसे की गई। यदि उनमें से कुछ गलत हो जाते हैं (या नकली) तो कोई केवल खराब डेटा के बिना पुनर्गणना कर सकता है।

टोड जे ग्रीन, Grigoris Karvounarakis, और वैल Tannen, उद्गम semirings , 2007 फली, 31-40। doi: 10.1145 / 1265530.1265535

डेटा एकत्र करने के लिए सेमरिंग्स का उपयोग करके आगे बहुत काम किया गया है, इस एक का हवाला देते हुए कागजात देखें ।

आपके द्वारा उद्धृत किए जाने वाले अधिक तुरंत व्यावहारिक दृष्टिकोण से, उदाहरण के लिए GDL फ्रेमवर्क देखें कि कोई व्यक्ति प्रभावी रूप से अंतर्निहित संगोष्ठी अभिव्यक्ति को समुचित रूप से समूहित करके गणना कैसे कर सकता है।

श्रीनिवास एम। अंजी और रॉबर्ट जे। मैकलेबेल, सामान्यीकृत वितरण कानून , सूचना सिद्धांत पर IEEE लेनदेन 46 (2), 2000, 325-343। doi: 10.1109 / 18.825794

— आंद्रस सलामन
स्रोत