मूल्यों को प्रकट किए बिना वितरित नोड्स के बीच एक प्रतिशतक का अनुमान लगाना


23

मुझे हल करने के लिए एक काफी अनोखी समस्या है और मैं उम्मीद कर रहा हूं कि यहां कोई मुझे कुछ जानकारी दे सकता है कि कैसे इसे सबसे अच्छा तरीके से निपटाया जाए।


समस्या: मान लीजिए कि N नंबर की एक सूची प्रतिभागियों के एक सेट के बीच इस तरह से साझा की जाती है कि कोई भी प्रतिभागी वास्तव में किसी भी नंबर को साझा नहीं करता है। सभी प्रतिभागियों को एन (संख्याओं की सूची का आकार) और सूची पर सभी संख्याओं का योग पता है, लेकिन एक प्राथमिकता के अलावा और कुछ नहीं।

एक साथ काम करके, दो साझा संख्याओं की तुलना करना संभव है ए और बी इस तरह से कि प्रतिभागियों को पता चलता है कि क्या कथन "ए <बी" सच है, लेकिन इससे ज्यादा कुछ नहीं। हालांकि, यह करने के लिए एक बेहद महंगी चीज है (पढ़ें: एक एकल तुलना को पूरा करने में कई सेकंड, शायद मिनट भी लग सकते हैं)। इस तरह की चीज़ कैसे संभव है, इस बारे में थोड़ी और जानकारी के लिए इस पोस्ट का अंत देखें।

दिन के अंत में, पार्टियां यह जानना चाहती हैं कि सूची में कौन से सूचकांक "शीर्ष के प्रतिशत" (के% जो सबसे बड़ा है) सूची में साझा संख्याओं के अनुरूप हैं। यह निश्चित रूप से "टॉप के" चयन एल्गोरिथ्म का उपयोग करके सॉर्ट किया जा सकता है। हालांकि, ये तुलनात्मक रूप से बहुत अधिक प्रयोग करते हैं, जिससे बचा जाना है। (ये या तो ओ (एन लॉग एन) या ओ (एन) हैं, काफी बड़े छिपे हुए स्थिरांक के साथ।)

एक अन्य विकल्प एक संख्या X पर "अनुमान" है जिसके लिए (1-K)% X से छोटा है और K% बड़ा है। फिर आप एक्स के साथ प्रत्येक तत्व की तुलना कर सकते हैं और देख सकते हैं कि कितने बड़े हैं और कितने छोटे हैं। यदि आपका अनुमान गलत था, तो बाइनरी खोज जैसी किसी चीज़ का उपयोग करके इसे तब तक संशोधित करें जब तक आप एक सही समाधान पर नहीं जुट जाते। यदि आपका अनुमान अच्छा है तो यह तुलनात्मक रूप से बहुत कम है।

तो, मेरा सवाल है,

केवल N और योग को देखते हुए, X की "भविष्यवाणी" करने का सबसे अच्छा तरीका क्या है?

बेशक यह अंतर्निहित वितरण पर निर्भर करेगा। अलग-अलग उपयोग-मामलों के लिए अंतर्निहित वितरण अलग-अलग होगा, लेकिन ज्ञात होगा, इसलिए मैं सभी सामान्य लोगों (सामान्य, वर्दी, घातीय, शायद कुछ अन्य) के लिए अच्छे समाधानों में दिलचस्पी रखता हूं। अंतर्निहित बंटवारे के बारे में एक धारणा दी गई चरणों की संख्या को कम करने के लिए "बाइनरी-जैसी" खोज करने के लिए सबसे अच्छा कैसे करना है, इसके बारे में सुझाव सुनना भी मुझे अच्छा लगेगा।


APPENDIX: सूची के प्रत्येक मूल्य को शमीर की गुप्त साझा योजना का उपयोग करते हुए प्रतिभागियों के बीच साझा किया जाता है। मान लीजिए एम प्रतिभागियों देखते हैं और सूची, तब लंबाई एन की है i-वें सूची पर नंबर एक बहुपद का प्रतिनिधित्व करती है डिग्री एम -1 के कुछ परिमित क्षेत्र एफ के निरंतर अवधि में मैं नंबर है यह साझा किया गया है, सभी अन्य गुणांक एफ से यादृच्छिक रूप से समान रूप से चुने गए हैं। जे-वें प्रतिभागी के शेयर फिर एफ आई ( जे ) , 1 आई other एन।fififi(j)1iN। इस हिस्से को देखते हुए, प्रतिभागी को संख्या के बारे में कोई जानकारी (सूचना-सिद्धांत संबंधी अर्थ में) नहीं है; वास्तव में, प्रतिभागियों का कोई भी उचित सबसेट साझा संख्याओं के बारे में किसी भी जानकारी को जानने के लिए ज्ञान को संयोजित नहीं कर सकता है। हालांकि, एक परिष्कृत सुरक्षित बहु-पक्षीय संगणना तकनीक का उपयोग करते हुए, यह निर्धारित करना संभव है कि क्या एक साझा मूल्य किसी अन्य जानकारी को प्रकट किए बिना एक से कम है। इस तकनीक में सभी प्रतिभागियों को सहयोग करना शामिल है, यही कारण है कि ऐसा करना बहुत महंगा है और इसे सबसे कम संभव समय में किया जाना चाहिए।


यह दिलचस्प लगता है, लेकिन मैं अभी तक इस प्रक्रिया को पूरी तरह से नहीं समझता हूं। क्या आप स्पष्ट रूप से दूसरे पैराग्राफ को स्पष्ट कर सकते हैं? कितने प्रतिभागियों ? क्या M , N से अधिक या उससे कम है ? क्या प्रत्येक प्रतिभागी संख्याओं के कुछ सबसेट को जानता है? जाहिर है कि वे सभी केवल एन और योग को नहीं जान सकते हैं, तब से कोई भी सवाल पूछने या सहयोग करने का कोई तरीका नहीं है जो एक < b के बारे में जानकारी एकत्र करता है । क्या उन प्रकार के प्रश्नों पर प्रतिबंध है जो पूछे जा सकते हैं? मुझे आपके संपादन की प्रतीक्षा है। MMNNa<b

1
क्योंकि यह प्रश्न सांख्यिकीय से अधिक एल्गोरिदम प्रतीत होता है (इस संबंध में स्पष्टीकरण के लिए एक अनुरोध को कोई प्रतिक्रिया नहीं मिली) और सांख्यिकी समुदाय ने एक व्यवहार्य उत्तर की पेशकश नहीं की है, चलो टीसीएस पर जाएं यह देखने के लिए कि क्या यह कोई रुचि पैदा करता है।
व्ह्यूबर

6
वास्तविक प्रश्न केवल निम्नलिखित प्रतीत होता है: "यदि हम वितरण को जानते हैं, तो हम तुलना-आधारित चयन एल्गोरिथ्म के डिजाइन में इस जानकारी का शोषण कैसे कर सकते हैं ? एल्गोरिथ्म को यथासंभव तुलना (अपेक्षा में; निरंतर कारकों) का उपयोग करना चाहिए मामला)।" क्या मुझे यह अधिकार मिला?
जुल्का सुमेला

2
क्या आपने याओ के करोड़पतियों की समस्या पर विचार किया है ? यह बहुत कम गणना के साथ सुरक्षित तुलना की अनुमति देता है ।
एमएस डौस्ती

3
(k,n) nk(n,n)k<<n
मैसिमो कैफरो

जवाबों:


1

आप दो संबंधित प्रश्न पूछते हैं:

  1. "सूची में कौन से सूचकांक शीर्ष पर मेल खाते हैं"
  2. "एक प्रतिशतक का अनुमान लगाना", "एक संख्या X जिसके लिए ... K% बड़े हैं"

ये जोड़ीदार तुलनाओं की बहुत भिन्न संख्याओं की आवश्यकता हो सकती है।

एक अन्य पहलू जो महत्वपूर्ण प्रभाव डाल सकता है वह है जो जानकारी साझा की जाती है। हर कोई जानता है कि उसे प्राप्त संख्या है, योग जानता है, और हां / तुलनाओं के कोई परिणाम नहीं हैं, जिसमें उन्होंने भाग लिया है। हालांकि, आप यह भी कहते हैं कि "पार्टियों की इच्छा है कि सूची में कौन से सूचकांक शीर्ष पर मेल खाते हैं" सूचकांकों के बारे में कुछ जानकारी साझा की जाएगी। जो वास्तव में साझा किया गया है उसके आधार पर आपको फिर से बहुत अलग समाधान मिल सकते हैं।


क्षमा करें, मुझे स्पष्ट रूप से स्पष्ट नहीं होना चाहिए था। किसी को भी सूची में एक भी संख्या नहीं पता है; इसके बजाय, उनके पास N की "संख्या के शेयरों" की एक सूची है (यदि आप किसी संख्या के शेयरों की अवधारणाओं से परिचित नहीं हैं, तो शमीर की गुप्त शेयरिंग योजना का उपयोग करके)। इसलिए, केवल एक पूर्व सूचना जो किसी एकल प्रतिभागी के पास है, वह N और सूची में सभी संख्याओं का योग है। उनमें से प्रत्येक के पास प्रत्येक संख्या के बारे में थोड़ी जानकारी है, लेकिन यह जानने के लिए पर्याप्त जानकारी नहीं है कि वह संख्या क्या है।

जहाँ तक दो संबंधित प्रश्न जाते हैं, दूसरा प्रश्न पहले के लिए एक कुशल समाधान का अर्थ है। अगर मैं कुछ तुलनाओं का उपयोग करके एक्स पा सकता हूं (जो मैं कर सकता हूं यदि मैं एक बहुत अच्छे शुरुआती अनुमान के साथ आ सकता हूं), तो मुझे एक्स से बड़े सभी मूल्यों के सूचक मिलते हैं, बस एन अधिक तुलनाओं का उपयोग करके (ये तुलना भी सस्ती हैं, क्योंकि एक्स का हिस्सा होने के बजाय एक्स के बारे में जानने से एक्स 1 की तुलना में लागत में कमी आती है।) शीर्ष के को खोजने के लिए सामान्य उद्देश्य एल्गोरिदम आमतौर पर बड़ी सूची आकारों के लिए कहीं अधिक तुलना का उपयोग करेंगे, यह मानते हुए कि मैं ~ लॉग का उपयोग करके एक्स पा सकता हूं ( X) तुलना

टिप्पणी के जवाब और मूल प्रश्न के लिए परिशिष्ट के लिए धन्यवाद। अब समस्या अलग दिखती है।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.