न्यूनतम डॉट उत्पाद प्रश्नों के लिए एक डेटा संरचना

पर विचार करें। मानक डॉट उत्पाद और vectors से सुसज्जित है: । हम एक डेटा संरचना का निर्माण करना चाहते हैं जो निम्न प्रारूप के प्रश्नों की अनुमति देता है: आउटपुट । क्या तुच्छ क्वेरी समय से आगे जाना संभव है ? उदाहरण के लिए यदि , तो प्राप्त करना तत्काल है । $\mathbb{R}^n$ $\langle \cdot, \cdot \rangle$ $m$ $v_1, v_2, \ldots, v_m$ $x \in \mathbb{R}^n$ $\min_i \langle x, v_i \rangle$ $O(nm)$ $n = 2$ $O(\log^2 m)$

केवल एक चीज जिसके साथ मैं आ सकता हूं, वह निम्नलिखित है। यह जॉनसन-लिंडेनस्ट्रस लेम्मा का एक तात्कालिक परिणाम है कि प्रत्येक $\varepsilon > 0$ और एक वितरण $\mathcal{D}$ on $\mathbb{R}^n$ में एक रैखिक मैपिंग $f \colon \mathbb{R}^n \to \mathbb{R}^{O(\log m)}$ (जिसका मूल्यांकन $O(n \log m)$ समय में किया जा सकता है ) जैसे कि $\mathrm{Pr}_{x \sim \mathcal{D}}\left[\forall i \quad \langle x, v_i \rangle - \varepsilon (\|x\| + \|v_i\|)^2 \leq \langle f(x), f(v_i)\rangle \leq \langle x, v_i \rangle + \varepsilon (\|x\| + \|v_i\|)^2 \right] \geq 1 - \varepsilon$ । इसलिए, $O((n + m) \log m)$ हम गणना कर सकते हैंकुछ ऐसा है जो कुछ अर्थों में करीब है, $\min_i \langle x, v_i \rangle$ अधिकांश लिए $x$ (कम से कम यदि मानदंड $\|x\|$ और $\|v_i\|$ छोटे हैं)।

युपीडी बाध्य उपरोक्त कुछ हद तक क्वेरी समय को तेज किया जा सकता है $O(n + m)$ अगर हम इलाके के प्रति संवेदनशील हैशिंग का उपयोग करें। अधिक सटीक रूप से, हम $k := O(\frac{1}{\varepsilon^2})$ स्वतंत्र गौसेन वैक्टर $r_1, r_2, \ldots, r_k$ । फिर हम $\mathbb{R}^n$ से $\{0,1\}^k$ निम्नानुसार करते हैं: $v \mapsto (\langle r_1, v \rangle \geq 0, \langle r_2, v \rangle \geq 0, \ldots, \langle r_k, v \rangle \geq 0)$ । फिर हम इस मैपिंग की छवि में गणना करके एक योजक त्रुटि भीतर दो वैक्टर के बीच के कोण का अनुमान लगा सकते हैं । इस प्रकार, हम एक additive त्रुटि के भीतर डॉट उत्पादों का अनुमान लगा सकते हैं $\varepsilon$ $\ell_1$ $\varepsilon \|x\| \|v_i\|$ में $O(\frac{1}{\varepsilon^2})$ समय।

— ilyaraz
स्रोत

मुझे यकीन नहीं है कि यह काम करता है या मदद करता है, लेकिन आपकी समस्या (अधिकतम करने के लिए v_i के संकेत पर स्विच करने के बाद) वोरोनोई आरेख से संबंधित लगती है। इस समस्या के लिए वोरोनोई आरेख के लिए एल्गोरिदम को संशोधित करना संभव हो सकता है, लेकिन अगर यह संभव है, तो भी यह केवल छोटे एन के लिए उपयोगी होगा।

— त्सुयोशी इतो

मुझे नहीं पता कि क्या यह वही अवलोकन है ... सभी

x

$x$ को एक इकाई वेक्टर के लिए सामान्यीकृत किया जा सकता है और परिणाम में परिवर्तन नहीं होता है, हम मूल में केंद्रित एक इकाई n-cube में सब कुछ कर सकते हैं। घन के जो इस क्षेत्र के साथ डॉट उत्पाद को कम से कम पता लगाएं

v_{i}

$v_i$ प्रत्येक के लिए

i

$i$ (प्रत्येक क्षेत्र एक polytope होना चाहिए)। मेरे पास बहुपत्नी की संख्या पर बाध्य नहीं है। यदि यह

में घातांक से कम है

n m

$nm$ , तो आपके पास n-आयामी बिंदु स्थान क्वेरी करने से

से कुछ बेहतर है

O (n m)

$O(nm)$ ।

— चाओ जू

आप किस पैरामीटर की अधिक परवाह करते हैं? आमतौर पर, यदि आप मी में सबलाइनर प्राप्त करना चाहते हैं, तो आप n में घातांक शुरू करने जा रहे हैं।

— सुरेश वेंकट

@ सुरेश खैर, अलग-अलग संभावित ट्रेड-ऑफ को समझना अच्छा होगा। अनुमानित संस्करण भी दिलचस्प है।

— इलियराज १४'११ को ५:५१

त्वरित नोट: n = 2 मामले के लिए, उत्तल पतवार पर द्विआधारी खोज क्वेरी समय देता है।

O (\log n)

$O(\log n)$

— जेफ्री इरविंग

जवाबों:

उस विशेष मामले पर विचार करें जहां आप केवल यह निर्धारित करना चाहते हैं कि क्या आपकी क्वेरी वेक्टर आपके पूर्वप्रकाशित संग्रह में कुछ वेक्टर के लिए ऑर्थोगोनल है। (अर्थात, आप यह निर्धारित करना चाहते हैं कि क्या , जहां चर्चा के तहत वैक्टर में गैर-नकारात्मक गुणांक हैं।) यह मामला पहले से ही बहुत दिलचस्प है। $\min_i \langle x, v_i \rangle = 0$

मान लीजिए कि आप समय के लिए कुछ जवाब दे सकते हैं , तो प्रीप्रोसेसिंग ( बहुपद की डिग्री या या पर निर्भर नहीं होनी चाहिए )। $n^{O(1)} m^{1-\delta}$ $\delta > 0$ $m^{O(1)} n^{O(1)}$ $m$ $n$ $\delta$

पेपर में "इष्टतम 2-बाधा संतुष्टि और इसके निहितार्थ के लिए एक नया एल्गोरिथ्म", मैंने देखा कि इस तरह की डेटा संरचना वास्तव में CNF-SAT को समय में कुछ लिए हल करने की अनुमति देगा । जहाँ चर की संख्या है। यह "सशक्त घातीय समय हाइपोथीसिस" का खंडन होता है कि कश्मीर-सैट अनिवार्य रूप से की आवश्यकता है असीम के लिए समय । $2^{\alpha v}$ $\alpha < 1$ $v$ $2^n$ $k$

यह देखने के लिए, मान लीजिए कि प्रीप्रोसेसिंग समय से घिरा है । चर और क्लॉस के साथ एक सीएनएफ फॉर्मूला पर विचार करें । हमने चर के सेट को दो भागों में विभाजित किया है $(nm)^c$ $F$ $v$ $n$ और के आकार और में क्रमशःहै। चर के लिए सभी संभव कार्य भागों (प्राप्त करने में सूची $P_1$ $P_2$ $v(1-1/(2c))$ $v/(2c)$ और असाइनमेंट, क्रमशः)। इन आंशिक कार्य की प्रत्येक संबद्ध करें एक साथ-बिट वेक्टर जहांiffकी वें खंडसे संतुष्ट नहीं है । इसलिए हमारे पास घातीय रूप से कई बिट वैक्टर की दो सूचियां हैं। $2^{v(1-1/(2c))}$ $2^{v/(2c)}$ $A_i$ $n$ $w_i$ $w_i[j]=1$ $j$ $F$ $A_i$

सूचना है कि तृप्तियोग्य iff एक वेक्टर है है पर एक काम से और एक वेक्टर पर एक काम से ऐसी है कि । $F$ $w_1$ $P_1$ $w_2$ $P_2$ $\langle w_1, w_2 \rangle = 0$

अब , और भाग से सभी वैक्टर के साथ ग्रहण की गई डेटा संरचना को पूर्वप्रक्रमित करें । यह धारणा द्वारा समय लेता है । ओर से कार्य से सभी वैक्टर पर क्वेरी एल्गोरिथ्म भागो । इस धारणा से यह लेता है $m=2^{v/(2c)}$ $P_2$ $n2^{v/2}$ $P_1$ । चलो। $2^{v(1-1/(2c))} \cdot n^{O(1)} m^{1-\delta} = n^{O(1)} 2^{v - \delta v/(2c)}$ $\alpha = 1 - \delta/(2c)$

शायद मौजूदा तकनीकों के साथ कुशल प्रीप्रोसेसिंग और क्वेरी समय प्राप्त करना संभव है। सबसे अच्छा ज्ञात CNF-SAT एल्गोरिदम इसे खारिज नहीं करते हैं। (उन्हें जैसा कुछ मिलता है ।) लेकिन गणना करने के लिए थोड़ा मजबूत है - इस सेटअप में, यह MAX CNF-SAT को हल करने जैसा होगा। $n^{O(1)} m^{1-1/(\log \log m)}$ $2^{n-n/\log n}$ $\min_i \langle x, v_i\rangle$

— रेयान विलियम्स
स्रोत

बहुत बढ़िया! लेकिन यह अनुमानित डेटा संरचनाओं के साथ-साथ

जैसे क्वेरी समय को भी

, जो कि बहुत दिलचस्प भी होगा।

O (m \cdot p o l y (\log n))

$O(m \cdot \mathrm{poly}(\log n))$

— इलियराज १४'११ ९:

वैसे, हम ऐसा कुछ नहीं कह सकते हैं "यदि तेज क्वेरी समय के साथ अनुमानित डेटा संरचना भी थी, तो मैक्स-सैट को अनुमानित किया जाएगा"।

— इलियराज १४'११ को

पहले पैराग्राफ होल्ड में समतुल्य क्यों कहा गया है? मुझे लगता है कि आंतरिक उत्पाद सामान्य रूप से नकारात्मक हो सकता है।

— त्सुकोशी इतो

ilyaraz: हाँ, यहां तक कि अनुमानित डेटा संरचनाएं लगभग MAX-SAT का अनुमान लगाती हैं। त्सुयोशी: आपकी जानकारी के लिए धन्यवाद

— रयान विलियम्स

यहाँ सटीक उत्तर के लिए एक विचार है, कि मुझे संदेह है कि चाओ जू के लिए हो सकता है। सबसे पहले देखें कि हम सामान्य कर सकते हैं , जैसा कि चाओ बताते हैं। अब हाइपरप्लेन को दिशा सामान्य मानें । लक्ष्य इस हाइपरप्लेन के निकटतम बिंदु को खोजना है। द्वैतता से, यह हाइपरप्लेन की व्यवस्था में एक किरण शूटिंग क्वेरी से मेल खाती है जो क्वेरी बिंदु के सबसे ऊपर "निकटतम" विमान को खोजने के लिए है। चूंकि यह प्रीप्रोसेस किया जा सकता है, मुख्य जटिलता बिंदु स्थान है, और इसलिए अब आपकी समस्या हाइपरप्लेन की व्यवस्था में बिंदु स्थान करने की जटिलता को कम कर दी गई है। कटिंग का उपयोग करते हुए, यह में समय में किया जा सकता है $x$ $h$ $x$ $O(\log n)$ $n^d$ अंतरिक्ष।

— सुरेश वेंकट
स्रोत

मुझे यह उल्लेख करना चाहिए था कि मैं एक उचित प्रीप्रोसेसिंग समय में भी दिलचस्पी रखता हूं जो कि यहां नहीं है अगर एक आयाम बड़ा है।

— इलियराज १४'११ को ily: