ल्यूसिन कैसे काम करता है

Question 1

मैं यह पता लगाना चाहूंगा कि ल्यूसीन खोज इतनी तेजी से कैसे काम करती है। मुझे वेब पर कोई उपयोगी दस्तावेज़ नहीं मिल रहा है। यदि आपके पास पढ़ने के लिए कुछ भी नहीं है (ल्यूसिन सोर्स कोड की कमी), तो मुझे बताएं।

सूचकांक के साथ mysql5 पाठ खोज का उपयोग करके एक पाठ खोज क्वेरी मेरे मामले में लगभग 18 मिनट लेती है। एक ही क्वेरी के लिए एक चमकदार खोज एक सेकंड से भी कम समय लेती है।

Question 2

Lucene एक उलटा पूर्ण-पाठ सूचकांक है। इसका मतलब है कि यह सभी दस्तावेजों को लेता है, उन्हें शब्दों में विभाजित करता है, और फिर प्रत्येक शब्द के लिए एक सूचकांक बनाता है । चूंकि इंडेक्स एक सटीक स्ट्रिंग-मैच है, अनियंत्रित है, यह बेहद तेज हो सकता है। Hypothetically, एक varcharक्षेत्र पर एक SQL unordered सूचकांक बस के रूप में तेजी से हो सकता है, और वास्तव में मुझे लगता है कि आप पाएंगे बड़े डेटाबेस एक साधारण स्ट्रिंग-समानता क्वेरी उस मामले में बहुत जल्दी कर सकते हैं।

लेनिन को लेनदेन प्रसंस्करण के लिए अनुकूलन करने की आवश्यकता नहीं है। जब आप एक दस्तावेज़ जोड़ते हैं, तो यह सुनिश्चित करने की आवश्यकता नहीं है कि प्रश्न इसे तुरंत देखते हैं । और इसे मौजूदा दस्तावेज़ों के अपडेट के लिए ऑप्टिमाइज़ करने की आवश्यकता नहीं है।

हालांकि, दिन के अंत में, यदि आप वास्तव में जानना चाहते हैं, तो आपको स्रोत को पढ़ने की आवश्यकता है। आपके द्वारा संदर्भित दोनों चीजें खुले स्रोत हैं, आखिरकार।

Question 3

ल्यूसीन एक बड़ा सूचकांक बनाता है। सूचकांक में शब्द आईडी, डॉक्स की संख्या जहां शब्द मौजूद है, और उन दस्तावेजों में शब्द की स्थिति है। इसलिए जब आप एक एकल शब्द क्वेरी देते हैं तो यह केवल सूचकांक (O (1) समय जटिलता) को खोजता है। फिर परिणाम को अलग-अलग एल्गोरिदम का उपयोग करके रैंक किया जाता है। बहु-शब्द क्वेरी के लिए बस उन फाइलों के सेट का प्रतिच्छेदन लें, जहाँ शब्द मौजूद हैं। इस प्रकार ल्यूसीन बहुत तेजी से होता है।

अधिक जानकारी के लिए Google डेवलपर- http://infolab.stanford.edu/~backrub/google.html यह लेख पढ़ें

Question 4

एक शब्द में: अनुक्रमण।

ल्यूसीन आपके दस्तावेज़ का एक सूचकांक बनाता है जो इसे और अधिक तेज़ी से खोजने की अनुमति देता है।

यह सूची O (N) डेटा संरचना और हैश तालिका O (1) डेटा संरचना के बीच समान अंतर है। सूची को पूरे संग्रह से गुजरना पड़ता है कि आप क्या चाहते हैं। हैश टेबल में एक इंडेक्स होता है, जिससे यह पता लगाया जा सकता है कि वांछित वस्तु कहां है और बस इसे लाना है।

अपडेट करें:

मुझे यकीन नहीं है कि आपके द्वारा "ल्यूसिन इंडेक्स खोजों से बहुत अधिक तेज़ हैं जो mysql इंडेक्स खोजों की तुलना में बहुत तेज़ हैं।"

मेरा अनुमान है कि आप दस्तावेज़ खोजने के लिए MySQL "WHERE दस्तावेज़ LIKE '% वाक्यांश%'" का उपयोग कर रहे हैं। यदि यह सच है, तो MySQL को हर पंक्ति पर एक टेबल स्कैन करना होगा, जो O (N) होगा।

ल्यूसीन को दस्तावेज़ को टोकन में पार्स करने के लिए मिलता है, उन्हें अपनी दिशा में एन-ग्राम में समूहित करें, और उनमें से प्रत्येक के लिए अनुक्रमित गणना करें। यह एक अनुक्रमित ल्यूसीन दस्तावेज़ में एक शब्द खोजने के लिए ओ (1) है।

Question 5

ल्यूसीन टर्म फ़्रीक्वेंसी और इनवर्स डॉक्यूमेंट फ़्रीक्वेंसी के साथ काम करता है । यह डॉक्यूमेंट के साथ प्रत्येक शब्द की एक इंडेक्स मैपिंग करता है और यह फ्रिक्वेंसी काउंट होता है जो डॉक्यूमेंट पर उलटा इंडेक्स के अलावा कुछ नहीं होता है।

उदाहरण :

फ़ाइल 1: रैंडम एक्सेस मेमोरी मुख्य मेमोरी है।

फाइल 2: हार्ड डिस्क सेकेंडरी मेमोरी है।

Lucene एक रिवर्स इंडेक्स जैसा कुछ बनाता है

फ़ाइल 1:

शब्द: यादृच्छिक

आवृत्ति: १

पद: 0

शब्द: स्मृति

आवृत्ति: २

स्थिति: 3

पद: 6

तो यह खोज की गई सामग्री को जल्दी से खोज और पुनर्प्राप्त करने में सक्षम है। जब खोज क्वेरी के लिए बहुत अधिक मैच होते हैं तो यह वजन के आधार पर परिणाम को आउटपुट करता है। खोज क्वेरी "मुख्य मेमोरी" पर विचार करें, यह सभी 4 शब्दों को व्यक्तिगत रूप से खोजती है और परिणाम जैसा होगा,

मुख्य

फ़ाइल 1: आवृत्ति - 1

स्मृति

फ़ाइल 1: आवृत्ति - 2

फ़ाइल 2: आवृत्ति - 1

परिणाम होगा File1 और उसके बाद File2 होगा । सबसे आम शब्दों जैसे 'और', 'या', 'पर भार से दूर ले जाने से रोकने के लिए' यह उलटा दस्तावेज़ आवृत्ति पर विचार करता है (यानी 'यह शब्द के वजन को कम करता है जो दस्तावेज़ सेट के बीच सबसे लोकप्रिय है)।