ऐसा लगता है कि इंडेक्स मर्जिंग के बारे में आपका सवाल इंडेक्सिंग से ज्यादा है।
यदि आप निम्न-स्तरीय विवरणों को अनदेखा करते हैं, तो अनुक्रमण प्रक्रिया काफी सरल है। दस्तावेजों से "इनवर्टेड इंडेक्स" कहा जाता है। इसलिए यदि पाठ "टू बी ऑर नॉट टू बी" और आईडी = 1 के साथ डॉक्यूमेंट आता है, तो उल्टे इंडेक्स जैसा दिखेगा:
[to] → 1
[be] → 1
[or] → 1
[not] → 1
यह मूल रूप से यह है - शब्द से दिए गए दस्तावेजों की सूची में शब्द से सूचकांक । इस सूचकांक (शब्द) की प्रत्येक पंक्ति को पोस्टिंग सूची कहा जाता है। यह सूचकांक लंबे समय तक भंडारण पर बना रहता है।
वास्तव में चीजें और अधिक जटिल हैं:
- दिए गए विशेष विश्लेषक के आधार पर ल्यूसीन कुछ शब्दों को छोड़ सकता है;
- भाषा के लचीलेपन को कम करने के लिए शब्दों को पूर्वनिर्धारित एल्गोरिथ्म का उपयोग करके प्रीप्रोसेस किया जा सकता है;
- पोस्टिंग सूची में न केवल दस्तावेजों के पहचानकर्ता हो सकते हैं, बल्कि दस्तावेज़ के अंदर दिए गए शब्द (संभावित कई उदाहरण) और कुछ अन्य अतिरिक्त जानकारी की भरपाई भी हो सकती है।
कई और जटिलताएं हैं जो बुनियादी समझ के लिए इतनी महत्वपूर्ण नहीं हैं।
हालांकि, यह समझना महत्वपूर्ण है कि ल्यूसिन इंडेक्स केवल एपेंड है । कुछ समय में एप्लिकेशन इंडेक्स में सभी परिवर्तनों को कमिट (प्रकाशित) करने का निर्णय लेता है। ल्यूसीन इंडेक्स के साथ सभी सर्विस ऑपरेशंस को खत्म करता है और इसे बंद कर देता है, इसलिए यह खोज के लिए उपलब्ध है। प्रतिबद्ध सूचकांक के बाद मूल रूप से अपरिवर्तनीय। इस सूचकांक (या सूचकांक भाग) को खंड कहा जाता है । जब ल्यूसीन एक क्वेरी के लिए खोज को निष्पादित करता है तो यह सभी उपलब्ध खंडों में खोज करता है।
तो सवाल उठता है - हम पहले से ही अनुक्रमित दस्तावेज़ को कैसे बदल सकते हैं ?
पहले से अनुक्रमित दस्तावेजों के नए दस्तावेज़ या नए संस्करण नए खंडों में अनुक्रमित किए जाते हैं और पुराने संस्करणों को तथाकथित मार सूची का उपयोग करके पिछले खंडों में अमान्य कर दिया जाता है । किल लिस्ट प्रतिबद्ध सूचकांक का एकमात्र हिस्सा है जो बदल सकता है। जैसा कि आप अनुमान लगा सकते हैं, सूचकांक दक्षता समय के साथ गिरती है, क्योंकि पुराने अनुक्रमों में अधिकतर हटाए गए दस्तावेज़ शामिल हो सकते हैं।
यह वह जगह है जहां विलय होता है। विलय - समग्र रूप से अधिक कुशल सूचकांक बनाने के लिए कई सूचकांक के संयोजन की प्रक्रिया है। मर्ज के दौरान मूल रूप से क्या होता है, लाइव दस्तावेजों को नए खंड और पूरी तरह से हटाए गए पुराने खंडों पर कॉपी किया जाता है।
इस सरल प्रक्रिया का उपयोग करके ल्यूसीन खोज प्रदर्शन के मामले में सूचकांक को अच्छे आकार में बनाए रखने में सक्षम है।
आशा है कि यह मदद करेगा।