ठीक है। यह उन मामलों में से एक होगा जहां मैं प्रक्रिया के माध्यम से काम करूंगा ताकि यह स्पष्ट हो जाए। यह कुछ हद तक लंबा होगा, लेकिन उम्मीद है कि दर्द लंबे समय तक नहीं होगा।
आइए हम शुरुआत करेंगे?
1997 में ब्रिन और पेज द्वारा शोध पत्र के साथ मूल रूप से Google कैसे काम करता है, इसके बारे में हम जो जानते हैं उससे शुरू करते हुए, हम कुछ चीजें जानते हैं जो आज भी खेलने में बहुत संभावना है।
Google के पास इसका URL है जो अनुक्रमणिका में है और पृष्ठ को प्राप्त करता है। पृष्ठ का कोड प्रसंस्करण के विभिन्न रूपों के लिए अपने डेटाबेस में संग्रहीत किया जाता है। प्रक्रियाओं में से एक नए लिंक खोजने के लिए होगा। Google द्वारा पाया गया कोई भी लिंक मौजूद होने पर सबसे पहले लिंक इंडेक्स में स्थित होगा। यह ऐसा नहीं करता है, फिर लिंक को लिंक तालिका में जोड़ा जाएगा और भ्रूण की कतार में जोड़ा जाएगा।
लिंक तालिका के भीतर किसी भी लिंक में कम से कम ये तत्व होते हैं, लिंक URL, स्रोत URL और लिंक पाठ। यह संभावना है कि अन्य डेटा तत्व हैं, हालांकि, ये चर्चा को आगे नहीं बढ़ाते हैं। लिंक तालिका में जोड़े गए किसी भी लिंक में स्रोत URL सत्यापित है, लेकिन आवश्यक रूप से लक्ष्य URL नहीं है। उदाहरण के रूप में संबंधपरक डेटाबेस का उपयोग करते हुए, स्रोत और लक्ष्य URL URL तालिका के भीतर एक URL आईडी हो सकते हैं और एक ज्वाइन टेबल लिंक तालिका स्रोत URL में शामिल हो जाएगी और URL तालिका में वापस ID का उपयोग करके URL तत्वों को लक्षित करेगी। उलझन में? मत बनो।
ऐसे किसी भी मामले के लिए जहां लक्ष्य पृष्ठ नहीं लाया गया है, लिंक तालिका के भीतर लिंक को एक झूलने वाला लिंक कहा जाता है। एक बार पृष्ठ लाने के बाद, लिंक तालिका के भीतर का लिंक पूरा हो जाता है। यदि लक्ष्य पृष्ठ मौजूद नहीं है, तो लिंक तालिका के भीतर लिंक टूटी हुई कड़ी है। सरल?
केवल पूर्ण लिंक मान पारित कर सकते हैं। पेजरैंक एल्गोरिथ्म को मूल्य की गणना करने के लिए एक पूर्ण लिंक की आवश्यकता होती है। सभी झूलने और टूटे लिंक लिंक का उपयोग करके किसी भी गणना को रोकते हैं। पहले, PR एक पुनरावर्ती प्रक्रिया थी, जो लिंक मानों का उपयोग करके लिंक मानों की गणना अधिक से अधिक तब तक करेगी जब तक कि किसी भी लिंक पर समायोजित किए जाने वाले मूल्य संख्यात्मक मान के भीतर न हो जाए, जो कि इतना छोटा है कि प्रभावी रूप से अंतर करने वाला नहीं है। मुझे यकीन है कि यह अभी भी एक घर रखने की प्रक्रिया के रूप में होता है। हालाँकि, पीआर आज एक नेटवर्क में हॉप्स के समान एक अन्य विधि का उपयोग करके गणना की जाती है जो एक पृष्ठ से दूसरे स्थान पर सापेक्ष महत्व के साथ मापता है। यह ट्रस्ट नेटवर्क मॉडल पर आधारित है जो मूल पेजरैंक मॉडल का अनुकरण करने के लिए डिज़ाइन किया गया था। एक लिंक एक इकाई से दूसरी इकाई के लिए एक विश्वास मत है। जबकि यह इससे अधिक जटिल है, आपको चित्र मिल जाएगा। यह प्रभावी रूप से पुनरावृत्ति प्रक्रिया के रूप में एक ही बात करता है अधिक वास्तविक समय की गणना का उपयोग करके, हालांकि कम सटीक लेकिन सटीक पर्याप्त विश्वसनीय होने के लिए। यदि ट्रस्ट स्थापित नहीं है, तो ट्रस्ट मूल्यों (ट्रस्ट नेटवर्क मॉडल का उपयोग करके) को पूर्ण लिंक की आवश्यकता होती है। याद रखें कि एक लिंक एक ट्रस्ट वोट या ट्रस्ट नेटवर्क मॉडल में लिंक है। PageRank को एक ट्रस्ट नेटवर्क में ट्रस्ट वैल्यू के रूप में दर्शाया गया है।
अब जब आप लिंक को समझते हैं और वे कितने महत्वपूर्ण हैं, तो चलिए आगे बढ़ते हैं।
खोज इंजन के लिए, किसी भी URL को निकालने का कोई मतलब नहीं है। यदि URL URL तालिका के भीतर मौजूद नहीं है, तो आप URL के बारे में कुछ भी नहीं जान सकते हैं और नुकसान होगा। URL आमतौर पर तब तक हटाए नहीं जाते हैं जब तक कि यह समझ में न आए, उदाहरण के लिए, यदि URL मौजूद नहीं है। हालाँकि, जब कोई पृष्ठ NOINDEX पर सेट होता है, तो खोज इंजन को स्पष्ट रूप से निर्देश दिया जाता है कि वह पृष्ठ को अनुक्रमणित न करे। चूंकि इंडेक्स के भीतर एक वेब पेज में दो चीजें होती हैं, एक URL और HTML स्रोत कोड, NOINDEX इस बिंदु पर प्रभावी रूप से पेज को हटा देता है। NOINDEX पेज के लिंक कम से कम लटक रहे हैं।
अब जब आप जानते हैं कि अनुक्रमित पृष्ठ कैसा दिखता है, तो आगे बढ़ने देता है।
कई तरीके हैं जो एक खोज इंजन एक वेब पेज या साइट को दंडित करेगा। एक परिसीमन है। यह सभी दंडों में सबसे गंभीर है और इसे ठीक होने में लंबा समय लगता है। दंड की यह श्रेणी आपको इस बात का सबूत दे सकती है कि पृष्ठ नहीं मिलेगा और नहीं मिल सकता है। साथ ही, Googles Search Console, एक दौर में, आपको बताएगा कि पेज डिलीट किए जा रहे हैं। शेष दंडों में से दंड SERP फ़िल्टर में लगाए गए हैं।
जब कोई खोज क्वेरी की जाती है, तो वास्तव में सूचकांक के खिलाफ कई प्रश्न होते हैं जो तब एल्गोरिथ्म के एक हिस्से के आधार पर परिणाम सेट में मिश्रित होते हैं। शेष एल्गोरिथ्म, जिसे हम अक्सर एकल इकाई के रूप में संदर्भित करते हैं, अपेक्षाकृत सरल SERP एल्गोरिदम की एक श्रृंखला है। जिनमें से प्राथमिक एल्गोरिदम अधिक वास्तविक समय मैट्रिक्स जैसे रुझानों के आधार पर परिणाम सेट को फिर से व्यवस्थित करेगा। एल्गोरिदम में से, जो परिणाम सेट से प्रविष्टियां निकालते हैं या परिणाम सेट के भीतर प्रविष्टि की नियुक्ति को गंभीरता से डाउनग्रेड करते हैं, उन्हें फ़िल्टर कहा जाता है। एक जो लागू किया जाता है वह फ़िल्टर है जो DMCA के साथ इसका सबूत है...we have removed 1 result(s) from this page...
तो अब जब आप जानते हैं कि पेनल्टी कैसे लागू की जाती है, क्या लिंक, पीआर और डीएमसीए फिल्टर जुड़े हुए हैं?
इसके साथ, हम जानते हैं कि एक फ़िल्टर लागू किया गया है, हालांकि, इसका लिंक इंडेक्स से कोई लेना-देना नहीं है कि पेजरैंक की गणना कैसे की जाती है। यह लिंक / पीआर प्रक्रिया से उतना ही दूर है जितना इसे मिल सकता है। लिंक और PR अनुक्रमण प्रक्रिया की शुरुआत में होते हैं जबकि DMCA दंडित पृष्ठ को हटा देना क्वेरी प्रक्रिया के अंत में होता है। वास्तव में, ये दो पूरी तरह से अलग इंजन हैं। इसलिए जब कोई पृष्ठ DMCA शिकायत के कारण हटाया जा सकता है, तो यह वास्तव में सूचकांक से हटाया नहीं जाता है और इसलिए पृष्ठ से लिंक और गणना अभी भी की जाती है।
कीचड़ की तरह साफ़? मुझे उम्मीद है कि मैंने इसे अच्छी तरह से समझाया। कृपया मुझे बताएं कि क्या मैं आपके लिए कुछ स्पष्ट कर सकता हूं।
[अपडेट करें]
एक अपवाद जो ओपी के परिदृश्य पर लागू नहीं होता है।
@StephenOstermiller एक अच्छा बिंदु लाता है जो उपरोक्त को कम नहीं करता है, हालांकि, मैं इसे पूर्णता के साथ जोड़ना चाहूंगा।
जैसा कि आप अच्छी तरह से जानते हैं, खोज के भीतर एक साइट या पेज स्कोर करने के लिए कई कारकों की आवश्यकता होती है। हालांकि यह उतना तकनीकी या रहस्यमय नहीं है जितना आप कल्पना कर सकते हैं, यह अभी भी बहुत कुछ है या तौलना है। मैं भरोसेमंद स्कोर के प्रभाव के बारे में भूल गया, क्योंकि यह ओपी के मामले में लागू नहीं हुआ था। इसलिए मैं इसे यहां जोड़ रहा हूं।
स्पष्ट रूप से ऐसी साइटें हैं जो अच्छी नहीं हैं जैसे कि स्पैम साइट्स। साइटों के इस वर्गीकरण के भीतर ऐसी साइटें हैं जो कॉपीराइट सामग्री के अभ्यस्त दुरुपयोग हैं। यह कई साल पहले एक बड़ी समस्या थी जहां सामग्री स्क्रेपर्स आपकी कड़ी मेहनत से साइटों का निर्माण करेंगे। लंबे समय तक, कुछ भी नहीं किया गया था। मूल सामग्री वाली साइटें स्क्रैपर साइटों को लगातार खो देती हैं। मुझे जानना चाहिए। मेरे पास दो पीआर 8 साइटें थीं जो बिल्कुल बिना किसी कोटर वाली स्क्रैपर साइट्स के कारण लगभग सभी ट्रैफिक को खो देती थीं।
हालांकि चीजें बदल गई हैं। और यह काफी हद तक केवल चार साल हो गए हैं क्योंकि महत्वपूर्ण बदलाव शुरू हो गए हैं।
साइटों के इन विशेष वर्गीकरण के लिए, साइटों का भरोसा स्कोर काफी कम हो सकता है। यह सर्वविदित है। ट्रस्ट स्कोर के पुनर्निर्माण में कुछ साल लगते हैं और कुछ साइटों के लिए, ऐसा कभी नहीं हो सकता है। उदाहरण के लिए, क्या आपको लगता है कि डोमेन मोनेटाइज़र एक साइट का पूरी तरह से दुरुपयोग करने के लिए तैयार हैं, जिसमें सैकड़ों हजारों लोग एक ही दुरुपयोग के लिए प्रतीक्षा कर रहे हैं? ऐसा इसलिए है क्योंकि वास्तविकता यह है कि एक डोमेन इसे मोचन से परे मूल्य को बर्बाद कर सकता है।
कई कारक हैं जो विश्वास की स्थापना में जाते हैं। मैं यहां नहीं पहुंचूंगा। हालांकि, क्या आप जानते हैं कि ट्रस्ट किसी भी साइट के लिए बिल्डिंग रैंक का एक प्रमुख घटक है।
कहा कि, किसी भी साइट के लिए जो कि DMCA का एक गंभीर उल्लंघनकर्ता है, काफी व्यापक ट्रैक रिकॉर्ड के साथ, यह ट्रस्ट स्कोर में एक गंभीर दस्तक देगा। यह वह स्थिति नहीं है, जैसा कि ओपी वर्णन कर रहा है। हालांकि, यह वह परिदृश्य है जिसे मैं यहां मान रहा हूं।
पेजरैंक की लिंक और स्थापना के एक से अधिक घटक हैं। एक पेज का पेजरैंक (प्राधिकरण) है। अत्यधिक आधिकारिक पृष्ठों के लिए, एक प्राधिकरण कैप है। एक पीआर 8 पेज उस पेज के लिंक के बीच 8 का मान साझा नहीं करेगा। यह मूल पेजरैंक एल्गोरिथ्म का हिस्सा है जिसका उद्देश्य पीआर में अधिक प्राकृतिक वक्र डालना है। अन्यथा, नए पृष्ठ के लिए लंबे समय के बाद भी उच्च प्राधिकारी वाले पृष्ठ के खिलाफ प्रतिस्पर्धा करना लगभग असंभव होगा। लिंक पाठ का शब्दार्थ मान, लिंक URL, लिंक का स्थान (प्रमुखता), सामग्री ब्लॉक का अर्थ मान जिसमें यह लागू होता है, तो सभी लिंक शामिल हैं, सहित कई कारकों का उपयोग करके स्वयं लिंक का मान बनाया जाता है। 0 से 9 तक स्कोर किया जाता है। प्राधिकरण और लिंक स्कोर की गणना किसी भी लिंक द्वारा पारित मूल्य है।
सही और उचित। तो यह उस साइट को कैसे प्रभावित करता है जो DMCA का एक महत्वपूर्ण उल्लंघनकर्ता है?
किसी भी इनबाउंड लिंक का मूल्य आवश्यक रूप से लक्ष्य साइट के विश्वास स्कोर से प्रभावित नहीं होगा क्योंकि लिंक मूल्य स्रोत साइट से आता है। हालाँकि, कोई भी आउटबाउंड लिंक हो सकता है। किसी भी साइट का अधिकार जो एक महत्वपूर्ण DMCA एब्यूसर है, ट्रस्ट स्कोर से प्रभावित होगा। आखिरकार, प्राधिकरण विश्वास से आता है। तो इस तरह, इनबाउंड लिंक का मूल्य विश्वास स्कोर के आधार पर अपमानित किए बिना आउटबाउंड लिंक के माध्यम से पारित नहीं किया जाएगा।
इससे उत्तर कुछ हद तक बदल जाता है।
हालांकि यह ओपी के परिदृश्य पर लागू नहीं होता है, एक परिदृश्य है जहां एक इनबाउंड लिंक मूल्य पूरी तरह से डीएमसीए के उल्लंघन के साथ साइट के माध्यम से पारित नहीं होता है। हालाँकि, यह एक कठिन मामला है और इसलिए ऐसा होने से पहले की सीमा महत्वपूर्ण है।