Google अभी भी मेरे पुराने, डमी, परीक्षण पृष्ठों को क्रॉल और इंडेक्स कर रहा है जो अब 404 नहीं हैं


19

मैंने अपनी साइट को नमूना पृष्ठों और डेटा (लोरेम इप्सम, आदि ..) के साथ स्थापित किया है और Google ने इन पृष्ठों को क्रॉल किया है। मैंने इन सभी पृष्ठों को हटा दिया है और वास्तव में वास्तविक सामग्री जोड़ दी है, लेकिन वेबमास्टर टूल में, मुझे अभी भी बहुत सारी 404 त्रुटियां मिली हैं जिन्हें Google इन पृष्ठों को क्रॉल करने की कोशिश कर रहा है। मैंने उन्हें "हल के रूप में चिह्नित" करने के लिए सेट किया है, लेकिन कुछ पृष्ठ अभी भी 404 के रूप में वापस आते हैं।

इसके अलावा, मेरे पास Google पर अपनी साइट की खोज करते समय इनमें से बहुत सारे नमूना पृष्ठ अभी भी सूचीबद्ध हैं। उन्हें कैसे हटाया जाए। मुझे लगता है कि ये अप्रासंगिक पृष्ठ मेरी रेटिंग को नुकसान पहुंचा रहे हैं।

मैं वास्तव में इन सभी पृष्ठों को मिटाना चाहता था और अपनी साइट को नए के रूप में अनुक्रमित करना शुरू कर रहा था, लेकिन मैंने पढ़ा कि यह संभव नहीं है? (मैंने एक साइटमैप प्रस्तुत किया है और "Google के रूप में प्राप्त करें" का उपयोग किया है)

जवाबों:


17

ठीक है। पहली चीजें पहले। तय होने के अनुसार अपने 404 को चिह्नित न करें । आप वास्तव में इस मुद्दे को लम्बा खींच रहे हैं। Google ऐसा पृष्ठ लाने और आज़माने का प्रयास करेगा जो देने से पहले कई बार 404 लौटाए। ऐसा इसलिए है क्योंकि 404 त्रुटि एक अस्थायी स्थिति को इंगित करती है, जहां 410 त्रुटि कहती है कि पृष्ठ चला गया है । इसलिए हर बार जब आप तय किए गए 404 को चिह्नित करते हैं, तो आप प्रभावी रूप से Google को फिर से प्रयास करने के लिए कह रहे हैं और इस तरह से सभी को फिर से खत्म करने की प्रक्रिया शुरू कर रहे हैं।

बस इन पृष्ठों को कुछ समय के लिए 404 पर छोड़ दें और Google उनकी तलाश करना बंद कर देगा और पृष्ठों को सूचकांक से हटा देगा। इसमें समय लगेगा, लेकिन 410 त्रुटि में से यह सबसे आसान तरीका है। 410 त्रुटि प्रक्रिया को तेज कर देगी, लेकिन 410 त्रुटि प्रस्तुत करना कठिन है और एक 404 डिफ़ॉल्ट है जो इसे आसान और प्राकृतिक समाधान बनाता है।

यदि आप प्रतीक्षा कर सकते हैं तो आपके हटाए गए पृष्ठ लगभग 30-60 दिनों में गायब हो जाएंगे। यह इस बात पर निर्भर करता है कि Google आपके पृष्ठों पर कितनी बार आता है। इसमें अधिक समय लग सकता है, लेकिन एक बार 404 मिल जाने के बाद, Google पहले स्थान की जांच करना पसंद करता है, फिर इस पर निर्भर करता है कि 404 में से कितने हैं, जो आपकी साइट पर अधिक आक्रामक तरीके से जा सकते हैं।

साइटमैप का उपयोग वास्तव में सूचकांक के साथ किसी भी समस्या को ठीक नहीं करता है। यह केवल खोज इंजन के लिए जीवन को सरल बनाता है। यह कभी नहीं लिया जाता है क्योंकि किसी भी साइट के पेजों की सूची सभी के अंत में होती है। यदि कोई खोज इंजन साइटमैप पढ़ता है और अभी भी उन पृष्ठों को खोजता है जो साइटमैप में सूचीबद्ध नहीं हैं, तो यह उन पृष्ठों को अनुक्रमित करता रहेगा।

एक विकल्प अगर यह करने के लिए समझ में आता है, तो इन पृष्ठों को अपनी robots.txt फ़ाइल में सूचीबद्ध करना है। यदि बहुत अधिक नहीं हैं (मतलब कुछ ऐसा जो आप कर सकते हैं और आपकी robots.txt फ़ाइल बहुत लंबी नहीं होगी), तो यह एक तेज़ समाधान होगा। अन्यथा, मैं बस इंतजार करूंगा और 404 त्रुटियों को अपने दम पर समाप्त होने दूंगा।

एक आखिरी शब्द। आप ठीक हो जाएंगे। वास्तव में। यह सब आपके लिए बहुत अच्छा होगा अगर आप धैर्य रखें।


1
Robots.txt में 404 पृष्ठ जोड़ना बुरी प्रथा की तरह लगता है। यह केवल क्रॉलर को भ्रमित करेगा और पूरी तरह से अनावश्यक हाउसकीपिंग लेगा।
डोरस

@ कोरस बिल्कुल नहीं। एक दूसरे के साथ कुछ नहीं तालुक है। Robots.txt फ़ाइल में कोई भी पेज जोड़ने से पेज बहुत जल्दी इंडेक्स से हट जाएगा। साथ ही, खोज इंजन फ़ाइल को एक्सेस करने की कोशिश नहीं करेगा और इसलिए कोई 404 नहीं।
करीब 12

1
जैसा कि आप कहते हैं, यदि आप इसे robots.txt में जोड़ते हैं तो सर्च इंजन पेज तक पहुंचने की कोशिश नहीं करेगा, लेकिन पेज अभी भी मौजूद रहेगा। इसलिए अगर किसी दिन आप इसे रोबोट से हटाते हैं तो अनुक्रमण वापस आ जाएगा। 404 या 410 को काम करने देना बेहतर अभ्यास है।

@closetnoc आपका क्या मतलब था it is harder to present a 410 error?
एवगेनी

@Evgeniy 404 त्रुटि वह है जो डिफ़ॉल्ट रूप से दी गई है (Apache कम से कम और पुराने IIS)। 410 त्रुटि को जानबूझकर करना होगा और ऐसा करने के लिए कुछ काम करना होगा। तकनीकी रूप से, यह कोई मुश्किल काम नहीं है, हालांकि, इसके लिए कुछ विशेषज्ञता की आवश्यकता होती है, हालांकि बहुत कुछ नहीं। चीयर्स !!
क्लोजनेटॉक

8

एक बार जब आप कोई पृष्ठ प्रकाशित करते हैं, तो Google इसके बारे में कभी नहीं भूलता। मेरे पास ऐसी साइटें हैं जिनसे मैंने 15 साल पहले पृष्ठ हटा दिए थे। Googlebot अभी भी वापस आता है और उन पृष्ठों को कभी-कभी चेक करता है।

खोज इंजन में पृष्ठों को दिखाने से रोकने के लिए, आपकी 404 त्रुटियां काम करेंगी। Googlebot द्वारा इसे अगले क्रॉल करने के बाद पृष्ठ को अनुक्रमणिका से निकालने में Google को एक दिन लग सकता है। यदि आप चाहते हैं कि इसे तेज़ी से हटाया जाए, तो इसके बजाय "410 Gone" स्थिति लौटाएँ। Google एक दिन प्रतीक्षा करने के बजाय उन्हें रेंगने के तुरंत बाद 410 पृष्ठ निकाल देता है। मैट कट्स द्वारा बताए गए वेब स्वामी को पैर में गोली मारने से रोकने के लिए Google ने तुरंत 404 पृष्ठ नहीं निकाले :

तो 404s के साथ, मुझे लगता है कि 401s और शायद 403s के साथ, अगर हम एक पेज देखते हैं और हमें एक 404 मिलता है, तो हम क्रॉलिंग सिस्टम में 24 घंटे के लिए उस पेज को सुरक्षित रखने वाले हैं, इसलिए हम इंतजार करते हैं और हम कहते हैं कि शायद यह एक था क्षणिक 404, शायद यह वास्तव में एक पृष्ठ नहीं पाया जा करने का इरादा नहीं था।

एक अन्य विधि जिस पर आप विचार कर सकते हैं वह पुनर्निर्देशन है। किसी पुराने पृष्ठ को प्रतिस्थापन पर पुनर्निर्देशित करने से 301 इसे Google वेबमास्टर टूल्स में त्रुटि के रूप में प्रदर्शित होने से रोकेगा। यह तभी संभव है जब पुराने पृष्ठों में से प्रत्येक के लिए कुछ नया पृष्ठ हो। आपके होम पेज पर सभी परीक्षण पृष्ठों को पुनर्निर्देशित करने से मदद नहीं मिलेगी, क्योंकि Google होम पेज पर रीडायरेक्ट को "सॉफ्ट 404" त्रुटि मानता है जो उस रिपोर्ट में अभी भी दिखाई देगा।

वेबमास्टर टूल में 404 त्रुटियां होने से आपको कोई नुकसान नहीं होगा। आपकी साइट पर कुछ 404 त्रुटियां होने से भी आपको मदद मिल सकती है क्योंकि यह Googlebot को दिखाता है कि आपकी साइट सही तरीके से कॉन्फ़िगर की गई है। यहाँ Google के जॉन मुलर (जो वेबमास्टर टूल और साइटमैप पर काम करता है) को 404 त्रुटियों के बारे में कहना है जो वेबमास्टर टूल में दिखाई देती हैं :

मदद! मेरा साइट 939 क्रैव गलत है! 1

मैं सप्ताह में कई बार इस तरह का प्रश्न देखता हूं; आप अकेले नहीं हैं - कई वेबसाइटों में क्रॉल त्रुटियां हैं।

  1. अमान्य URL पर 404 त्रुटियां किसी भी तरह से आपकी साइट की अनुक्रमण या रैंकिंग को नुकसान नहीं पहुंचाती हैं । इससे कोई फर्क नहीं पड़ता कि अगर 100 या 10 मिलियन हैं, तो वे आपकी साइट की रैंकिंग को नुकसान नहीं पहुंचाएंगे। http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html
  2. कुछ मामलों में, क्रॉल त्रुटियां आपकी वेबसाइट या सीएमएस के भीतर एक वैध संरचनात्मक मुद्दे से आ सकती हैं। तुम बताओ कैसे? क्रॉल त्रुटि की उत्पत्ति को दोबारा जांचें। यदि आपके पृष्ठ के स्थिर HTML में आपकी साइट पर कोई टूटी हुई कड़ी है, तो वह हमेशा ठीक करने के लायक है। (धन्यवाद + मार्टिनो मोस्ना )
  3. उन कायरतापूर्ण URL के बारे में जो "स्पष्ट रूप से टूटे हुए हैं?" यदि हम उन "URL" को आज़माते हैं और 404 पाते हैं, तो यह बहुत अच्छा और अपेक्षित है। हम बस कुछ भी महत्वपूर्ण याद नहीं करना चाहते हैं (सम्मिलित करें Googlebot मेमे यहां डालें)। http://support.google.com/webmasters/bin/answer.py?answer=1154698
  4. आपको वेबमास्टर टूल में क्रॉल त्रुटियों को ठीक करने की आवश्यकता नहीं है। यदि आप अपनी प्रगति पर नज़र रखना चाहते हैं तो "निशान के रूप में निर्धारित" सुविधा केवल आपकी मदद करने के लिए है; यह हमारी वेब-खोज पाइपलाइन में कुछ भी नहीं बदलता है, इसलिए यदि आपको इसकी आवश्यकता नहीं है, तो इसे अनदेखा करने के लिए स्वतंत्र महसूस करें। http://support.google.com/webmasters/bin/answer.py?answer=2467403
  5. हम प्राथमिकता द्वारा वेबमास्टर टूल्स में क्रॉल त्रुटियों को सूचीबद्ध करते हैं, जो कई कारकों पर आधारित है। यदि क्रॉल त्रुटियों का पहला पृष्ठ स्पष्ट रूप से अप्रासंगिक है, तो संभवतः आपको आगे के पृष्ठों पर महत्वपूर्ण क्रॉल त्रुटियां नहीं मिलेंगी। http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html
  6. आपकी वेबसाइट पर त्रुटियों को "ठीक" करने की कोई आवश्यकता नहीं है। 404 की खोज सामान्य है और एक स्वस्थ, अच्छी तरह से कॉन्फ़िगर की गई वेबसाइट से अपेक्षित है। यदि आपके पास एक नया URL है, तो इसके लिए पुनर्निर्देशन एक अच्छा अभ्यास है। अन्यथा, आपको नकली सामग्री नहीं बनानी चाहिए, आपको अपने होमपेज पर रीडायरेक्ट नहीं करना चाहिए, आपको रोबोट्स नहीं करना चाहिए। उन यूआरएल को अस्वीकार नहीं करना चाहिए - इन सभी चीजों से हमें आपकी साइट की संरचना को पहचानने और इसे ठीक से प्रोसेस करने में मुश्किल होगी। हम इन "नरम 404" त्रुटियों को कहते हैं। http://support.google.com/webmasters/bin/answer.py?answer=181708
  7. जाहिर है - यदि ये क्रॉल त्रुटियां उन URL के लिए दिखाई दे रही हैं, जिनकी आप परवाह करते हैं, शायद आपकी साइटमैप फ़ाइल में URL हैं, तो यह वह चीज है जिस पर आपको तुरंत कार्रवाई करनी चाहिए। यदि Googlebot आपके महत्वपूर्ण URL को क्रॉल नहीं कर सकता है, तो वे हमारे खोज परिणामों से हटाए जा सकते हैं, और उपयोगकर्ता उन्हें एक्सेस करने में सक्षम नहीं हो सकते हैं।

1
वह मेरा अनुभव बिलकुल नहीं रहा। Google एक ताज़ा सूचकांक चाहता है और पृष्ठों को शीघ्रता से हटाता है। मैं जो देखता हूं, वह आपके वर्णन के समान लगता है, जहां अन्य साइटें हैं जो अतीत में Google API का उपयोग करती हैं, उनके डेटा को ताज़ा नहीं करती हैं और आपके पुराने काम का हवाला देंगी। ये अक्सर स्पैम / जंक साइट होते हैं और ये उद्धरण दिखाई / रह सकते हैं / गायब हो सकते हैं / फिर से प्रकट हो सकते हैं। इसका प्राथमिक कारण जो मैं देख रहा हूं, वह यह है क्योंकि Google API का उपयोग बहुत ही उपयोगी है और इस प्रकार अब स्पैम डेटा बहुत पुराना नहीं है, क्योंकि नए डेटा विशेष रूप से आने वाले समय में आपके द्वारा स्पैम किए जाने पर बहुत मुश्किल से आते हैं।
क्लोजनेटॉक

1
Googlebot का क्रॉल मोड है जिसे मैं "हम तहखाने में URL का एक बॉक्स मिला" कहते हैं। इस क्रॉल मोड में यह आपकी साइट से एक पंक्ति में एक हजार URL क्रॉल कर सकता है, जिसका कोई भी आपने वर्षों में उपयोग नहीं किया है। URL में आमतौर पर कोई इनबाउंड लिंक नहीं होते हैं, यहां तक ​​कि स्क्रैपर साइटों से भी। उन्हें लंबाई के क्रम में क्रॉल किया जाता है, पहले छोटे यूआरएल क्रॉल किए जाते हैं।
स्टीफन Ostermiller

यह सच हो सकता। Google स्पष्ट रूप से बड़ा डेटा है। किसी भी बड़े डेटाबेस में शोर है। वह अपरिहार्य है। वह वही हो सकता है जो आप अनुभव कर रहे हैं। यह संभव है कि विभिन्न डेटाबेसों में सामंजस्य स्थापित किया जा रहा हो। यह समझ आता है। लेकिन मैं आपको यह भी चेतावनी देता हूं कि पुराने लिंक और पुराने उद्धरणों के साथ जंक साइट्स केवल 2 घंटे के लिए दिखाई दे सकती हैं। मैं इसे रोज देखता हूं। वे मुख्य रूप से रूस और पोलैंड में हैं। इन साइटों का उपयोग स्थानीय खोज इंजन को गेम करने के लिए किया जाता है, लेकिन किसी भी साइट पर ट्रैफ़िक को प्रभावित करता है और इसे Google द्वारा उठाया जा सकता है। मुझे हर दिन इनमें से लगभग 12 अपने डेटाबेस में मिलते हैं। आम तौर पर, 12 में से केवल 1 साइटें किसी भी अवधि के लिए रहती हैं।
क्लोजनेटॉक

939 त्रुटि क्या है?
ग्रेग निकोलॉफ़

939 त्रुटियों की संख्या है, यह एक प्रकार की त्रुटि नहीं है।
स्टीफन Ostermiller

5

Google इन पृष्ठों को लंबे समय तक क्रॉल करने की कोशिश जारी रखने की संभावना है। वेबमास्टर्स गलतियाँ करते हैं, या साइटें किसी भी कारण से अनुपलब्ध हो जाती हैं, इसलिए Google 404 के पहले संकेत पर सामग्री को नहीं हटाएगा।

वैकल्पिक रूप से आप इसके बजाय 410 गॉन परोस सकते हैं। यह एक बहुत मजबूत (यानी जानबूझकर) संकेत है कि पृष्ठ सचमुच "चला गया" है और वापस नहीं आ रहा है। यह Google को SERPs से पेज को जल्द हटाने के लिए प्रेरित कर सकता है।

मैंने उन्हें "हल के रूप में चिह्नित" करने के लिए सेट किया है, लेकिन कुछ पृष्ठ अभी भी 404 के रूप में वापस आते हैं।

यदि आपने पृष्ठ को वापस रखा है तो वे केवल "हल" हैं। यदि आप इसे हल के रूप में चिह्नित करते हैं और पृष्ठ मौजूद नहीं है, तो क्रॉल त्रुटि बस फिर से आ जाएगी। यदि पृष्ठ मौजूद नहीं है, तो इसे वैसे ही छोड़ दें।

निचले स्तर के 404 आपकी खोज रैंकिंग को नुकसान नहीं पहुंचाते हैं। GWT में 404 रिपोर्ट मुख्य रूप से आपके लाभ के लिए है ताकि आप देख सकें कि चीजें कब गलत हो जाती हैं ... जब पृष्ठ नहीं मिल सकते हैं जो कि मिलने चाहिए!

SERPs में ये अप्रासंगिक पृष्ठ शायद आपके उपयोगकर्ताओं के लिए एक छोटी सी झुंझलाहट है, हालांकि, वे आपके लोरेम इप्सम को खोजने के लिए क्या खोज रहे हैं ?

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.