Google वेबमास्टर टूल मुझे बताता है कि रोबोट साइटमैप तक पहुंच को रोक रहा है

यह मेरा robots.txt है :

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Sitemap: http://www.example.org/sitemap.xml.gz

लेकिन Google वेबमास्टर टूल्स ने मुझे बताया कि रोबोट साइटमैप तक पहुंच को रोक रहा है:

आपके साइटमैप तक पहुँचने का प्रयास करते समय हमें एक त्रुटि का सामना करना पड़ा। कृपया सुनिश्चित करें कि आपका साइटमैप हमारे दिशानिर्देशों का पालन करता है और आपके द्वारा प्रदान किए गए स्थान पर पहुँचा जा सकता है और फिर पुनः सबमिट करें: robots.txt द्वारा प्रतिबंधित URL ।

मैंने पढ़ा कि Google वेबमास्टर टूल robots.txt को कैश करता है , लेकिन फ़ाइल को 36 घंटे से अधिक समय पहले अपडेट किया गया है।

अपडेट करें:

TEST साइटमैप को हिट करने के कारण Google को नया साइटमैप प्राप्त नहीं करना पड़ता है। केवल SUBMIT साइटमैप ही ऐसा करने में सक्षम था। (BTW, मुझे नहीं लगता कि 'टेस्ट साइटमैप' में क्या बात है जब तक आप अपने वर्तमान साइटमैप को वहां पेस्ट नहीं करते हैं - यह उस पते से साइटमैप की एक नई प्रतिलिपि प्राप्त नहीं करता है जो आपको परीक्षण से पहले दर्ज करने के लिए कहता है - लेकिन वह एक और दिन के लिए एक सवाल।)

सबमिट करने (परीक्षण के बजाय) के बाद एक नया साइटमैप बदल गया। अब मुझे " robots.txt द्वारा URL को अवरुद्ध कर दिया गया है । साइटमैप में URL शामिल हैं जो robots.txt द्वारा अवरुद्ध हैं ।" 44 URL के लिए। साइटमैप में कुल 44 URL हैं। इसका मतलब यह है कि Google नए साइटमैप का उपयोग कर रहा है, लेकिन यह अभी भी पुराने रोबोट नियम (जो कि सब कुछ को सीमित रखता है) के द्वारा जा रहा है , 44 URL में से कोई भी नहीं है ( /wp-admin/या /wp-includes/जो किसी भी तरह का असंभव है, क्योंकि robots.txt पर बनाया गया है उसी प्लगइन द्वारा उड़ान भरें जो साइटमैप बनाता है)।

अपडेट 2:

यह बदतर हो जाता है: Google खोज परिणाम पृष्ठ पर, मुखपृष्ठ के लिए विवरण पढ़ता है: "इस परिणाम का वर्णन इस साइट के robots.txt के कारण उपलब्ध नहीं है - अधिक जानें"। अन्य सभी पृष्ठों में ठीक वर्णन है। वहाँ कोई robots.txt या रोबोट मेटा मुखपृष्ठ के अनुक्रमण को अवरुद्ध करता है।

मैं फँस गया हूँ।

google-search-console robots.txt web-crawlers

— गैया
स्रोत

Google वेबमास्टर टूल्स> हेल्थ> ब्लॉक किए गए URL में, आप तुरंत परीक्षण कर सकते हैं कि क्या आपके robots.txt आपके साइटमैप URL (या कोई अन्य URL जिसे आप परीक्षण करना चाहते हैं) को अवरुद्ध कर देंगे। ऐसा नहीं लगता है कि आपके वर्तमान robots.txt को आपके साइटमैप को ब्लॉक करना चाहिए, लेकिन आप कहते हैं कि यह अपडेट कर दिया गया है। क्या आपके robots.txt फ़ाइल के पिछले संस्करण ने इसे ब्लॉक कर दिया है?

— Mrhhite

हां, पिछले संस्करण ने ब्लॉक किया था। मुझे लगता है कि google ने अभी अभी अपना कैश अपडेट नहीं किया है ...

— Gaia

मुझे भी ठीक यही समस्या है। मेरा robots.txt कैश इस वर्ष 23 अप्रैल से है, आज 25 अप्रैल है और कैश अभी भी पुराना है। मेरे पास प्रतीक्षा के लिए समय नहीं है, मुझे अपनी साइट को अब (यह व्यवसाय साइट है) अनुक्रमित करने के लिए googleboot करने की आवश्यकता है, लेकिन ऐसा लगता है कि मैं कुछ नहीं कर सकता, बस यह जानने की प्रतीक्षा नहीं करना चाहिए कि कितनी देर है। यह कितना निराशाजनक है!

जवाबों:

ऐसा लगता है कि Google ने अभी तक यह अपडेट नहीं किया है कि यह आपके robots.txt फ़ाइल का कैश है। आपकी वर्तमान robots.txt फ़ाइल (ऊपर) नहीं दिखती है जैसे कि उसे आपके साइटमैप URL को अवरुद्ध करना चाहिए।

मुझे लगता है कि Google ने अभी तक अपने कैश को अपडेट नहीं किया है।

अनुमान लगाने की कोई जरूरत नहीं है। "स्वास्थ्य"> "अवरुद्ध URL" के तहत Google वेबमास्टर टूल (GWT) में, आप देख सकते हैं कि आपका robots.txt अंतिम बार कब डाउनलोड किया गया था और क्या यह सफल था। यह आपको यह भी बताएगा कि robots.txt फ़ाइल द्वारा कितने URL ब्लॉक किए गए हैं।

Google वेबमास्टर टूल्स में robots.txt संदर्भ

जैसा कि मेरी टिप्पणियों में बताया गया है, GWT में एक robots.txt चेकर टूल ("स्वास्थ्य"> "अवरुद्ध URL") है। तो आप तुरंत अपने robots.txt में बदलावों का परीक्षण कर सकते हैं (अपनी वास्तविक फ़ाइल को बदले बिना)। ऊपरी टेक्सटारिया में रोबोट्सटेक्स्ट फ़ाइल निर्दिष्ट करें और जिन यूआरएल को आप निम्न टेक्स्टारिया में परीक्षण करना चाहते हैं और यह आपको बताएगा कि वे अवरुद्ध होंगे या नहीं।

Robots.txt का कैशिंग

एक robots.txt अनुरोध को आमतौर पर एक दिन के लिए कैश किया जाता है, लेकिन उन स्थितियों में लंबे समय तक कैश किया जा सकता है जहां कैश किए गए संस्करण को रीफ्रेश करना संभव नहीं है (उदाहरण के लिए, टाइमआउट या 5xx त्रुटियों के कारण)। कैश्ड प्रतिक्रिया को विभिन्न क्रॉलर द्वारा साझा किया जा सकता है। Google अधिकतम आयु वाले कैश-कंट्रोल HTTP हेडर के आधार पर कैश जीवनकाल बढ़ा या घटा सकता है।

स्रोत: Google डेवलपर्स - Robots.txt विनिर्देशों

— मिस्टर वाइट
स्रोत

24 घंटे बाद भी क्या ऐसा हो सकता है ??

— गैया

वेबमास्टर टूल्स में रिपोर्ट की गई "डाउनलोड की गई तारीख" क्या है? यह आपको बताएगा कि क्या यह अभी भी मामला है । जैसा कि ऊपर स्क्रीनशॉट (मेरी साइटों में से एक) में दिखाया गया है, robots.txt फ़ाइल को आखिरी बार "सितंबर 3, 2012" (3 दिन पहले) पर डाउनलोड किया गया था। लेकिन मेरे मामले में फ़ाइल को फिर से डाउनलोड करने की कोई आवश्यकता नहीं है क्योंकि कुछ भी नहीं बदला है (अंतिम-संशोधित हेडर समान होना चाहिए)। Google आपकी robots.txt फ़ाइल को कितनी बार प्राप्त करता है, यह आपके सर्वर द्वारा निर्धारित समय सीमा और अंतिम-संशोधित हेडर पर निर्भर करेगा।

— Mrhhite

22 घंटे पहले डाउनलोड किया गया था, और समय सीमा समाप्त हो गई है कहते हैं कि प्रातः ५:२ बजे। मैं कुछ घंटों में फिर से कोशिश करूँगा इसे हल किया जाना चाहिए!

— गैया

ऐसा नहीं किया। Google नए साइटमैप का उपयोग कर रहा है, लेकिन यह अभी भी पुराने robots.txt नियम से चल रहा है (जिसमें सब कुछ सीमित है)

— Gaia

"ऐसा नहीं किया" - क्या Google ने अभी तक अपडेट नहीं किया है यह आपके robots.txt फ़ाइल का कैश है? हालाँकि आप कहते हैं कि आपने फ़ाइल को 36+ घंटे पहले बदल दिया था और यह 22 घंटे पहले डाउनलोड होने की सूचना थी !? जब आप अपने robots.txt फ़ाइल के लिंक पर क्लिक करते हैं तो आप क्या देखते हैं?

— Mrhhite

मेरी साइट के साथ भी यही समस्या थी क्योंकि WP स्थापित करने के दौरान मैं खोज इंजन या उसी विकल्प से ट्रैक नहीं करता हूं।

इस समस्या को हल करने के लिए:

वेबमास्टर टूल्स पर जाएं क्रॉल यूआरएल निकालें और www.example.com/robots.txtइस विकल्प के साथ अपना सबमिट करें -> परिवर्तन सामग्री के लिए कैश से निकालें या ...
एक मिनट रुकिए
अपने साइटमैप URL को पुनः सबमिट करें
समाप्त

— मोहम्मद
स्रोत