क्या Google cache robots.txt करता है?


17

मैंने एक सप्ताह पहले अपनी एक साइट में एक robots.txt फ़ाइल जोड़ी , जिसमें Googlebot को कुछ URL प्राप्त करने का प्रयास करने से रोकना चाहिए था। हालाँकि, इस सप्ताहांत मैं Googlebot को उन सटीक URL को लोड करते हुए देख सकता हूँ।

क्या Google कैशे robots.txt और, यदि ऐसा है, तो क्या यह होना चाहिए?

जवाबों:


13

मैं Google खोज कंसोल (पहले Google वेबमास्टर टूल) के साथ आपकी साइट को पंजीकृत करने की जोरदार सिफारिश करूंगा । साइट कॉन्फ़िगरेशन के तहत क्रॉलर एक्सेस सेक्शन है जो आपको बताएगा कि आपका robots.txt अंतिम बार कब डाउनलोड किया गया था। टूल यह भी बहुत विस्तार प्रदान करता है कि क्रॉलर आपकी साइट को कैसे देख रहे हैं, क्या अवरुद्ध है या क्या काम नहीं कर रहा है, और आप Google पर प्रश्नों में कहां दिखाई दे रहे हैं।

मैं जो बता सकता हूं, Google अक्सर robots.txt को डाउनलोड करता है । Google खोज कंसोल साइट आपको विशेष रूप से URL को अनुक्रमणिका से निकालने देगी, ताकि आप उन लोगों को हटा सकें जिन्हें अब आप अवरुद्ध कर रहे हैं।


2
मैंने वेबमास्टर टूल की जाँच की: robots.txt फ़ाइल वैध है और यह हाल ही में googlebot के उन पृष्ठों पर सबसे हाल की यात्रा से 17 घंटे पहले लाया गया था। मुझे संदेह है कि यह Google के नेटवर्क के माध्यम से प्रचार का सवाल है - अंततः सभी googlebot सर्वर robots.txt निर्देशों के साथ पकड़ लेंगे।
Quog

Google बॉट, रोबोट्स का उपयोग नहीं कर रहा है। मुझे अपडेट किए चार हफ्ते हो चुके हैं, और Google bot अभी भी एक ख़राब रोबॉट्स का उपयोग करता है। यह - और यह हमारे ट्रैफ़िक और रैंकिंग को नष्ट कर देता है।
कॉर्पोरेट Geek

3

दृढ़ रहें। मैं robots.txt से मेटा नोइंडेक्स, नोफ़्लो की ओर बदल गया। मेटा काम करने के लिए robots.txt में अवरुद्ध पतों को पहले अनब्लॉक करना पड़ा।

मैंने रोबोटों को पूरी तरह से हटाकर (और Google के वेबमास्टर में इसे डिलीवर करके) क्रूरता से किया।

Web.txt हटाने की प्रक्रिया जैसा कि वेबमास्टर टूल (ब्लॉक किए गए पेजों की संख्या) में देखा गया है, पूरा होने में 10 सप्ताह का समय लगा, जिनमें से केवल पिछले 2 हफ्तों के दौरान Google द्वारा बल्क को हटा दिया गया था।


मैं आप के साथ सहमत हूँ। हमने एक गलती की और गलत तरीके से robots.txt फ़ाइल को अपडेट किया। Google ने इसे कैश किया, और हमने गलती को ठीक करने के चार सप्ताह बाद इसका उपयोग किया, और इसे एक नए robots.txt के साथ बदल दिया। मैंने स्वयं भी Google वेबमास्टर टूल्स और ... कुछ भी नहीं में एक ताज़ा अनुरोध प्रस्तुत किया था। यह वास्तव में खराब है क्योंकि इसके परिणामस्वरूप यातायात और रैंकिंग खो गई है। :(
कॉर्पोरेट गीक

2

हां, Google स्पष्ट रूप से robots.txt को एक हद तक कैश करेगा - यह किसी पृष्ठ को देखने के लिए हर बार इसे डाउनलोड नहीं करेगा। यह कब तक के लिए इसे कैश करता है, मुझे नहीं पता। हालाँकि, यदि आपके पास एक लंबा समय सीमा समाप्त हैडर सेट है, तो Googlebot फ़ाइल को चेक करने के लिए अधिक समय तक छोड़ सकता है।

एक और समस्या एक गलत फाइल हो सकती है। वेनिवॉइच का सुझाव देने वाले वेबमास्टर टूल में एक robots.txt चेकर है। यह आपको बताएगा कि किस प्रकार के पृष्ठ अवरुद्ध हैं और कौन से ठीक हैं।


इस उत्तर पर टिप्पणी देखें webmasters.stackexchange.com/questions/2272/…
Quog

2
@Quog: यह हालिया वीडियो देखें: youtube.com/watch?v=I2giR-WKUfY मैट कट्स का सुझाव है कि robots.txt दिन में एक बार या हर 100 अनुरोधों के बारे में एक बार डाउनलोड किया जाता है।
असंतुष्टगीत

2

Google के दस्तावेज़ीकरण में कहा गया है कि वे आमतौर पर एक दिन के लिए robots.txt को कैश कर देंगे , लेकिन यदि इसे रीफ्रेश करने की कोशिश करते समय त्रुटि मिलती है, तो इसका उपयोग अधिक समय तक कर सकते हैं।

एक robots.txt अनुरोध को आमतौर पर एक दिन के लिए कैश किया जाता है, लेकिन उन स्थितियों में अधिक समय तक कैश किया जा सकता है जहां कैश किए गए संस्करण को रिफ्रेश करना संभव नहीं है (उदाहरण के लिए, टाइमआउट या 5xx त्रुटियों के कारण)। कैश्ड प्रतिक्रिया को विभिन्न क्रॉलर द्वारा साझा किया जा सकता है। Google अधिकतम आयु वाले कैश-कंट्रोल HTTP हेडर के आधार पर कैश जीवनकाल बढ़ा या घटा सकता है।


1

हाँ। वे कहते हैं कि वे आम तौर पर दिन में एक बार इसे अपडेट करते हैं, लेकिन कुछ ने सुझाव दिया है कि वे एक निश्चित संख्या में पेज हिट (100?) के बाद भी इसकी जांच कर सकते हैं, इसलिए व्यस्त साइटों को अधिक बार जांचा जाता है।

Https://webmasters.stackexchange.com/a/29946 और उस वीडियो को देखें जो @DisgruntedGoat ने http://youtube.com/watch?v=I2giR-WKUfY के ऊपर साझा किया है ।


1

मैं उपयोगकर्ता के सुलभ कैश पर जो कुछ देख सकता हूं, उसमें से आपको क्या करना है: अपनी robots.txt फ़ाइल का URL Google खोज में टाइप करें और फिर हरे रंग की ड्रॉपडाउन तीर पर क्लिक करें और 'कैश्ड' पर क्लिक करें (नीचे चित्र देखें) यह आपको Googles सर्वर से उस पृष्ठ का नवीनतम संस्करण देगा।

यहां छवि विवरण दर्ज करें


-2

आप Google के URL निष्कासन उपकरण का उपयोग करके इसके हटाने का अनुरोध कर सकते हैं ।


इस सवाल का जवाब नहीं है।
MrWhite

जवाब क्यों नहीं?
KOZASHI SOUZA

क्योंकि सवाल विशेष रूप से robots.txt, URL के कैशिंग और क्रॉलिंग के बारे में है । इसका एक परिणाम यह हो सकता है कि URL अनुक्रमित नहीं हैं, लेकिन यह प्रश्न नहीं है। (Google का URL निष्कासन उपकरण भी केवल एक "टेम्पोरी" फिक्स है, इसे स्थायी बनाने के लिए आपको कुछ अन्य कदम उठाने होंगे।)
MrWhite
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.