Google खोज परिणामों में robots.txt में अस्वीकृत पृष्ठ शामिल हैं?


18

मेरी साइट पर कुछ पृष्ठ हैं जिन्हें मैं खोज इंजनों से दूर रखना चाहता हूं, इसलिए मैंने उन्हें अपनी robots.txtफ़ाइल में इस तरह से अस्वीकृत कर दिया :

User-Agent: *
Disallow: /email

फिर भी मैंने हाल ही में देखा कि Google अब भी कभी-कभी उन पृष्ठों के लिंक अपने खोज परिणामों में देता है। ऐसा क्यों होता है, और मैं इसे कैसे रोक सकता हूं?

पृष्ठभूमि:

कई साल पहले, मैंने एक क्लब के लिए एक साधारण वेब साइट बनाई थी, जिसमें मेरा एक रिश्तेदार शामिल था। वे अपने पृष्ठों पर ई-मेल लिंक चाहते थे, इसलिए, उन ई-मेल पतों को बहुत अधिक होने से रोकने के लिए प्रयास करना और रखना स्पैम सूचियाँ, प्रत्यक्ष mailto:लिंक का उपयोग करने के बजाय मैंने उन लिंक्स को एक सरल पुनर्निर्देशक / एड्रेस हारवेस्टर ट्रैप स्क्रिप्ट के रूप में इंगित किया जो मेरी अपनी साइट पर चल रही है। यह स्क्रिप्ट वास्तविक mailto:URL पर 301 रीडायरेक्ट पर वापस आ जाएगी , या यदि यह एक संदिग्ध एक्सेस पैटर्न का पता लगाता है, तो ऐसा पेज जिसमें बहुत सारे यादृच्छिक नकली ई-मेल पते और अधिक ऐसे पेजों के लिंक होते हैं। वैध खोज बॉट्स को जाल से दूर रखने के लिए, मैंने robots.txtऊपर दिखाए गए नियम की स्थापना की , दोनों वैध पुनर्निर्देशक लिंक और ट्रैप पेजों के पूरे स्थान को बंद कर दिया।

अभी हाल ही में, हालांकि, क्लब के लोगों में से एक ने अपने नाम के लिए Google की खोज की और काफी आश्चर्यचकित हुआ जब पहले पृष्ठ पर एक परिणाम पुनर्निर्देशक स्क्रिप्ट का लिंक था, जिसके शीर्षक के साथ उनका ई-मेल पता था। द्वारा मेरे नाम। बेशक, उन्होंने तुरंत मुझे ई-मेल किया और जानना चाहा कि उनका पता Google के सूचकांक से कैसे निकाला जाए। मैं काफी हैरान था, क्योंकि मुझे नहीं पता था कि Google ऐसे URL को बिल्कुल भी अनुक्रमित करेगा, जो कि मेरे robots.txtनियम का उल्लंघन करते हुए प्रतीत होता है ।

मैंने Google को निष्कासन अनुरोध सबमिट करने का प्रबंधन किया था, और ऐसा लगता है कि उसने काम किया है, लेकिन मैं यह जानना चाहूंगा कि क्यों और कैसे Google मेरी robots.txtतरह से इसको दरकिनार कर रहा है और यह सुनिश्चित करने के लिए कि कोई भी अस्वीकृत पृष्ठ उनके सामने प्रदर्शित नहीं होगा। खोज परिणाम।

Ps। मुझे वास्तव में एक संभावित स्पष्टीकरण और समाधान का पता चला, जिसे मैं इस प्रश्न को तैयार करते समय नीचे पोस्ट करूंगा, लेकिन मैंने सोचा कि मैं इसे वैसे भी पूछूंगा जब किसी और की समस्या हो सकती है। कृपया अपने स्वयं के उत्तर पोस्ट करने के लिए स्वतंत्र महसूस करें। मुझे यह जानने में भी दिलचस्पी होगी कि क्या अन्य खोज इंजन भी ऐसा करते हैं, और क्या वही समाधान उनके लिए भी काम करते हैं।


1
"और Google मेरे रोबॉट्स को कैसे दरकिनार कर रहा है।" robots.txtफ़ाइल किसी की सड़क के बगल में एक छोटी सी "अनधिकार" साइन की तरह है। यह जादू नहीं है, और (जब तक कि कोई आगंतुक स्पष्ट रूप से इसकी तलाश नहीं करता है) वे आपके अस्तित्व पर थोड़ा प्रभावित हुए बिना भी आपकी संपत्ति पर भटक सकते हैं। फ्लडलाइट्स और रेजरवायर बाड़ के इंटरनेट समकक्ष हैं, लेकिन अगर आप जो चाहते हैं, तो robots.txtवह नहीं है।
पार्थियन शॉट

जवाबों:


25

ऐसा लगता है कि Google ने जानबूझकर URL robots.txtको अपने अनुक्रमणिका में अस्वीकृत कर दिया है यदि अन्य URL से उन URL के लिंक हैं जो उन्होंने क्रॉल किए हैं। उनके वेबमास्टर उपकरण मदद पृष्ठों को उद्धृत करने के लिए :

"हालांकि Google robots.txt द्वारा अवरुद्ध पृष्ठों की सामग्री को क्रॉल या अनुक्रमणित नहीं करेगा, अगर हम उन्हें वेब पर अन्य पृष्ठों पर पाते हैं तो भी हम URLs को अनुक्रमित कर सकते हैं। परिणामस्वरूप, पृष्ठ का URL और, संभवतः, अन्य। सार्वजनिक रूप से उपलब्ध जानकारी जैसे कि साइट के लिंक में लंगर पाठ, या ओपन डायरेक्टरी प्रोजेक्ट (www.dmoz.org) से शीर्षक, Google खोज परिणामों में दिखाई दे सकता है। "

जाहिर है, Google पृष्ठ को क्रॉल करने के खिलाफ निषेध के रूप Disallowमें एक निर्देश की व्याख्या करता है , न कि इसे अनुक्रमणित करने के विरुद्ध । मुझे लगता है कि यह तकनीकी रूप से एक मान्य व्याख्या है, भले ही यह मेरे लिए कानून के नियमों का हनन करता हो।robots.txt

में इस साक्षात्कार लेख , गूगल से मैट कट्स में थोड़ा और अधिक पृष्ठभूमि देता है और यही कारण है कि वे ऐसा करने के लिए एक उचित लगने विवरण प्रदान करता है:

"शुरुआती दिनों में, बहुत लोकप्रिय वेबसाइटें बिल्कुल भी क्रॉल नहीं होना चाहती थीं। उदाहरण के लिए, ईबे और न्यूयॉर्क टाइम्स ने किसी भी खोज इंजन, या कम से कम Google को इससे किसी भी पेज को क्रॉल करने की अनुमति नहीं दी।" लाइब्रेरी ऑफ कांग्रेस में विभिन्न खंड थे, जिनमें कहा गया था कि आपको किसी खोज इंजन के साथ क्रॉल करने की अनुमति नहीं है। और इसलिए, जब कोई व्यक्ति Google पर आया और उन्होंने ईबे में टाइप किया, और हमने ईबे को क्रॉल नहीं किया, और हम ईबे को वापस नहीं कर सके, हम उप-प्रकार का देखा गया। इसलिए, हमने जो समझौता करने का फैसला किया था, हम आपको robots.txt से क्रॉल नहीं करेंगे, लेकिन हम उस URL संदर्भ को वापस कर सकते हैं जिसे हमने देखा था। "

उन दोनों पृष्ठों पर अनुशंसित समाधान उन पृष्ठों में noindexमेटा टैग जोड़ने के लिए है जिन्हें आप अनुक्रमित नहीं करना चाहते हैं। ( X-Robots-TagHTTP हेडर को गैर-एचटीएमएल पृष्ठों के लिए भी काम करना चाहिए। मुझे यकीन नहीं है कि यह रीडायरेक्ट पर काम करता है, हालांकि।) विरोधाभासी रूप से, इसका मतलब है कि आपको Googlebot को उन पृष्ठों को क्रॉल करने की अनुमति देनी होगी (या तो उन्हें robots.txtपूरी तरह से हटाकर , या Googlebot के लिए नियमों का एक अलग, अधिक अनुमेय सेट जोड़कर), अन्यथा यह पहली बार में मेटा टैग नहीं देख सकता है।

मैंने मेटा टैग और X-Robots-Tagहेडर दोनों को वैल्यू के साथ भेजने के लिए अपनी रीडायरेक्ट / स्पाइडर ट्रैप स्क्रिप्ट को एडिट किया है noindex,nofollowऔर Googlebot को स्क्रिप्ट के URL को क्रॉल करने की अनुमति दी है robots.txt। Google द्वारा मेरी साइट को एक बार फिर से अनुक्रमित करने पर हम देखेंगे कि क्या यह काम करता है।


5

यह सच है कि जब तक यह Google (और अच्छे बॉट्स) को इन पेजों को क्रॉल करने और उनकी सामग्री को पढ़ने से रोकना चाहिए, तब भी वे SERPs में केवल URL को लिंक दिखा सकते हैं यदि वे फॉर्म से जुड़े हों, तो:

URL केवल Google SERPs में लिंक करता है

जैसा कि आप देख सकते हैं, कोई शीर्षक या विवरण नहीं है, यह शाब्दिक रूप से सिर्फ URL है। स्वाभाविक रूप से इस प्रकार के परिणाम आमतौर पर SERPs से छोड़े जाते हैं, जब तक कि आप स्पष्ट रूप से उनके लिए खोज नहीं करते हैं।

और जैसा कि आप अपने उत्तर में उल्लेख करते हैं, यदि आप नहीं चाहते हैं कि URL SERPs में बिल्कुल भी दिखाई न दे, तो आपको रोबोट की अनुमति देने की आवश्यकता है, लेकिन एक noindex मेटा टैग शामिल करें।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.