मेरी साइट पर कुछ पृष्ठ हैं जिन्हें मैं खोज इंजनों से दूर रखना चाहता हूं, इसलिए मैंने उन्हें अपनी robots.txt
फ़ाइल में इस तरह से अस्वीकृत कर दिया :
User-Agent: *
Disallow: /email
फिर भी मैंने हाल ही में देखा कि Google अब भी कभी-कभी उन पृष्ठों के लिंक अपने खोज परिणामों में देता है। ऐसा क्यों होता है, और मैं इसे कैसे रोक सकता हूं?
पृष्ठभूमि:
कई साल पहले, मैंने एक क्लब के लिए एक साधारण वेब साइट बनाई थी, जिसमें मेरा एक रिश्तेदार शामिल था। वे अपने पृष्ठों पर ई-मेल लिंक चाहते थे, इसलिए, उन ई-मेल पतों को बहुत अधिक होने से रोकने के लिए प्रयास करना और रखना स्पैम सूचियाँ, प्रत्यक्ष mailto:
लिंक का उपयोग करने के बजाय मैंने उन लिंक्स को एक सरल पुनर्निर्देशक / एड्रेस हारवेस्टर ट्रैप स्क्रिप्ट के रूप में इंगित किया जो मेरी अपनी साइट पर चल रही है। यह स्क्रिप्ट वास्तविक mailto:
URL पर 301 रीडायरेक्ट पर वापस आ जाएगी , या यदि यह एक संदिग्ध एक्सेस पैटर्न का पता लगाता है, तो ऐसा पेज जिसमें बहुत सारे यादृच्छिक नकली ई-मेल पते और अधिक ऐसे पेजों के लिंक होते हैं। वैध खोज बॉट्स को जाल से दूर रखने के लिए, मैंने robots.txt
ऊपर दिखाए गए नियम की स्थापना की , दोनों वैध पुनर्निर्देशक लिंक और ट्रैप पेजों के पूरे स्थान को बंद कर दिया।
अभी हाल ही में, हालांकि, क्लब के लोगों में से एक ने अपने नाम के लिए Google की खोज की और काफी आश्चर्यचकित हुआ जब पहले पृष्ठ पर एक परिणाम पुनर्निर्देशक स्क्रिप्ट का लिंक था, जिसके शीर्षक के साथ उनका ई-मेल पता था। द्वारा मेरे नाम। बेशक, उन्होंने तुरंत मुझे ई-मेल किया और जानना चाहा कि उनका पता Google के सूचकांक से कैसे निकाला जाए। मैं काफी हैरान था, क्योंकि मुझे नहीं पता था कि Google ऐसे URL को बिल्कुल भी अनुक्रमित करेगा, जो कि मेरे robots.txt
नियम का उल्लंघन करते हुए प्रतीत होता है ।
मैंने Google को निष्कासन अनुरोध सबमिट करने का प्रबंधन किया था, और ऐसा लगता है कि उसने काम किया है, लेकिन मैं यह जानना चाहूंगा कि क्यों और कैसे Google मेरी robots.txt
तरह से इसको दरकिनार कर रहा है और यह सुनिश्चित करने के लिए कि कोई भी अस्वीकृत पृष्ठ उनके सामने प्रदर्शित नहीं होगा। खोज परिणाम।
Ps। मुझे वास्तव में एक संभावित स्पष्टीकरण और समाधान का पता चला, जिसे मैं इस प्रश्न को तैयार करते समय नीचे पोस्ट करूंगा, लेकिन मैंने सोचा कि मैं इसे वैसे भी पूछूंगा जब किसी और की समस्या हो सकती है। कृपया अपने स्वयं के उत्तर पोस्ट करने के लिए स्वतंत्र महसूस करें। मुझे यह जानने में भी दिलचस्पी होगी कि क्या अन्य खोज इंजन भी ऐसा करते हैं, और क्या वही समाधान उनके लिए भी काम करते हैं।
robots.txt
फ़ाइल किसी की सड़क के बगल में एक छोटी सी "अनधिकार" साइन की तरह है। यह जादू नहीं है, और (जब तक कि कोई आगंतुक स्पष्ट रूप से इसकी तलाश नहीं करता है) वे आपके अस्तित्व पर थोड़ा प्रभावित हुए बिना भी आपकी संपत्ति पर भटक सकते हैं। फ्लडलाइट्स और रेजरवायर बाड़ के इंटरनेट समकक्ष हैं, लेकिन अगर आप जो चाहते हैं, तोrobots.txt
वह नहीं है।