डोमेन द्वारा अस्वीकार किए गए रोबोट अभी भी खोज परिणामों में सूचीबद्ध हैं


9

इसलिए, हमारी उन सभी साइटों पर जो खोज का सामना नहीं कर रही हैं, हमने एक robots.txt फ़ाइल (प्रति वेबसाइट को वास्तविक समय के Google खोज परिणामों से या किसी अन्य प्रश्न से कैसे बाहर रखा जाए ) लागू किया है।

हालाँकि, यदि खोज शब्द पर्याप्त विशिष्ट हैं, तो डोमेन को परिणामों के माध्यम से ही पाया जा सकता है। इसका एक उदाहरण यहां पाया जा सकता है । जैसा कि आप लिंक से देख सकते हैं, डोमेन स्वयं पाया जा सकता है (सामग्री कैश नहीं की गई है, लेकिन डोमेन सूचीबद्ध है)। इसके अतिरिक्त, site:hyundaidigitalmarketing.com3 परिणामों के साथ एक खोज करना। बैकलिंक्स की जाँच करने के साथ ही कुछ प्रदान करता है, लेकिन मैं स्पष्ट रूप से उन्हें नहीं रोक सकता (लिंकिंग को संदर्भ में अनुमति दी गई है) या नियंत्रित करें कि ये कैसे नियंत्रित किए जाते हैं (होस्ट को nofollow, noindex जोड़ने के लिए नहीं कह सकते हैं)।

अब, मुझे पता है कि यह एक गंभीर मामला है, हालांकि मेरी कंपनियों के ग्राहक ऐसा कर रहे हैं। वास्तव में, हमारे डोमेन बहुत अच्छे हैं, इसलिए भी प्रतीत होता है कि मनमाने ढंग से खोज प्रासंगिक परिणाम बदल रहे हैं। अब, मुझे इस बारे में एक रिपोर्ट लिखनी है कि यह कैसे / क्यों हो रहा है।

तो, मैं अद्भुत स्टैक एक्सचेंज नेटवर्क की ओर मुड़ता हूं ताकि मुझे यह समझने में मदद मिल सके कि मैं क्या याद कर रहा हूं या समझ रहा हूं कि क्या हो रहा है। उद्योग लेखों के लिंक बेहद मददगार हैं लेकिन, आप जो कुछ भी दे सकते हैं वह स्पष्ट रूप से महान है। मैं भविष्य में मुड़ने के लिए इसका उत्तर देने के लिए सबसे अच्छा इनाम देने का इरादा रखता हूं।

संपादित करें: मैंने इस प्रश्न पर इस पर कुछ और प्रतिक्रियाएँ प्राप्त करने के लिए एक इनाम खोला है। मैंने नीचे अपने स्वयं के शोध के परिणाम भी दिए हैं।

जवाबों:


5

मुझे इस जानकारी के स्रोत की तलाश में जाना होगा लेकिन जाहिरा तौर पर robots.txt जरूरी नहीं कि किसी पृष्ठ को अनुक्रमित होने से रोके। लेकिन HTTP एक्स-रोबोट-टैग हेडर स्पष्ट रूप से काम करता है।

यदि आप Apache का उपयोग कर रहे हैं तो आप .htaccess फ़ाइल में इस लाइन का उपयोग करके बल्क में पेजों को ब्लॉक कर सकते हैं:

Header set x-robots-tag: noindex

कोशिश करो कि देखो और क्या होता है।

संपादित करें

( एक स्रोत मिला । मुझे याद नहीं है लेकिन यह काम करता है)।


नमस्कार, और उत्तर के लिए धन्यवाद। ऊपर दिए गए उदाहरण के रूप में उपयोग की गई साइट के HTML आउटपुट में पहले से लागू रोबोट मेटा टैग से यह कैसे भिन्न होता है? जहाँ तक मैं बता सकता हूँ यह सिर्फ एक प्रतिस्थापन के रूप में कार्य करता है इसलिए आपको इसे हर पृष्ठ पर डालने की आवश्यकता नहीं है।
केविन पेनो

@ केविन, वे प्रभावशीलता के मामले में समान होना चाहिए। यह आसान होगा जैसे आपने कहा।
जॉन कोंडे

4

मुझे लगता है कि मैट कट्स ने इस बारे में बात की। अगर मेरी मेमोरी सही है तो इसे लिंकिंग के साथ करना था। यहाँ और अधिक है: http://www.google.com/support/forum/p/Webmasters/thread?tid=2720810fa226e9c8&hl=en

आप उन्हें Google निष्कासन उपकरण से निकाल सकते हैं।


आप उन सभी को साइट: gmpackageguide.com के साथ देख सकते हैं। बहुत से URL नहीं हैं। मुझे लगता है कि वे रोबोट को हटाने से पहले सूचकांक में थे। मैं बस उन्हें हटा दूंगा।
जो

भविष्य में, मैं वेब डिज़ाइन लोगों को यह निर्देश दूंगा कि वे हमेशा बिना किसी इंडेक्स, वेब पेज हेड सेक्शन के कोई अनुसरण न करें। मुझे संदेह है कि आप जिस CMS का उपयोग कर रहे हैं, वह कर सकता है।
जो

@ जो - सहमत हैं, लेकिन अनुशंसा करेंगे noindex, followकि कोई भी पेजरेंक बैक-लिंक से वितरित हो।
माइक हडसन

@ जो और @ माइक, जानकारी के लिए धन्यवाद। हालाँकि, साइट लें: hyundaidigitalmarketing.com। मैंने एक साल पहले खुद इस साइट को लॉन्च किया था। इसमें एक robots.txt फ़ाइल और मेटा हेडर दोनों शामिल हैं। हालाँकि, जैसा कि आप प्रपत्र के साथ site:hyundaidigitalmarketing.comया शर्तों के लिए Google पर खोज प्रदर्शन करते हुए देख सकते हैं hyundai digital marketing, डोमेन स्वयं पहले और सर्वोत्तम परिणाम के रूप में प्रदर्शित होता रहेगा। मुझे इसे रोकने की जरूरत है।
केविन पेनो

इसके अलावा, एक खोज के लिए links:hyundaidigitalmarketing.comलिंक वापस दिखाता है। मैं स्पष्ट रूप से स्वरूपण बैकलिंक्स को रोक या नियंत्रित नहीं कर सकता और वे मान्य हो सकते हैं। यदि साइट को लिंक करने का यह कारण है तो मुझे यह समझने की आवश्यकता है कि मैं अपने वरिष्ठों को कैसे / क्यों समझा सकता हूं। मुझे उम्मीद है कि यह मेरे सवाल को थोड़ा बेहतर बताता है।
केविन पेनो

3

विषय में अपने शोध के आधार पर, मैंने पाया है कि डेटा के अनुक्रमण और कैशिंग को रोकने के लिए कोई 100% ग्वारेंटेड तरीका नहीं है, लेकिन आप बहुत नज़दीक आ सकते हैं (यह मानते हुए कि आप बढ़े हुए बॉट ट्रैफ़िक से निपटना चाहते हैं)। यहां मैंने जानकारी की व्याख्या कैसे की है।

किसी को लगता है कि robots.txt फ़ाइल का उपयोग रोबोट सूचना साइट को विस्तृत करने के लिए किया जाता है और पृष्ठ विशिष्ट विवरण के लिए मेटा टैग का उपयोग किया जाता है। मुझे लगता है कि 2 के पीछे की भावना बिल्कुल यही है लेकिन व्यवहार में ऐसा नहीं है।

एक robots.txt फ़ाइल न बनाएँ

यह सभी प्रमुख खोज प्रदाताओं के साथ सामग्री को SERP पर प्रदर्शित होने से रोकने के लिए काम करता है , लेकिन अनुक्रमण को नहीं रोकता है । यह बोट्स को आपके पृष्ठों को क्रॉल करने से भी रोकता है इसलिए किसी भी रोबोट मेटा टैग (नीचे देखें) को भी अनदेखा किया जाता है। इसके कारण आप 2 का एक साथ उपयोग नहीं कर सकते हैं और यही कारण है कि, यदि आप अनुक्रमण को रोकना चाहते हैं, तो आपको robots.txt फ़ाइल का उपयोग नहीं करना चाहिए।

साइड नोट: Google Noindex: /robots.txt के उपयोग का समर्थन करता है , लेकिन यह अनिर्दिष्ट है (जो जानता है कि यह कब टूट जाएगा) और अज्ञात है कि क्या यह किसी और के लिए काम करता है।

सब कुछ को रोकने के लिए HTTP हेडर या HTML मेटा टैग का उपयोग करें

Robots.txt फ़ाइल के विपरीत, रोबोट मेटा टैग (और HTTP हैडर) व्यापक रूप से समर्थित है और, आश्चर्यजनक रूप से, समृद्ध सुविधा है। इसे प्रत्येक पेज पर सेट करने के लिए डिज़ाइन किया गया है, लेकिन हाल ही में X-Robots-Tagहेडर को अपनाने से साइट-वाइड सेट करना आसान हो जाता है। इस विधि के साथ केवल नकारात्मक पक्ष यह है कि बॉट आपकी साइट को क्रॉल करेंगे। यह का उपयोग करके सीमित किया जा सकता है nofollow, लेकिन सभी बॉट truely सम्मान नहीं है nofollow

मुझे इसमें एक टन जानकारी मिली , पुरानी, ​​ब्लॉग पोस्ट । यह मूल रिलीज़ 2007 था लेकिन, क्योंकि इस पर बहुत सारी जानकारी तब से नई सुविधाएँ हैं, इसलिए यह नियमित रूप से अपडेट हो रहा है।

सारांश में, आपको एक HTTP शीर्ष लेख भेजना चाहिए X-Robots-Tag: noindex,nofollow,noodp,noydir। यहाँ क्यों का ब्रेक डाउन है:

  • nofollowअपनी साइट पर क्रॉल किए गए पृष्ठों की संख्या को सीमित करना चाहिए, जिससे बॉट ट्रैफ़िक नीचे रहे। * noindexइंजन को पेज को इंडेक्स नहीं करने के लिए कहता है।
  • अब, आप मान सकते हैं कि noindexपर्याप्त हो सकता है। हालाँकि, मैंने पाया है कि यदि आप कहते हैं कि noindexआपकी साइट को अन्य साइटों से लिंक करने के कारण अनुक्रमित किया जा सकता है। Y से आम साइट लिंक को रोकने का सबसे अच्छा तरीका! निर्देशिका ( noydir) और ओपन निर्देशिका ( noodp)।
  • HTTP हेडर का उपयोग करके फाइलों, छवियों और अन्य गैर-HTML फ़ाइलों में रोबोट डेटा भी लागू होता है! वाह!

यह 99% मामलों में काम करेगा। हालांकि ध्यान रखें कि कुछ प्रदाताओं द्वारा कुछ मामलों में अनुक्रमित होना अभी भी संभव है। Google पूरी तरह से सम्मान का दावा करता है noindex, लेकिन मुझे अपने संदेह हैं।

अंत में, यदि आप अनुक्रमित हो जाते हैं, या पहले से ही अनुक्रमित हो गए हैं, तो आपकी जानकारी को डी-इंडेक्स करने का एकमात्र तरीका है कि प्रत्येक प्रदाता से विभिन्न साधनों का पालन करके साइट / यूआरएल को हटाने का अनुरोध किया जाए। जाहिर है इसका मतलब है कि आप शायद Google अलर्ट (धन्यवाद @ जॉय) जैसी चीज़ों का उपयोग करके साइटों / पृष्ठों पर नज़र रखना चाहेंगे ।


3

मुझे लगता है कि आपका मूल मुद्दा साइट के लिए वापस लिंक है क्योंकि ये खोज इंजन को साइट के लिए एक प्रवेश बिंदु देते हैं और उन्हें इसके बारे में अवगत कराते हैं। इसलिए यद्यपि वे उस साइट के लिए विवरण प्रदर्शित नहीं करेंगे जो वे URL दिखा सकते हैं यदि वे परिणाम के लिए इसका सबसे अच्छा मिलान मानते हैं।

इस लेख को पढ़ने के लिए एक @joe से जुड़े पोस्ट करें: मैट कट्स ने Google को बाहर रखा

कुंजी बिट है:

इसके लिए एक बहुत अच्छा कारण है: जब मैंने 2000 में Google पर शुरुआत की थी, तो कई उपयोगी वेबसाइटों (ईबे, न्यूयॉर्क टाइम्स, कैलिफोर्निया डीएमवी) में robots.txt फाइलें थीं जो किसी भी पृष्ठ को मना करती थीं। अब मैं आपसे पूछता हूं कि जब कोई क्वेरी [कैलिफ़ोर्निया dmv] करता है तो हम खोज परिणाम के रूप में क्या करने वाले हैं? अगर हम www.dmv.ca.gov को पहले परिणाम के रूप में नहीं लौटाते हैं तो हम बहुत दुखी दिखेंगे। लेकिन याद रखें: हमें उस समय www.dmv.ca.gov से पेज लाने की अनुमति नहीं थी। इसका समाधान यह था कि जब हमें विश्वास हो कि यह सही कड़ी थी, तो हमें बिना किसी कड़ी के पता लगाना था। कभी-कभी हम ओपन डायरेक्टरी प्रोजेक्ट से एक विवरण भी खींच सकते हैं, ताकि हम पेज को लाए बिना भी उपयोगकर्ताओं को बहुत सारी जानकारी दे सकें।

आपने जो शोध किया है, वह चीजों को अच्छी तरह से शांत करता है और @ जों और @ जो के उत्तर दोनों प्रासंगिक हैं। मैंने नीचे एक लिंक शामिल किया है जो खोज इंजनों को अवरुद्ध करने पर कुछ और मार्गदर्शन देता है। जिस तरह से मैं साइट को पूरी तरह से ब्लॉक करने के बारे में सोच सकता हूं वह यह है कि साइट के सामने पासवर्ड सुरक्षा के कुछ प्रकार को जोड़ना होगा जो सामग्री प्रदर्शित होने से पहले पूरा करने की आवश्यकता है।

खोज में प्रदर्शित नहीं होने पर SEOMoz युक्तियाँ


चर्चा में जोड़ने के लिए धन्यवाद। रेंगने से रोकने के लिए पासवर्ड सुरक्षा अच्छी तरह से काम करती है, लेकिन अनुक्रमण को नहीं रोकती है। चूंकि robots.txt यह पासवर्ड सुरक्षा के लिए एकमात्र लाभ को रोकने में एक अच्छा काम करता है, इसलिए यह आंखों को ढूंढने से रोक देगा। दुर्भाग्य से, अधिकांश सामग्री "संरक्षित" होने के लिए पर्याप्त संवेदनशील नहीं है और निश्चित रूप से यह उपयोग करने वाले मुद्दों को चेतावनी नहीं देती है। [cont ...]
केविन पेनो

मुझे अपने शोध में सबसे अधिक सहायक एक सादृश्यता फोन की किताबों की तुलना में मिली। यदि खोज इंजन फोन की किताबें हैं, और आप सूचीबद्ध नहीं होने के लिए कहते हैं, तो आप सूचीबद्ध नहीं होने के लिए कह सकते हैं, कभी भी, और उन्हें इसका सम्मान करना चाहिए। दुर्भाग्य से, खोज इंजन उन कंपनियों के समान कार्य कर रहे हैं जो अन्य कंपनियां संपर्क बेचती हैं जो बदले में किसी को भी इसके लिए भुगतान करने / मांगने के लिए दिया जाता है।
केविन पेनो

@ केविन मुझे समझ में आ रहा है कि आप दुर्भाग्यवश कह रहे हैं कि मुझे नहीं लगता कि जिस तरह से सर्च इंजन काम कर रहे हैं उससे पूरी तरह से दूर होना संभव है, इस मामले में आप सिर्फ एक यूआरएल लिस्टिंग की उम्मीद कर सकते हैं।
मैथ्यू ब्रुक्स

ओह, मैं समझता हूं कि अब (पोस्ट-रिसर्च)। इसके अलावा, कृपया मेरी टिप्पणी को किसी भी नकारात्मक प्रकाश में आपके उत्तर के लिए न लें। मैं इस विषय में आपके अतिरिक्त योगदान देता हूं, मैं बस इस तरह के समाधान को लागू करने की विपक्ष में जोड़ने के लिए उत्तर दे रहा था, साथ ही मैं थोड़ा-सा विषय-विषय भोज जोड़ रहा हूं। : पी
केविन पेनो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.