साइट हैक की गई थी, Google से + से शुरू होने वाले सभी URL को हटाने की आवश्यकता है, robots.txt का उपयोग करें?

15

क्या आप कृपया मुझे बता सकते हैं कि robots.txtGoogle URL से अनुक्रमण को रोकने के लिए ऐसे URL को कैसे अवरुद्ध किया जाए ?

http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q

मेरी वेबसाइट हैक कर ली गई थी जो अब बरामद हो गई है लेकिन हैकर ने Google में 5000 URL को अनुक्रमित किया है और अब मुझे रैंडम जनरेट किए गए लिंक पर 404 त्रुटि मिलती है, जैसा कि ऊपर दिए गए लिंक से शुरू होता है /+।

मैं सोच रहा था कि क्या Google Webmaster Tools से इन URL को मैन्युअल रूप से हटाने के अलावा कोई त्वरित तरीका है?

क्या हम साइन इन robots.txtकरने वाले URL से इसे रोक सकते हैं +?

google-search robots.txt url-removal

— UNOR
स्रोत

2

+URL-पाथ में (प्लस) के बारे में कुछ खास नहीं है , यह किसी अन्य की तरह ही एक चरित्र है।

— श्रीमान

आप Apache को एक फ़ाइल या निर्देशिका में रीडायरेक्ट (.htaccess) में कर सकते हैं, जो robots.txt को रोबोटों के ओ.टी. एक्सेस के लिए मना करता है

— Mawg का कहना है कि मोनिका

@Mawg ऐसा करने का क्या मतलब है?

— अक्टूबर को MrWhite

अच्छी तरह से व्यवहार रोबोट बाहर रखने के लिए?

— मावग का कहना है कि मोनिका

2

URL के साथ समस्या से स्वतंत्र, आप पढ़ना चाहते हैं कि मैं एक समझौता किए गए सर्वर से कैसे निपट सकता हूं?

— जोनास शॉफर

30

मेरी वेबसाइट हैक कर ली गई थी, जो अब बरामद हो गई है, लेकिन हैकर ने Google में 5000 यूआरएल अनुक्रमित किए और अब मुझे त्रुटि 404 मिली

robots.txtयदि आप इन URL को खोज इंजन (यानी Google) से छोड़ना चाहते हैं, तो 404 को ब्लॉक करना बेहतर होगा । यदि आप क्रॉलिंग को रोकते हैं तो URL अभी भी अनुक्रमित रह सकता है। (ध्यान दें कि robots.txtमुख्य रूप से क्रॉलिंग ब्लॉक करता है , इंडेक्सिंग नहीं ।)

यदि आप इन URL के डी-इंडेक्सिंग को "स्पीड अप" करना चाहते हैं तो आप शायद "404 नॉट फाउंड" की बजाय "410 गॉन" परोस सकते हैं। आप अपनी रूट .htaccessफ़ाइल में mod_rewrite (Apache) के साथ कुछ ऐसा कर सकते हैं :

RewriteEngine On
RewriteRule ^\+ - [G]

— मिस्टर वाइट
स्रोत

14

मैं दूसरे प्रश्न का उत्तर देने जा रहा हूं।

मैं सोच रहा था कि क्या Google वेबमास्टर टूल से मैन्युअल रूप से इन URL को हटाने के अलावा कोई त्वरित तरीका है?

https://developers.google.com/webmasters/hacked/docs/clean_site

Google स्पष्ट रूप से बताता है कि Google खोज कंसोल (वेबमास्टर टूल्स का नया नाम) के माध्यम से हटाना सबसे तेज़ है।

यदि हैकर पूरी तरह से नया, उपयोगकर्ता-दृश्यमान URL बनाता है, तो आप खोज कंसोल में URL हटाएं सुविधा का उपयोग करके इन पृष्ठों को Google खोज परिणामों से अधिक तेज़ी से हटा सकते हैं। यह पूरी तरह से वैकल्पिक कदम है। यदि आप केवल पृष्ठ हटाते हैं और फिर 404 स्थिति कोड वापस करने के लिए अपने सर्वर को कॉन्फ़िगर करते हैं, तो पृष्ठ स्वाभाविक रूप से समय के साथ Google के सूचकांक से बाहर हो जाएंगे।

लेकिन वे यह भी समझते हैं कि यह कुछ मामलों के लिए संभव नहीं है:

URL निष्कासन का उपयोग करने का निर्णय संभवतः नए, अनचाहे पृष्ठों की संख्या पर निर्भर करेगा (बहुत सारे पृष्ठ निकालें URL में शामिल करने के लिए बोझिल हो सकते हैं), साथ ही साथ ये पृष्ठ उपयोगकर्ताओं को होने वाले संभावित नुकसान का कारण बन सकते हैं। URL निष्कासन के माध्यम से सबमिट किए गए पृष्ठों को खोज परिणामों में कभी भी प्रदर्शित होने से बचाने के लिए, सुनिश्चित करें कि अवांछित / हटाए गए URL के लिए 404 फ़ाइल नहीं मिली प्रतिक्रिया वापस करने के लिए पृष्ठ भी कॉन्फ़िगर किए गए हैं।

इसलिए जब आप इन पृष्ठों को robots.txt में ब्लॉक कर सकते हैं - आप Google द्वारा बताए गए सुधारात्मक कदमों में से कोई भी कदम नहीं उठा रहे हैं।

— pastepotpete
स्रोत

4

User-Agent: *  
Disallow: /+

आपको जो चाहिए वो करना चाहिए। यह रोबोट को बताएगा कि सभी URL को a से शुरू न करें +।

— स्वेन
स्रोत

2

यदि आप वास्तव में robots.txt का उपयोग करना चाहते हैं, तो यह आपके प्रश्न का एक सरल उत्तर होगा। इसके अलावा मैंने एक लिंक शामिल किया है जहां आप robots.txt पर विशिष्टताओं को पढ़ सकते हैं।

User-agent: *
Disallow: /+

Robots.txt चश्मा के बारे में पढ़ें

लेकिन एक अन्य विकल्प हो सकता है। उन्हें पकड़ने के लिए एक पुनर्लेखन नियम (यदि आप अपाचे आदि का उपयोग करते हैं) बनाने के लिए .htaccess का उपयोग करें और शायद Google को एक बेहतर रिटर्न HTTP कोड बताएं या ट्रैफ़िक को किसी अन्य पृष्ठ पर पुनः निर्देशित करें।

— davidbl
स्रोत

2

*URL-पाथ के अंत में (तारांकन) की कोई आवश्यकता नहीं है । इसे सबसे बड़ी मकड़ी-संगतता के लिए हटा दिया जाना चाहिए। robots.txtपहले से ही उपसर्ग मिलान है, तो वाइल्डकार्ड्स का समर्थन करने वाले बॉट्स के लिए भी ऐसा /+*ही है /+, और ऐसे बॉट्स जो वाइल्डकार्ड्स का समर्थन नहीं करते हैं तो /+*वे बिल्कुल भी मेल नहीं खाएंगे।

— 12

आप सही हैं, मैंने अभी लिखा है कि Googlebot के बारे में उनके प्रश्न के आधार पर। मैंने इसे कई बॉट्स के खिलाफ बेहतर अनुकूलता को दर्शाने के लिए संपादित किया है।

— दाविब्लेव