Google कैश से हजारों URL कैसे निकालें?


13

Google ने मेरी वेबसाइट से PDF का अधिकतम कैश किया है जो सार्वजनिक नहीं होना चाहिए। मैंने अपने हेडर को अपडेट किया है, लेकिन मौजूदा क्विक व्यू कैश को हटाने की आवश्यकता है।

Google वेबमास्टर टूल मुझे एक-एक करके उन्हें हटाने की अनुमति देता है - हालाँकि, यह स्पष्ट रूप से व्यावहारिक नहीं है कि फ़ाइलों को हटा दिया जाए।

क्या किसी को पता है कि मैं कैसे बैच को Google कैश से हटा सकता हूं? आदर्श रूप से मैं "साइट: mysite.com * .pdf" से मेल खाने वाली हर चीज़ को हटाने का एक तरीका चाहूँगा।


3
त्वरित Google खोज इंगित करती है कि Google API का उपयोग करके बैच को निकालना संभव नहीं है, आपको अपनी स्वयं की स्क्रिप्ट को एक साथ सिलना होगा जो एक

जवाबों:


9

लगता है कि आपने पहले ही पता लगा लिया है कि किसी एकल URL को हटाने का अनुरोध कैसे किया जाए , जो स्पष्ट रूप से यहाँ प्रश्न से बाहर है। उस प्रक्रिया का दूसरा चरण भी आपको एक पूरी निर्देशिका को हटाने का अनुरोध करता है , यदि फ़ाइल URL उस विशेष तरीके से अनुमानित हैं। (यदि आपके पास हजारों PDF हैं, तो मुझे उम्मीद है कि वे कम से कम कुछ व्यवस्थित हैं।) यदि नहीं, तो आप बहुत अधिक विकल्पों से बाहर हैं, दुर्भाग्य से।


2

मेरे पास हाल ही में एक हैक था जिसने मेरी साइट पर कई हजार फर्जी पेज जोड़े थे।

मैंने Google खोज कंसोल (जिसे पहले वेबमास्टर टूल कहा जाता था) में एक सही साइटमैप प्रस्तुत किया और सभी लिंक को 410 में बदल दिया, लेकिन Google अभी भी उनमें से अधिकांश अनुक्रमित था।

मैंने वेबमास्टर टूल्स - बल्क यूआरएल को हटाने के लिए स्वचालित रूप से यूआरएल जमा करने के लिए क्रोम एक्सटेंशन को हटा दिया। यह मूल रूप से एक स्क्रिप्ट है जो URLs की एक सूची लेती है, फिर उन्हें आपके लिए सबमिट करती है, एक बार में। उन सभी को प्रस्तुत करने में घंटों लगेंगे, लेकिन कम से कम आपको इसे स्वयं नहीं करना होगा। यहां इसका उपयोग कैसे करें पर एक लेख है

आप उन URL की एक सूची प्राप्त कर सकते हैं जो Google खोज कंसोल से सीधे डेटा डाउनलोड करके अनुक्रमित कर रहे हैं। स्थिति> इंडेक्स कवरेज पर जाएं और मान्य परिणाम चुनें और फिर नीचे स्क्रॉल करें। आप देखेंगे कि Google ने उन URL का एक टन अनुक्रमित किया है जो आपके साइटमैप में नहीं हैं। आप पहले 1000 परिणाम डाउनलोड कर सकते हैं। जाहिरा तौर पर उन सभी को पाने के लिए एक गोल चक्कर रास्ता है, न केवल पहले हजार, लेकिन इसमें एक्सेल से एपीआई कॉल शामिल हैं। मैंने प्रत्येक हजार के बीच कुछ दिनों का इंतजार किया, क्योंकि वे धीरे-धीरे सूचकांक से बाहर हो गए।

Google इंडेक्स कवरेज स्नैपशॉट

एक अन्य मार्ग के लिए एक WP प्लगइन एक साइटमैप बनाना है, फिर पीडीएफ या जो भी आप लक्षित कर रहे हैं उसे फ़िल्टर करें। आपको शायद यहाँ मैनुअल कॉपी / पेस्ट / डिलीट का थोड़ा सा काम करना होगा। बस सुरक्षित होने के लिए, मैंने धीरे-धीरे अपनी लगभग 2,700 स्पैम URL की सूची को स्क्रॉल किया और वैध URL हटा दिए। इसमें केवल 20 मिनट लगे।

यदि आप स्पैम की तरह स्थायी रूप से कुछ करने की कोशिश नहीं कर रहे हैं, और इसके बजाय प्रीमियम संसाधनों को बाधित करने की कोशिश कर रहे हैं, तो आपको उन तरीकों का उपयोग करने से रोकने के लिए अन्य तरीकों का उपयोग करना चाहिए, जैसे कि रोबोट फ़ाइल। लेकिन अगर यह पता चलता है कि Google ने नहीं सुना या आपने गेंद को गिरा दिया, तो कम से कम अब आप समस्या को ठीक कर सकते हैं और कुछ ही दिनों में उन्हें सूचकांक से हटा सकते हैं।

मेरी विशेष परिस्थिति में, मैं सोच रहा हूँ कि Google के पास टाइम मशीन बटन, या पूर्ववत या रीसेट क्यों नहीं है। विचार यह है कि मैं बता सकता हूं कि कुछ दिन पहले साइट हैक हो गई थी, लेकिन हमने इसकी मरम्मत की है, इसलिए क्रॉलिंग और इंडेक्सिंग के अंतिम दिनों की संख्या को पूर्ववत करें। लेकिन यह बहुत आसान होगा।


1

यदि फाइलें "सार्वजनिक नहीं होनी चाहिए" तो उन्हें सार्वजनिक इंटरनेट पर होना चाहिए। आप Google लिस्टिंग से फ़ाइलें निकाल सकते हैं (robots.txt और अन्य विधियों के माध्यम से), लेकिन यदि फ़ाइलें अभी भी हैं तो कोई भी उन्हें डाउनलोड कर सकता है।

आपको उन्हें किसी तरह के प्रमाणीकरण के पीछे रखना चाहिए। उदाहरण के लिए, फ़ाइलों को सार्वजनिक वेब निर्देशिका से बाहर ले जाएं और उन्हें एक स्क्रिप्ट से सेवा दें जो यह जांचती है कि उपयोगकर्ता पहले वैध है या नहीं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.