मध्य अगस्त 2014 के बाद से, कई Google सर्वर मेरी वेब साइट पर सप्ताह में लगभग एक बार सभी (बहुत) बड़ी बाइनरी फ़ाइलों को डाउनलोड कर रहे हैं। IPs सभी Google के स्वामित्व के अनुसार दिखाई देते हैं, और इस तरह दिखते हैं: google-proxy-66-249-88-199.google.com। ये GET अनुरोध हैं, और वे मेरे सर्वर ट्रैफ़िक को बहुत प्रभावित कर रहे हैं।
इससे पहले, मैंने इन Google प्रॉक्सी आईपी से कोई ट्रैफ़िक नहीं देखा था, इसलिए यह कुछ नया प्रतीत होता है। मुझे अन्य Google IP से सभी प्रकार के ट्रैफ़िक दिखाई देते हैं, उनमें से सभी Googlebot और HEAD अनुरोध ही हैं।
मुझे इस बात की चिंता नहीं होगी कि सिवाय इसके कि ये सभी फाइलें हर हफ्ते या तो गूगल द्वारा डाउनलोड की जा रही हैं। उपयोग की जाने वाली बैंडविड्थ अत्यधिक होने लगी है।
मैंने अनुमान लगाया है कि चूंकि इन फ़ाइलों में से कई विंडोज निष्पादन योग्य हैं, शायद Google उन्हें मैलवेयर स्कैन करने के लिए डाउनलोड कर रहा है। यहां तक कि अगर यह सच है, तो क्या वास्तव में हर हफ्ते होने की जरूरत है?
नवंबर में अब तक Google प्रॉक्सी आईपी से उदाहरण ट्रैफ़िक:
google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB
अद्यतन # 1: मैं यह उल्लेख करना भूल गया कि प्रश्न की फाइलें पहले से ही साइट के robots.txt फ़ाइल में हैं। मुकदमा करने के लिए robots.txt कॉन्फ़िगरेशन ठीक से काम कर रहा है, मैंने Google वेबमास्टर टूल्स में robots.txt परीक्षक का भी उपयोग किया, जो दर्शाता है कि सभी Google बॉट्स के लिए फ़ाइलें निश्चित रूप से अवरुद्ध की जा रही हैं, एक अपवाद: Adsbot-Google। मुझे यकीन नहीं है कि इसके बारे में क्या है। और मैंने कुछ फ़ाइलों के लिए Google को खोजा, और वे खोज परिणामों में दिखाई नहीं देते हैं।
अद्यतन # 2: उदाहरण: 17 नवंबर को सुबह 5:12 बजे से 5:18 बजे के बीच, लगभग आधा दर्जन आईपी (सभी Google-प्रॉक्सी) ने बाइनरी फ़ाइलों के सभी पर GETs किया, कुल में 27। 4 नवंबर को 2:09 बजे और 2:15 बजे पीएसटी के बीच, उन्हीं आईपी ने मूल रूप से एक ही काम किया।
अपडेट # 3: इस बिंदु पर यह स्पष्ट लगता है कि हालांकि ये वैध Google IP हैं, वे Google की प्रॉक्सी सेवा का हिस्सा हैं, न कि Google के वेब क्रॉलिंग सिस्टम का हिस्सा हैं। क्योंकि ये प्रॉक्सी पते हैं, यह निर्धारित करने का कोई तरीका नहीं है कि वास्तव में जीईटी अनुरोध कहां से उत्पन्न हो रहे हैं, या क्या वे एक जगह या कई से आ रहे हैं। GETs की छिटपुट प्रकृति के आधार पर, यह प्रकट नहीं होता है कि कुछ भी चल रहा है; यह संभव है कि कोई व्यक्ति Google की प्रॉक्सी सेवा का उपयोग करते समय सभी बायनेरिज़ को डाउनलोड करने का निर्णय ले। दुर्भाग्यवश, यह सेवा पूरी तरह से अनिर्दिष्ट है, जो मदद नहीं करती है। एक साइट व्यवस्थापक के दृष्टिकोण से, परदे के पीछे कष्टप्रद हैं। मैं उन्हें ब्लॉक नहीं करना चाहता, क्योंकि उनके पास वैध उपयोग हैं। लेकिन उनका दुरुपयोग भी हो सकता है।