आपके प्रश्न से मैं यह जानता हूं कि आपके पास कंप्यूटर विज्ञान की पृष्ठभूमि नहीं है, इसलिए मैं गीकी लगने वाले शब्दों को फेंकने से बचूंगा।
बहुत बड़ी मात्रा में डेटा (या ट्रैफ़िक) को संभालने वाली लोकप्रिय वेबसाइटें कोई नई या बहुत अनोखी बात नहीं है। आमतौर पर बड़े पैमाने पर संपीड़न के संदर्भ में कोई चालबाज़ी नहीं है (चूंकि जेपीईजी के रूप में अपलोड किए गए अधिकांश चित्र पहले से ही बहुत संकुचित हैं, और आगे के संपीड़न में अक्सर विवरण का नुकसान हो सकता है)। क्या जाता है कुछ चालाक वास्तुकला, बहुत सारे और बहुत सारे कंप्यूटर, तेज और विश्वसनीय नेटवर्क, और निश्चित रूप से, कई टेराबाइट्स (या यहां तक कि पेटाबाइट्स) का भंडारण भी है। दरअसल, भंडारण अक्सर मुद्दों से कम होता है। भंडारण और गणना शक्ति इन दिनों बहुत सस्ती है।
क्या होता है अक्सर अतिरेक और तेजी से पुनर्प्राप्ति के लिए, कई कंप्यूटरों में डेटा वितरित किया जाता है (समानांतर में होता है), और डेटा की खोज समानांतर में होती है। अक्सर उपयोग किए गए डेटा को नेटवर्क या उपयोगकर्ताओं के किनारे के करीब रखना और ऐसे डेटा को उपयोग के आधार पर अपडेट रखना, कुछ तकनीकें हैं।
कुछ geeky कीवर्ड जो अक्सर उपयोग किए जाते हैं, और उन्हें विज़ार्ड के रूप में देखा जा सकता है:
- बहु-स्तरीय कैशिंग
- वितरण किया गया भंडारण
- विवरण भण्डारण
- NoSQL
- मानचित्र छोटा करना
- डेटा शार्किंग (ज्यादातर SQL दुनिया में)
- समानांतर प्रसंस्करण
- CDN (सामग्री वितरण नेटवर्क)
यह कैसे करना है, और अधिक कुशलता से, प्रभावी ढंग से अध्ययन का एक क्षेत्र है और कंप्यूटर विज्ञान और कंप्यूटर वास्तुकला के क्षेत्र में भी अनुसंधान है। डेटा की प्रकृति, पहुंच की प्रकृति / आवृत्ति (अधिक लिखते हैं, बनाम अधिक पढ़ता है), विश्वसनीयता की आवश्यकता आदि के आधार पर विभिन्न तकनीक का उपयोग किया जाता है।
संपादित:
Google के सर्वर रैक (1999 से) की यह तस्वीरमहाकाव्य है:! प्रत्येक सर्वर "ट्रे" (विशेष रूप से एक लेबल "g61") के मध्य में उजागर हार्डड्राइव (उनमें से 3-4) पर ध्यान दें।
और पूरी यात्रा यहाँ इस पोस्ट में कैप्चर की गई है :