कैसे Pinterest जैसी साइटें उन सभी चित्रों को रखने में सक्षम हैं?


4

क्या किसी को पता है कि कैसे साइटें सामान्य रूप से बड़ी संख्या में चित्र रखती हैं? मैंने इस पर शोध करने की कोशिश की, लेकिन ऐसा लगता है कि इन सभी को रखने के लिए बड़े पैमाने पर भंडारण स्थानों की आवश्यकता होगी, जब तक कि इसमें कोई चाल न हो? मुझे यकीन है कि वे उन्हें संपीड़ित करते हैं, लेकिन एक साइट के लिए धारण करने के लिए डेटा की एक बड़ी राशि अभी भी है।


howstuffworks.com/pinterest.htm havent u ने इसे देखा?
BlueBerry - Vignesh4303

4
हां, वे सिर्फ उन्हें स्टोर करते हैं। भंडारण सीपीयू और मेमोरी के सापेक्ष सस्ता है।
पॉल

4
एक बात जो कि Pinterest जैसी साइट स्पष्ट रूप से कर सकती है, वह है: प्रत्येक छवि को केवल एक बार संग्रहीत करना, कोई फर्क नहीं पड़ता कि कितने लोगों के पृष्ठ दिखाई देते हैं।
माइकल बोरगवर्ड

मेरा अनुमान है, 1 से अधिक हार्ड ड्राइव! :)
डेव

जवाबों:


5

जब बड़ी मात्रा में डेटा संग्रहीत करने की बात आती है , तो सामग्री प्रदाता स्टोरेज एरिया नेटवर्क का उपयोग करते हैं, जिसे SAN और SAN संग्रहण हार्डवेयर के रूप में भी जाना जाता है ।

विकिपीडिया से:

एक भंडारण क्षेत्र नेटवर्क (सैन) एक समर्पित नेटवर्क है जो समेकित, ब्लॉक स्तर डेटा भंडारण तक पहुंच प्रदान करता है। SAN का उपयोग मुख्य रूप से भंडारण उपकरणों को बनाने के लिए किया जाता है, जैसे कि डिस्क एरे, टेप लाइब्रेरी और ऑप्टिकल ज्यूकबॉक्स, सर्वर के लिए सुलभ ताकि डिवाइस स्थानीय रूप से संलग्न उपकरणों की तरह ऑपरेटिंग सिस्टम में दिखाई दें। सैन के पास आमतौर पर भंडारण उपकरणों का अपना नेटवर्क होता है जो आमतौर पर अन्य उपकरणों द्वारा स्थानीय क्षेत्र नेटवर्क के माध्यम से सुलभ नहीं होते हैं। SAN की लागत और जटिलता 2000 के दशक के प्रारंभ में गिरकर उन स्तरों पर पहुंच गई, जो पूरे उद्यम और छोटे से मध्यम आकार के कारोबारी वातावरण में व्यापक रूप से अपनाए जाने की अनुमति देते हैं।

तो एक SAN स्टोरेज डिवाइस कैसा दिखता है? कुछ निम्नलिखित की तरह दिखते हैं:

इस

उन स्लॉट्स में से हर एक (लाल वर्ग ड्राइव इजेक्ट बटन है) एक हार्ड डिस्क ड्राइव है। तस्वीर में एक अपेक्षाकृत छोटा SAN स्टोरेज डिवाइस है, अन्य बहुत अलग दिख सकते हैं और आकार में बहुत बड़े हो सकते हैं ।

जहां मैं काम करता था, हमारे पास SAN स्टोरेज था जो कि बॉक्स थे, मूल रूप से हार्ड ड्राइव से भरे हुए 3 रेफ्रिजरेटर के आकार साइड-बाय-साइड थे । फिर हमने आवश्यकतानुसार उन ड्राइव को लिया और अतिरेक के लिए RAID सरणियों का निर्माण किया। जब हमें अधिक स्थान की आवश्यकता होती है, हम अधिक SAN स्टोरेज डिवाइस ऑर्डर कर सकते हैं और उन्हें हमारे स्टोरेज एरिया नेटवर्क में संलग्न कर सकते हैं। इसने हमें अनावश्यक भंडारण की पेटाबाइट्स की अनुमति दी।

फ़्लिकर, पिकासा, फेसबुक, आदि जैसी साइटों में बहुत बड़े SANS बड़े पैमाने पर डेटासेंटर भरते हैं।


2

आपके प्रश्न से मैं यह जानता हूं कि आपके पास कंप्यूटर विज्ञान की पृष्ठभूमि नहीं है, इसलिए मैं गीकी लगने वाले शब्दों को फेंकने से बचूंगा।

बहुत बड़ी मात्रा में डेटा (या ट्रैफ़िक) को संभालने वाली लोकप्रिय वेबसाइटें कोई नई या बहुत अनोखी बात नहीं है। आमतौर पर बड़े पैमाने पर संपीड़न के संदर्भ में कोई चालबाज़ी नहीं है (चूंकि जेपीईजी के रूप में अपलोड किए गए अधिकांश चित्र पहले से ही बहुत संकुचित हैं, और आगे के संपीड़न में अक्सर विवरण का नुकसान हो सकता है)। क्या जाता है कुछ चालाक वास्तुकला, बहुत सारे और बहुत सारे कंप्यूटर, तेज और विश्वसनीय नेटवर्क, और निश्चित रूप से, कई टेराबाइट्स (या यहां तक ​​कि पेटाबाइट्स) का भंडारण भी है। दरअसल, भंडारण अक्सर मुद्दों से कम होता है। भंडारण और गणना शक्ति इन दिनों बहुत सस्ती है।

क्या होता है अक्सर अतिरेक और तेजी से पुनर्प्राप्ति के लिए, कई कंप्यूटरों में डेटा वितरित किया जाता है (समानांतर में होता है), और डेटा की खोज समानांतर में होती है। अक्सर उपयोग किए गए डेटा को नेटवर्क या उपयोगकर्ताओं के किनारे के करीब रखना और ऐसे डेटा को उपयोग के आधार पर अपडेट रखना, कुछ तकनीकें हैं।

कुछ geeky कीवर्ड जो अक्सर उपयोग किए जाते हैं, और उन्हें विज़ार्ड के रूप में देखा जा सकता है:

  • बहु-स्तरीय कैशिंग
  • वितरण किया गया भंडारण
  • विवरण भण्डारण
  • NoSQL
  • मानचित्र छोटा करना
  • डेटा शार्किंग (ज्यादातर SQL दुनिया में)
  • समानांतर प्रसंस्करण
  • CDN (सामग्री वितरण नेटवर्क)

यह कैसे करना है, और अधिक कुशलता से, प्रभावी ढंग से अध्ययन का एक क्षेत्र है और कंप्यूटर विज्ञान और कंप्यूटर वास्तुकला के क्षेत्र में भी अनुसंधान है। डेटा की प्रकृति, पहुंच की प्रकृति / आवृत्ति (अधिक लिखते हैं, बनाम अधिक पढ़ता है), विश्वसनीयता की आवश्यकता आदि के आधार पर विभिन्न तकनीक का उपयोग किया जाता है।

संपादित: Google के सर्वर रैक (1999 से) की यह तस्वीरमहाकाव्य है:! प्रत्येक सर्वर "ट्रे" (विशेष रूप से एक लेबल "g61") के मध्य में उजागर हार्डड्राइव (उनमें से 3-4) पर ध्यान दें।

यहां छवि विवरण दर्ज करें

और पूरी यात्रा यहाँ इस पोस्ट में कैप्चर की गई है :


@ केल्टरी के अन्यथा अच्छे उत्तर पर टिप्पणी छोड़ने के लिए पर्याप्त प्रतिनिधि नहीं हैं, इसलिए यहां टिप्पणी करेंगे। सैन एक लोकप्रिय, अधिक सामान्य और थोड़ा अधिक पारंपरिक दृष्टिकोण है, जो कई बड़े उद्यम और उनके आईटी डिपो पसंद करते हैं। हालांकि एक वैकल्पिक दृष्टिकोण है जो Google और याहू की पसंद से लोकप्रिय हुआ था। मोटे तौर पर, यह दृष्टिकोण सर्वर के व्यापक क्लस्टर (pizzaboxes) के सिद्धांत पर आधारित है, प्रत्येक बड़े संलग्न भंडारण के साथ, जहां प्रत्येक सर्वर न केवल भंडारण-स्थान का योगदान देता है, बल्कि गणना शक्ति भी। वितरित अभिकलन का उपयोग किया जाता है ...
jay

... टूटने की जटिल खोज, छोटे ऑपरेशन में लुकअप ऑपरेशन जो क्लस्टर में फैले हुए हैं और समानांतर में चलते हैं। खोज परिणामों को फिर एक साथ जोड़कर अधिक जटिल प्रश्न का उत्तर दिया जाता है। यह खोज नेटवर्क और "रीड-हैवी" ऑपरेशंस के लिए विशिष्ट है। ध्यान दें कि इन दिनों, Google, Yahoo और पसंद करते हैं SAN का भी उपयोग करते हैं। वे संगठन बहुत अधिक जटिल हैं और भंडारण या कंप्यूटिंग के लिए एक ही तकनीक से चिपके रहने के लिए तेजी से बढ़े हैं। अंत में, यह सही काम के लिए सही उपकरण का उपयोग करने के लिए उबालता है।
जय

1

वे फ़ोटो को संपीड़ित नहीं कर सकते, क्योंकि फ़ोटो लगभग निश्चित रूप से पहले से ही संकुचित हैं, या तो JPEG या PNG संपीड़न के साथ, और पहले से संपीड़ित डेटा को संपीड़ित करना संभव नहीं है। (यह इसे थोड़ा सा देख रहा है, लेकिन जब तक आप सूचना के सिद्धांत में गहराई से नहीं उतरना चाहते , बस इसे एक रूप में स्वीकार करें।)

वास्तव में कोई शॉर्टकट नहीं है। एक साइट जिसमें भारी मात्रा में डेटा होता है, उसे रखने के लिए भारी मात्रा में कंप्यूटर होते हैं।

मान लें कि 1 एमबी में एक छवि का वजन होता है। वहाँ बहुत सारे हैं जो बड़े हैं, और बहुत सारे हैं जो छोटे हैं, लेकिन सिर्फ सादगी के लिए कहते हैं कि औसत छवि 1 एमबी है। इन दिनों सस्ती 2 टीबी ड्राइव खोजना मुश्किल नहीं है, जिसका अर्थ है कि प्रत्येक ड्राइव सैद्धांतिक रूप से लगभग 2 मिलियन छवियों को पकड़ सकती है। (जाहिर है कि ओवरहेड के लिए कुछ स्थान खो जाएगा, लेकिन आपको यह विचार मिलता है।)

एक सर्वर में कई हार्ड ड्राइव के साथ एक RAID विन्यास सेट हो सकता है। डेटा का कुछ अतिरेक खो जाता है, लेकिन यहां तक ​​कि आपके पास प्रति कंप्यूटर ड्राइव के कई टीबी मूल्य हो सकते हैं। और एक सर्वर फ़ार्म दर्जनों, सैकड़ों या हज़ारों सर्वरों को पकड़ सकता है। इस तरह Pinterest और Facebook जैसी साइटें इतनी सामग्री का प्रबंधन करती हैं।

उनके पास बड़े पैमाने पर सर्वर फ़ार्म होते हैं, उनके सामने कंप्यूटर होते हैं जो वेब ब्राउज़र से मार्ग अनुरोध करते हैं, सर्वर फ़ार्म में उपयुक्त स्थान पर सामग्री को देखते हैं और इसे उपयोगकर्ता को वापस सेवा प्रदान करते हैं। यह यहाँ कवर करने की कोशिश करने के लिए एक बहुत बड़ा विषय है, लेकिन यह मूल विचार है।


1
कंप्यूटर की संख्या का भंडारण क्षमता या क्षमता से कोई लेना- देना नहीं है।
कल्टारी

1
@ केल्टरी यकीन है कि यह करता है, आप केवल एक नियंत्रक के लिए कई ड्राइव को हुक कर सकते हैं, और एक सर्वर के लिए केवल इतने सारे नियंत्रक। अंतरिक्ष की एक सीमित मात्रा में एक एकल सर्वर संभाल सकता है, इसलिए इसे कई सर्वरों पर वितरित किया जाना चाहिए।
रिची फ़्रेम

@ रीची: यह एक कारण है कि आप सैन का उपयोग करते हैं - अब आपको "इतने सारे ड्राइव" के लिए एक नियंत्रक की आवश्यकता नहीं है, आपको केवल सैन से बात करने के लिए एक इंटरफ़ेस कार्ड की आवश्यकता है, और सर्वर को परवाह नहीं है कि सैन में कितने ड्राइव हैं। बेशक, अभी भी ओएस में अधिकतम विभाजन आकार हो सकता है, लेकिन यह आमतौर पर बहुत अधिक है।
सिल्के

@RichieFrame, आप सही हैं कि एक सर्वर शारीरिक रूप से इतने सारे ड्राइव पकड़ सकता है। हालांकि, यह SAN और NAS का कारण है - भंडारण सार है, जो इसे वस्तुतः असीम होने की अनुमति देता है। सर्वर 0 ड्राइव को कैंटीन कर सकते हैं और बस एक SAN या NAS से कनेक्ट हो सकते हैं।
कल्टारी

सभी निष्पक्षता में, एक SAN वास्तव में सिर्फ कंप्यूटर का एक गुच्छा है, जिनमें से प्रत्येक डिस्क की एक बड़ी मात्रा को पकड़ सकता है । वे विशेष रूप से उस उद्देश्य के लिए बनाए गए हैं। लेकिन SAN के लोकप्रिय होने से पहले ही, कुछ सर्वर 100 डिस्क पर अच्छी पकड़ बना सकते थे।
एमएसल्टर्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.