यथार्थवादी प्रतिपादन: मानव आँख और मस्तिष्क की किन प्रक्रियाओं पर मुझे विचार करने की आवश्यकता है?


12

Photorealistic रेंडरिंग का लक्ष्य एक छवि को वास्तविक कैमरे के रूप में प्रस्तुत करना है। हालांकि यह पहले से ही एक महत्वाकांक्षी लक्ष्य है, कुछ निश्चित परिदृश्यों के लिए आप इसे और आगे ले जाना चाहते हैं: एक छवि को प्रस्तुत करें क्योंकि मानव आंख इसे पकड़ लेगी या यहां तक ​​कि जैसा कि मनुष्य यह अनुभव करेगा। आप इसे दृष्टिवैषम्य या अवधारणात्मक प्रतिपादन कह सकते हैं , लेकिन अगर कोई कैचियर शब्द के साथ आ सकता है (या मुझे बताएं कि पहले से ही अस्तित्व में है) तो मैं उसकी सराहना करूंगा।

मेरी बात को स्पष्ट करने के लिए यहां कुछ उदाहरण दिए गए हैं। जब आप कम रोशनी के स्तर पर कैमरे के साथ एक तस्वीर लेते हैं, तो आपके पास एक अच्छा लेंस होता है या एक शोर छवि मिलती है। एक मानव पर्यवेक्षक के लिए, स्कोप्टिक दृष्टि अंदर आती है और पर्किनजे प्रभाव को जन्म देती है (रंगों को नीले रंग की ओर स्थानांतरित कर दिया जाता है)। यह प्रभाव एचडीआर ल्यूमिनेन्स सूचना पर निर्भर करता है, जो कि LDR डिस्प्ले पर छवि प्रदर्शित करते समय खो जाता है। इसके अलावा, मानव मस्तिष्क गहन जानकारी को कथित छवि को 'फ़िल्टर' करने के लिए उपयोग कर सकता है - ऐसी जानकारी जो अंतिम (गैर-स्टीरियो) रेंडरिंग में खो जाती है।

एग्जॉस्ट लिस्ट को असेंबल करना शायद एक मायावी लक्ष्य है। क्या आप आंख और मस्तिष्क के कुछ प्रभावों का सुझाव दे सकते हैं जिन पर मुझे विचार करने की आवश्यकता है?


मैंने एक बार सुना है कि हम कैमरों की तुलना में एक ही शोर करते हैं क्योंकि शोर वास्तव में भौतिक है और केवल विद्युत नहीं है। (यानी इतने सारे फोटॉन नहीं हैं आखिर)। लेकिन मस्तिष्क इसे मिटा देता है, टेम्पोरल एंटीलियाजिंग I रेकॉन का उपयोग करता है। (यानी हम रात में बहुत सारे मोशन ब्लर देखते हैं)।
v.oddou

मुझे इसका अंदाजा नहीं है। यदि आप कम रोशनी में एक छवि प्रस्तुत करते हैं और एक Purkinje प्रभाव का अनुकरण करते हैं, तो यह वास्तविक नहीं लगेगा क्योंकि मानव आंख अपना प्रभाव जोड़ देगी, है न?
यवेस डाएट

1
@YvesDaoust चूंकि अज्ञात प्रकाश की स्थिति के तहत LDR मॉनिटर पर छवि दिखाई जाती है, शायद नहीं। सीधे शब्दों में कहें, तो स्क्रीन पर आपके द्वारा देखी गई छवि उज्जवल होगी, इसलिए इसे देखना आसान है। यदि हम एक एचडीआर मॉनिटर का उपयोग कर रहे थे और एक रात के दृश्य के प्रकाशमान मूल्यों को पुन: उत्पन्न कर सकते थे (और एक अन्यथा अंधेरे कमरे में), तो आप सही हैं।
डेविड कुरी

1
आपके लिए जो प्रयास कर रहा है, उसमें कुछ भी गलत नहीं है, लेकिन मुझे डर है कि यह मुझे बहुत व्यापक लगता है क्योंकि इतने सारे प्रभाव हैं कि हमें विचार करने की आवश्यकता है। मैं इसे एसई प्रारूप में नहीं लिख सकता था, क्योंकि यह वास्तव में गलत होगा। हालाँकि यदि आप अपना दायरा थोड़ा सा समायोजित कर लेते हैं जैसे "क्या आप कुछ ऐसे प्रभावों का सुझाव दे सकते हैं जिन पर मुझे विचार करने की आवश्यकता होगी" की तुलना में इसे शुरू करना आसान होगा।
पूजा

@joojaa मैंने आपके द्वारा सुझाए गए प्रश्नों को बदल दिया, धन्यवाद।
डेविड कुरी

जवाबों:


5

आप इसे और आगे ले जाना चाहते हैं: एक छवि को प्रस्तुत करें क्योंकि मानव आंख इसे पकड़ लेती है या यहां तक ​​कि जैसा कि मनुष्य इसे अनुभव करेगा।

इसकी व्याख्या करने के दो तरीके हैं। मैं दोनों करूँगा।


व्याख्या 1: एक ऐसी छवि प्रस्तुत करना जो अवधारणात्मक रूप से यथार्थवादी दिखे।

दिन के अंत में, आपकी छवि को अभी भी कहीं न कहीं प्रदर्शित करने की आवश्यकता है। यहां कुंजी है: आप अपनी छवि को इस तरह से प्रस्तुत करना चाहते हैं कि जब आप एक विशेष डिस्प्ले डिवाइस पर उस छवि को * प्रदर्शित करते हैं, तो यह उसी सनसनी का उत्पादन करेगा जो मूल रेडियोमेट्रिक छवि ने उत्पन्न किया होगा।

यहाँ उस विचार को अनपैक करने का तरीका बताया गया है।

वास्तविक दुनिया में, रेडियोमेट्रिक स्पेक्ट्रा (यानी, प्रकाश के वास्तविक वितरण) आपकी आंख में प्रवेश करते हैं और लगभग 1 चार प्रकाश रिसेप्टर्स को उत्तेजित करते हैं। रिसेप्टर्स की उत्तेजना रंग की संवेदनाओं का उत्पादन करती है जिसे हम छवियों के साथ जोड़ते हैं।

प्रतिपादन में, हम अपने द्वारा उत्पादित स्पेक्ट्रा पर मनमाना नियंत्रण नहीं रखते हैं। सौभाग्य से, चूंकि हमारे पास (आमतौर पर) केवल तीन शंकु हैं, जिनमें से प्रत्येक केवल एक स्केलर मूल्य का उत्पादन करता है, ठीक तीन प्राइमरी का उपयोग करके रंग दृष्टि को पुन: पेश किया जा सकता है। लब्बोलुआब यह है कि आप केवल तीन तरंग दैर्ध्य के एक रैखिक संयोजन का उपयोग करके किसी भी रंग सनसनी का उत्पादन कर सकते हैं (कुछ रंगों तक जो नकारात्मक हो सकते हैं, जिस स्थिति में, आप बस अलग-अलग प्राइमरी का उपयोग करते हैं)।

आपके पास प्राइमरी का विकल्प नहीं है। लगभग सभी रंग प्रदर्शन उपकरण sRGB मानक का उपयोग करते हैं, जो तीन प्राइमरी प्रदान करता है (जो वास्तव में आमतौर पर एक भी तरंग दैर्ध्य नहीं होता है)। यह ठीक है क्योंकि यह पता चला है कि यह सब सार है और आपको परवाह नहीं है।

उस गंदगी को स्पष्ट करने के लिए जो अवधारणात्मक रूप से सटीक प्रतिपादन है, यहाँ एल्गोरिथ्म है:

  1. सही रेडियोमेट्रिक गणनाओं का उपयोग करके अपनी छवि को रेंडर करें। आप प्रकाश की तरंग दैर्ध्य या तरंग दैर्ध्य के व्यक्तिगत तरंग दैर्ध्य का पता लगाते हैं। जो कुछ। अंत में, आपके पास एक छवि है जिसमें हर बिंदु पर प्राप्त स्पेक्ट्रम का प्रतिनिधित्व है।
  2. प्रत्येक पिक्सेल पर, आप अपने द्वारा प्रस्तुत स्पेक्ट्रम लेते हैं, और इसे CIE XYZ रंग स्थान में परिवर्तित करते हैं । यह मानक पर्यवेक्षक कार्यों के साथ स्पेक्ट्रम के उत्पाद को एकीकृत करने के लिए काम करता है (देखें CIE XYZ परिभाषा)
  3. यह तीन स्केलर मान पैदा करता है, जो CIE XYZ रंग हैं।
  4. रैखिक आरजीबी में परिवर्तित करने के लिए एक मैट्रिक्स रूपांतरण का उपयोग करें, और फिर वहां से रैखिक आरजीबी को एसआरजीबी में बदलने के लिए एक रैखिक / बिजली परिवर्तन का उपयोग करें
  5. फ़्लोटिंग पॉइंट से uint8 में कनवर्ट करें और सहेजें, मानों को क्लैंपिंग ऑफ रेंज (आपके मॉनिटर उन्हें प्रतिनिधित्व नहीं कर सकते)।
  6. फ़्रेम के लिए uint8 पिक्सेल भेजें।
  7. प्रदर्शन sRGB रंग लेता है, विशेष रूप से तीव्रता के तीन प्राइमरी का उत्पादन करने के लिए व्युत्क्रम रूपांतरित करता है। प्रत्येक तराजू जो भी तस्वीर तत्व के लिए जिम्मेदार है के उत्पादन को मापता है। चित्र तत्व प्रकाश उत्पन्न करते हैं, एक स्पेक्ट्रम का निर्माण करते हैं। यह स्पेक्ट्रम आपके द्वारा प्रदान किए गए मूल स्पेक्ट्रम के लिए एक उम्मीद के मुताबिक होगा (उम्मीद है) ।
  8. आप स्पेक्ट्रम का अनुभव करते हैं जैसा कि आपने प्रदान किए गए स्पेक्ट्रम को माना होगा।

व्याख्या 2: मानव आँख को LDR डिस्प्ले के लिए विज़ुअलाइज़ेशन उद्देश्यों या मुआवजे के लिए प्राप्त हो सकने वाले अंतिम डेटा का अनुकरण करने का प्रयास।

यह एक कम उपयोगी अर्थ है, मुझे लगता है। अनिवार्य रूप से, आप एक ऐसी छवि का निर्माण करने की कोशिश कर रहे हैं जो दिमाग को मज़े / लाभ के लिए मानती है।

उदाहरण के लिए, इस साल SIGGRAPH में एक पेपर था, जहां उन्होंने अनुकृति और रंग में कमी के लिए छवियों को अलग-अलग प्रदर्शित किया। बेशक, एकमात्र कारण यह है कि वे ऐसा करते हैं क्योंकि हम जिस डिस्प्ले के साथ काम कर रहे हैं वह सभी कम-गतिशील रेंज (LDR) हैं। यदि कोई वास्तविक हाई-डायनामिक रेंज (HDR) डिस्प्ले को वास्तविक छवि डेटा के रूप में प्रदर्शित करता है, तो प्रभाव को अनुकरण करने के लिए बिंदु है।

व्यवहार में, यह बहुत अच्छी तरह से काम नहीं करता है। Afterimages के लिए, उदाहरण के लिए, हम एक बहुत ही उज्ज्वल उत्तेजना के रंग कोशिकाओं के कारण afterimages देखते हैं। यदि आप इसके बजाय नकली afterimage के साथ प्रभाव को प्रोत्साहित करने की कोशिश करते हैं, तो यह समान दिख सकता है - लेकिन चूंकि यह पूरी तरह से अलग तंत्र है, इसलिए यह बहुत आश्वस्त नहीं है।

यदि आप इस पर जाना चाहते हैं तो इस तरह के ग्राफिक्स वास्तव में साहित्य में अस्पष्ट हैं। उल्लिखित पेपर हमारे पास मौजूद अत्याधुनिक दृष्टिकोणों के अधिक-से-कम का एक उदाहरण है। मुझे लगता है कि मौजूदा आम सहमति, हालांकि यह है कि यह वास्तव में अनुकरण करने की कोशिश करने लायक नहीं है (कम से कम इस समय), क्योंकि सबसे अच्छा आप केवल अलग-अलग लोगों को प्रतिस्थापित करके वास्तविक दृष्टि प्रभाव का अनुमान लगा रहे होंगे, और यह वास्तव में नहीं है काम।


1 रॉड + 3 * शंकु, सामान्य मामला। अनुमानित क्योंकि मानव में अधिकतम सात तक एक अनुमान के अनुसार शून्य कार्यात्मक प्रकाश रिसेप्टर्स के रूप में कुछ हो सकता है (उच्चतम अब तक देखे गए पांच के साथ)।


आपके उत्तर के लिए धन्यवाद। मैं इसे अधूरा मानता हूं। व्याख्या 1 से आपका कथन "आप स्पेक्ट्रम को देखते हैं जैसा कि आपने प्रदान किया गया स्पेक्ट्रम माना होगा" यकीनन गलत है। वास्तविक स्पेक्ट्रम को देखते समय, आपके द्वारा बताए गए रूपांतरण का उपयोग करते समय प्रभाव किक नहीं करता है (उदाहरण के लिए, आपको कम रोशनी की स्थिति में एक स्कोप्टिक मानक पर्यवेक्षक का उपयोग करना होगा , जैसा कि जेम्सन, ह्यूरविच: विज़ुअल साइकोफिज़िक्स में उल्लेख किया गया है)। आपने जो वर्णन किया है वह वर्णक्रमीय प्रतिपादन का विचार है। व्याख्या 2 वह है जो मैं और अधिक सीखना चाहता हूं। पेपर एक अच्छी शुरुआत होगी, इसके लिए धन्यवाद।
डेविड कुरी

4

जब यह धारणा की बात आती है, तो इस बात का भी मुद्दा होता है कि हम (गुणों या कलाकृतियों के मामले में) लगभग अंधे हैं, और हमने क्या धारणा लागू की है।

उदाहरण के लिए ध्वनि के लिए, आपके पास ऐसी विपरीतताएँ या आवृत्तियाँ होती हैं, जो आपको अन्य सामग्रियों के बारे में कम या ज्यादा जानकारी नहीं देती हैं (एक पुराने SIGGRAPH कागज का चित्रण किया गया है कि कैसे बनावट मेष संकल्प को मुखौटा कर सकती है), और सभी समय के पहलुओं ("अंधेपन को बदलने के लिए")। इसी तरह, मूल्यों और सापेक्ष मूल्यों के आधार पर सतह, मानदंडों, बीआरडीएफ का विवरण देखा जा सकता है या नहीं भी देखा जा सकता है।

चूँकि हमारी अवधारणात्मक प्रणाली स्थानीय और वैश्विक स्तर पर अनुकूल होती है, इसलिए कम आवृत्ति मूल्यों के लिए सही स्थानों पर मैक्सिमा और मिनीमा होना महत्वपूर्ण है, लेकिन उनका सही मूल्य वास्तव में नहीं देखा जाएगा।

कभी-कभी अनुभूति हो सकती है, जैसे कि आप बादलों और पेड़ों में बहुत सारी त्रुटियों की अनुमति देते हैं लेकिन निश्चित रूप से मानव चेहरे में कम। (कभी-कभी आप किसी श्रेणी के लिए पैरामीटर के आँकड़ों के लिए इसे डाउनग्रेड कर सकते हैं।)

इसलिए मैं "फोटोरिअलिस्टिक" के बजाय "प्रशंसनीय" शब्द का उपयोग करना पसंद करता हूं।

इसके विपरीत, हम अति-संवेदनशील कलाकृतियों जैसे झूठे पिक्सेल या झिलमिलाहट पिक्सेल, अल्ट्रा-संवेदनशील से सहसंबंधों जैसे 1 ग्रे स्तर की त्रुटि के मोर्चों, अवांछित पैटर्न जैसे Moiré, aliasing या खराब यादृच्छिक, आदि।

वैसे, यह एक कारण है कि अनुकूलन-आधारित समाधान एक सरल ऊर्जा में सब कुछ समेटते हैं, एक बहुत ही बुरा विचार हो सकता है जो कि सभी विरोधाभासी स्थितियों में स्पष्ट रूप से बोल रहा है क्योंकि यह लाइनों या बिंदुओं में त्रुटियों की एकाग्रता का खतरा हो सकता है। इसी कारण से प्रारंभिक वैश्विक रोशनी लोगों को वास्तव में निराशा हुई थी कि एंटी-अलियासिड अनुमानित छाया की तुलना में ऊर्जा सटीक समाधान कम स्वीकार किए जाते थे (और फिर मेष-आधारित अनुकूली तरीकों के आधार पर क्वाड-ट्री से आए थे)।

ग्राफिक्स के लिए धारणा के बारे में एक (काफी सामान्य) अवलोकन इस सिगैसिया'11 पाठ्यक्रम में "ग्राफिक्स, दृश्य, आभासी वातावरण और एनीमेशन में धारणा" पर पाया जा सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.