पंडों की सीमाएँ और इसके विकल्प पायथन में


11

मैंने कहीं पढ़ा है कि पंडों को पहली बार वित्तीय दुनिया के लिए विकसित किया गया था, कम से कम विशेष रूप से प्राकृतिक विज्ञान (भौतिकी, जीव विज्ञान और इतने पर) के लिए नहीं, इसलिए क्या कोई समान डेटा विश्लेषण पायथन पैकेज अधिक "प्राकृतिक विज्ञान उन्मुख" है?

मैंने अभी पंडों का उपयोग करना शुरू किया है और मुझे पहले से ही दो समस्याओं का सामना करना पड़ा है जिन्हें मैं अन्य पैकेज या होममेड समाधान का उपयोग किए बिना हल नहीं कर सकता:

  • अनिश्चितताओं का प्रबंधन कैसे करें?
  • अपने डेटा की इकाइयों को आसानी से कैसे परिभाषित करें?

हो सकता है कि अन्य मुद्दे भी हों, लेकिन मुझे अधिक सटीक अनुभव की कमी है। फिलहाल, मैं पहले बिंदु को हल करने के लिए अनिश्चितताओं के पैकेज के बारे में सोचता हूं, लेकिन मुझे यकीन नहीं है कि यह पंडों के साथ ठीक काम करेगा और गणना की गति को कम नहीं करेगा। दरअसल, मैं अनिश्चितताओं के साथ कंप्यूटिंग का एक रास्ता नहीं ढूंढ रहा हूं, बस अपने आयातित डेटा के साथ अनिश्चितताओं को संग्रहीत करने का एक सरल तरीका है। दूसरे बिंदु के लिए, मुझे प्रत्येक डेटा से जुड़ी इकाइयों का प्रबंधन करने के लिए अपने डेटाफ़्रेम के अलावा एक शब्दकोश बनाने से बेहतर समाधान नहीं मिला।

यदि आपने कभी भी समान मुद्दों का अनुभव किया है, तो आपने इसे कैसे हल किया या प्राकृतिक विज्ञान में पायथन में डेटा हेरफेर / भंडारण / विश्लेषण के लिए आप कौन से अन्य पैकेज (ओं) का उपयोग करते हैं?


2
सहायक इकाइयों और अनिश्चितताओं के लिए पांडा का एक विकल्प Tableखगोल में कक्षा है।
P3trus

1
यह बहुत अच्छा लगता है, मुझे नहीं पता था कि इस तरह की चीजों के बारे में एस्ट्रोपी थी। फिर भी, मैंने डॉक पर एक नज़र डाली, लेकिन अनिश्चितताओं को स्थापित करने के लिए स्पष्ट उदाहरण नहीं खोज Tableपाया (लेकिन मुझे इकाइयों का हिस्सा मिला)। NDDataलगता है कि प्रबंधन करने के लिए, लेकिन मैं इन वर्गों के बीच अंतर के बारे में अनिश्चित हूँ। यदि आपको अपनी टिप्पणी को 2-लाइन उदाहरण के साथ उत्तर में बदलने में कोई आपत्ति नहीं है, तो मैं स्वेच्छा से इसे स्वीकार करूंगा!
क्लार्क

जवाबों:


5

मैं डेविड से सहमत हूं कि अनिश्चितताओं की गणना एक स्वचालित पुस्तकालय द्वारा नहीं की जानी चाहिए। आप बहुत तेज़ी से एक ऐसे मामले में भाग लेंगे जहाँ ऑटोमेटिक्स विफल हो जाते हैं (उदाहरण के लिए फूरियर ट्रांसफॉर्म करने की कोशिश करें)।

हालाँकि आप कहते हैं कि आप अपने डेटा के साथ अनिश्चितताओं को बनाए रखना चाहते हैं। क्यों नहीं उन्हें अपने डेटाफ़्रेम में एक अतिरिक्त स्तंभ के रूप में जोड़ें? इस तरह मैं आमतौर पर पांडा के साथ अनिश्चितताओं का प्रबंधन करता हूं।

पंडों के पास इकाइयों का कोई समर्थन नहीं है, हालांकि कुछ भी डेटाफ्रेम में जा सकते हैं ताकि आप सीधे मात्रा पैकेज का उपयोग कर सकें। सभी कार्यक्षमताएं पांडा में काम नहीं करेंगी (हालांकि एक आश्चर्यजनक राशि अभी भी होगी) और एक प्रदर्शन जुर्माना होगा।

पंडों में मेटाडेटा के लगाव के लिए अनुमति देने के लिए कुछ चर्चा हुई है, लेकिन अभी तक ऐसा कुछ भी नहीं हुआ है।

C ++ 11 के संभावित अपवाद के साथ, मुझे कोई भी भाषा या पुस्तकालय नहीं पता है जो आपको वास्तव में अच्छा, प्रथम श्रेणी इकाई समर्थन प्रदान करे। हमेशा प्रदर्शन में कमी और अनुकूलता की कमी होती है


2

अनिश्चितताओं को प्रबंधित करना वास्तव में काफी नाजुक आँकड़े समस्या है। चुकता आंशिक व्युत्पन्न का उपयोग करते हुए त्रुटि प्रसार के लिए ज्ञात अभिव्यक्ति तब अच्छी होती है जब त्रुटियों को सामान्य रूप से वितरित किया जाता है, स्वतंत्र और छोटा। यह आमतौर पर मामला है; और वास्तव में, भले ही सामान्यता या स्वतंत्रता पूरी तरह से संतुष्ट न हो, अधिकांश व्यावहारिक मामलों के लिए परिणाम यथोचित रूप से एक के करीब हो सकता है, बशर्ते आप केवल अंतराल के एक उचित अनुमान में रुचि रखते हैं।

sin(2±0.1)=sin(2)sin(1.9)sin(2.1)

ऐसे मामलों के लिए जहां अधिक सटीकता की आवश्यकता होती है, यदि आपके पास अपनी अनिश्चितताओं के लिए एक अच्छा विश्लेषणात्मक मॉडल है, तो अधिकतम संभावना की तरह विधियां हैं, जिनका उपयोग सही अनुमान लगाने वालों को प्राप्त करने के लिए किया जा सकता है।

लेकिन अगर आप किसी भी संभावित इनपुट के लिए एक सही परिणाम चाहते हैं (कल्पना करें कि एक शोर डिटेक्टर के लिए मॉडल जहां शोर सटीक रूप में समान क्रम का है), सभी सहसंबंधों को ध्यान में रखते हुए, और सभी प्रासंगिक पैरामीटर स्थान का पता लगाने में सक्षम होने के लिए , आपको मोंटे कार्लो विधियों की आवश्यकता है। अपने इनपुट के कई उदाहरणों में यादृच्छिक शोर जोड़ें और पूर्ण विश्लेषण चलाएं। बेशक, इसका मतलब यह हो सकता है कि आपको अपने कम्प्यूटेशनल समय को सैकड़ों या हजारों से गुणा करना होगा, लेकिन यह हमेशा समानांतर होता है।

तो, अंत में, यह सब इस बात पर निर्भर करता है कि आप क्या करना चाहते हैं, सटीकता की किस हद तक और आपके पास कितने संसाधन हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.