मुझे इस प्रश्न का समाधान करने के लिए एक वास्तविक उदाहरण लेना चाहिए
मुझे अपने ohlc डेटा पर एक भारित चलती औसत की गणना करने की आवश्यकता है, मेरे पास ऐसा करने के लिए प्रत्येक प्रतीक के साथ लगभग 134000 मोमबत्तियाँ हैं।
- विकल्प 1 इसे पायथन / नोड आदि आदि में करें
- विकल्प 2 इसे SQL में ही करें!
इनमे से कौन बेहतर है?
- अगर मुझे पायथन में ऐसा करना पड़ता है, तो अनिवार्य रूप से, मुझे सबसे खराब स्थिति में सभी संग्रहित रिकॉर्ड लाने होंगे, संगणना प्रदर्शन करना होगा और सब कुछ वापस बचाना होगा, जो मेरी राय में IO का बहुत बड़ा अपव्यय है।
- भारित मूविंग औसत परिवर्तन हर बार आपको एक नया मोमबत्ती मिलता है जिसका अर्थ है कि मैं नियमित अंतराल पर भारी मात्रा में IO कर रहा हूं जो मेरे संकेत में एक अच्छी राय नहीं है
- SQL में, मुझे बस इतना करना है कि शायद एक ट्रिगर लिखें जो सब कुछ गणना करता है और संग्रहीत करता है, इसलिए केवल प्रत्येक जोड़ी के लिए हर बार अंतिम WMA मूल्यों को लाने की आवश्यकता है और यह बहुत अधिक कुशल है
आवश्यकताएँ
- अगर मुझे हर मोमबत्ती के लिए डब्ल्यूएमए की गणना करना और उसे स्टोर करना था, तो मैं इसे पायथन पर करूंगा
- लेकिन जब से मुझे केवल अंतिम मूल्य की आवश्यकता है, SQL पायथन की तुलना में बहुत तेज है
आपको कुछ प्रोत्साहन देने के लिए, यह एक भारित चलती औसत करने के लिए पायथन संस्करण है
WMA कोड के माध्यम से किया गया
import psycopg2
import psycopg2.extras
from talib import func
import timeit
import numpy as np
with psycopg2.connect('dbname=xyz user=xyz') as conn:
with conn.cursor() as cur:
t0 = timeit.default_timer()
cur.execute('select distinct symbol from ohlc_900 order by symbol')
for symbol in cur.fetchall():
cur.execute('select c from ohlc_900 where symbol = %s order by ts', symbol)
ohlc = np.array(cur.fetchall(), dtype = ([('c', 'f8')]))
wma = func.WMA(ohlc['c'], 10)
# print(*symbol, wma[-1])
print(timeit.default_timer() - t0)
conn.close()
SQL के माध्यम से WMA
"""
if the period is 10
then we need 9 previous candles or 15 x 9 = 135 mins on the interval department
we also need to start counting at row number - (count in that group - 10)
For example if AAPL had 134 coins and current row number was 125
weight at that row will be weight = 125 - (134 - 10) = 1
10 period WMA calculations
Row no Weight c
125 1
126 2
127 3
128 4
129 5
130 6
131 7
132 8
133 9
134 10
"""
query2 = """
WITH
condition(sym, maxts, cnt) as (
select symbol, max(ts), count(symbol) from ohlc_900 group by symbol
),
cte as (
select symbol, ts,
case when cnt >= 10 and ts >= maxts - interval '135 mins'
then (row_number() over (partition by symbol order by ts) - (cnt - 10)) * c
else null
end as weighted_close
from ohlc_900
INNER JOIN condition
ON symbol = sym
WINDOW
w as (partition by symbol order by ts rows between 9 preceding and current row)
)
select symbol, sum(weighted_close)/55 as wma
from cte
WHERE weighted_close is NOT NULL
GROUP by symbol ORDER BY symbol
"""
with psycopg2.connect('dbname=xyz user=xyz') as conn:
with conn.cursor() as cur:
t0 = timeit.default_timer()
cur.execute(query2)
# for i in cur.fetchall():
# print(*i)
print(timeit.default_timer() - t0)
conn.close()
मानो या ना मानो, क्वेरी शुद्ध अजगर संस्करण से अधिक तेजी से चलती है एक वजन बढ़ रहा है! मैं उस प्रश्न को लिखित रूप में चरण दर चरण आगे बढ़ाता गया ताकि उसमें लटका रहे और आप ठीक कर पाएंगे
गति
0.42141127300055814 सेकंड पायथन
0.23801879299935536 सेकंड एसक्यूएल
मेरे पास अपने 1000 सर्वरों के बीच विभाजित किए गए डेटाबेस में 134000 नकली OHLC रिकॉर्ड हैं ताकि SQL अपने ऐप सर्वर को बेहतर बना सके, इसका एक उदाहरण है