किसी अन्य कॉलम के आधार पर रनिंग टोटल को रीसेट करें


10

कुल चलने की गणना करने की कोशिश कर रहा हूँ। लेकिन इसे तब रीसेट करना चाहिए जब संचयी योग दूसरे कॉलम मान से अधिक हो

create table #reset_runn_total
(
id int identity(1,1),
val int, 
reset_val int,
grp int
)

insert into #reset_runn_total
values 
(1,10,1),
(8,12,1),(6,14,1),(5,10,1),(6,13,1),(3,11,1),(9,8,1),(10,12,1)


SELECT Row_number()OVER(partition BY grp ORDER BY id)AS rn,*
INTO   #test
FROM   #reset_runn_total

सूचकांक विवरण:

CREATE UNIQUE CLUSTERED INDEX ix_load_reset_runn_total
  ON #test(rn, grp) 

नमूना डेटा

+----+-----+-----------+-----+
| id | val | reset_val | Grp |
+----+-----+-----------+-----+
|  1 |   1 |        10 | 1   |
|  2 |   8 |        12 | 1   |
|  3 |   6 |        14 | 1   |
|  4 |   5 |        10 | 1   |
|  5 |   6 |        13 | 1   |
|  6 |   3 |        11 | 1   |
|  7 |   9 |         8 | 1   |
|  8 |  10 |        12 | 1   |
+----+-----+-----------+-----+ 

अपेक्षित परिणाम

+----+-----+-----------------+-------------+
| id | val |    reset_val    | Running_tot |
+----+-----+-----------------+-------------+
|  1 |   1 | 10              |       1     |  
|  2 |   8 | 12              |       9     |  --1+8
|  3 |   6 | 14              |       15    |  --1+8+6 -- greater than reset val
|  4 |   5 | 10              |       5     |  --reset 
|  5 |   6 | 13              |       11    |  --5+6
|  6 |   3 | 11              |       14    |  --5+6+3 -- greater than reset val
|  7 |   9 | 8               |       9     |  --reset -- greater than reset val 
|  8 |  10 | 12              |      10     |  --reset
+----+-----+-----------------+-------------+

प्रश्न:

मुझे प्रयोग करने का परिणाम मिला Recursive CTE। मूल प्रश्न यहाँ है /programming/42085404/reset-running-total-based-on-another-column

;WITH cte
     AS (SELECT rn,id,
                val,
                reset_val,
                grp,
                val                   AS running_total,
                Iif (val > reset_val, 1, 0) AS flag
         FROM   #test
         WHERE  rn = 1
         UNION ALL
         SELECT r.*,
                Iif(c.flag = 1, r.val, c.running_total + r.val),
                Iif(Iif(c.flag = 1, r.val, c.running_total + r.val) > r.reset_val, 1, 0)
         FROM   cte c
                JOIN #test r
                  ON r.grp = c.grp
                     AND r.rn = c.rn + 1)
SELECT *
FROM   cte 

क्या T-SQLबिना उपयोग के कोई बेहतर विकल्प है CLR।?


बेहतर कैसे? क्या यह क्वेरी खराब प्रदर्शन का प्रदर्शन करती है? क्या मैट्रिक्स का उपयोग कर?
हारून बर्ट्रेंड

@AaronBertrand - बेहतर समझ के लिए मैंने सिर्फ एक समूह के लिए नमूना डेटा पोस्ट किया है। मुझे ईद के आसपास के 50000समूहों के लिए भी ऐसा ही करना है । इसलिए अभिलेखों की कुल गणना लगभग होगी । यकीन है कि अच्छी तरह से पैमाने पर नहीं होगा । जब मैं वापस कार्यालय में जाऊंगा, तो मीट्रिक्स को अपडेट कर दूंगा। क्या आप इसे इस तरह हासिल कर सकते हैं जैसे आपने इस लेख में इस्तेमाल किया है sqlperformance.com/2012/07/t-sql-queries/running-totals60 3000000Recursive CTE3000000sum()Over(Order by)
P

एक कर्सर पुनरावर्ती CTE से बेहतर कर सकता है
paparazzo

जवाबों:


6

मैंने इसी तरह की समस्याओं को देखा है और कभी भी एक विंडो फ़ंक्शन समाधान खोजने में सक्षम नहीं हुआ है जो डेटा पर एक पास करता है। मुझे नहीं लगता कि यह संभव है। विंडो फ़ंक्शन को एक कॉलम में सभी मानों पर लागू करने में सक्षम होना चाहिए। यह इस तरह से रीसेट गणना को बहुत कठिन बनाता है, क्योंकि एक रीसेट निम्नलिखित सभी मानों के लिए मूल्य बदलता है।

समस्या के बारे में सोचने का एक तरीका यह है कि आप अंतिम परिणाम प्राप्त कर सकते हैं यदि आप एक मूल रनिंग कुल की गणना करें जब तक कि आप सही पिछली पंक्ति से रनिंग कुल को घटा सकें। उदाहरण के लिए, आपके नमूना डेटा में id4 का मान है running total of row 4 - the running total of row 3id6 के लिए मान है running total of row 6 - the running total of row 3क्योंकि एक रीसेट अभी तक नहीं हुआ है। id7 के लिए मूल्य running total of row 7 - the running total of row 6और इतने पर है।

मैं एक लूप में टी-एसक्यूएल के साथ इसे एप्रोच करूंगा। मैं थोड़ा दूर चला गया और मुझे लगता है कि मेरे पास एक पूर्ण समाधान है। 3 मिलियन पंक्तियों और 500 समूहों के लिए कोड 24 सेकंड में मेरे डेस्कटॉप पर समाप्त हो गया। मैं SQL सर्वर 2016 डेवलपर संस्करण के साथ 6 vCPU के साथ परीक्षण कर रहा हूं। मैं समानांतर आवेषण और सामान्य रूप से समानांतर निष्पादन का लाभ उठा रहा हूं ताकि आपको कोड बदलने की आवश्यकता हो यदि आप एक पुराने संस्करण पर हैं या डीओपी सीमाएं हैं।

उस कोड के नीचे जो मैंने डेटा उत्पन्न करने के लिए उपयोग किया था। पर पर्वतमाला VALऔर RESET_VALअपने नमूना डेटा के समान होना चाहिए।

drop table if exists reset_runn_total;

create table reset_runn_total
(
id int identity(1,1),
val int, 
reset_val int,
grp int
);

DECLARE 
@group_num INT,
@row_num INT;
BEGIN
    SET NOCOUNT ON;
    BEGIN TRANSACTION;

    SET @group_num = 1;
    WHILE @group_num <= 50000 
    BEGIN
        SET @row_num = 1;
        WHILE @row_num <= 60
        BEGIN
            INSERT INTO reset_runn_total WITH (TABLOCK)
            SELECT 1 + ABS(CHECKSUM(NewId())) % 10, 8 + ABS(CHECKSUM(NewId())) % 8, @group_num;

            SET @row_num = @row_num + 1;
        END;
        SET @group_num = @group_num + 1;
    END;
    COMMIT TRANSACTION;
END;

एल्गोरिथ्म इस प्रकार है:

1) एक अस्थायी तालिका में कुल चल रहे मानक के साथ सभी पंक्तियों को सम्मिलित करके प्रारंभ करें।

2) एक लूप में:

2a) प्रत्येक समूह के लिए, तालिका में शेष रीसेट_वल्यू के ऊपर एक रनिंग कुल के साथ पहली पंक्ति की गणना करें और आईडी को स्टोर करें, चल रहा कुल जो बहुत बड़ा था, और पिछले चलने वाला कुल जो एक अस्थायी तालिका में बहुत बड़ा था।

2 बी) पहले अस्थायी तालिका से पंक्तियों को एक परिणाम अस्थायी तालिका में हटा दें , जिसमें दूसरे अस्थायी तालिका की IDतुलना में कम या बराबर है ID। आवश्यकतानुसार चलने वाले कुल को समायोजित करने के लिए अन्य कॉलम का उपयोग करें।

3) हटाने के बाद अब प्रक्रियाएं DELETE OUTPUTपरिणाम तालिका में अतिरिक्त चलाती हैं । यह समूह के अंत में पंक्तियों के लिए है जो रीसेट मूल्य से अधिक नहीं है।

मैं टी-एसक्यूएल चरण में उपरोक्त एल्गोरिथ्म के एक कार्यान्वयन के माध्यम से कदम से कदम मिलाकर चलूंगा।

कुछ टेम्प टेबल बनाकर शुरू करें। #initial_resultsकुल चल रहे मानक के साथ मूल डेटा रखता है, #group_bookkeepingयह जानने के लिए प्रत्येक लूप को अपडेट किया जाता है कि कौन सी पंक्तियों को स्थानांतरित किया जा सकता है, और #final_resultsपरिणाम को रीसेट के लिए समायोजित कुल के साथ शामिल किया गया है।

CREATE TABLE #initial_results (
id int,
val int, 
reset_val int,
grp int,
initial_running_total int
);

CREATE TABLE #group_bookkeeping (
grp int,
max_id_to_move int,
running_total_to_subtract_this_loop int,
running_total_to_subtract_next_loop int,
grp_done bit, 
PRIMARY KEY (grp)
);

CREATE TABLE #final_results (
id int,
val int, 
reset_val int,
grp int,
running_total int
);

INSERT INTO #initial_results WITH (TABLOCK)
SELECT ID, VAL, RESET_VAL, GRP, SUM(VAL) OVER (PARTITION BY GRP ORDER BY ID) RUNNING_TOTAL
FROM reset_runn_total;

CREATE CLUSTERED INDEX i1 ON #initial_results (grp, id);

INSERT INTO #group_bookkeeping WITH (TABLOCK)
SELECT DISTINCT GRP, 0, 0, 0, 0
FROM reset_runn_total;

मैं टेम्प टेबल पर क्लस्टर इंडेक्स बनाता हूं ताकि डालने और इंडेक्स बिल्ड को समानांतर में किया जा सके। मेरी मशीन पर एक बड़ा फर्क पड़ा है लेकिन आप पर नहीं हो सकता है। स्रोत तालिका पर एक अनुक्रमणिका बनाना मदद करने के लिए प्रतीत नहीं हुआ, लेकिन यह आपकी मशीन पर मदद कर सकता है।

नीचे दिया गया कोड लूप में चलता है और बहीखाता तालिका को अद्यतन करता है। प्रत्येक समूह के लिए, हमें IDउस परिणाम को प्राप्त करने की आवश्यकता है जिसे परिणाम तालिका में स्थानांतरित किया जाना चाहिए। हमें उस पंक्ति से चलने वाले कुल की आवश्यकता है ताकि हम इसे प्रारंभिक चलने वाले कुल से घटा सकें। grp_doneस्तंभ 1 पर सेट है जब वहाँ एक के लिए ऐसा करने के लिए किसी भी अधिक काम नहीं है grp

WITH UPD_CTE AS (
        SELECT 
        #grp_bookkeeping.GRP
        , MIN(CASE WHEN initial_running_total - #group_bookkeeping.running_total_to_subtract_next_loop > RESET_VAL THEN ID ELSE NULL END) max_id_to_update
        , MIN(#group_bookkeeping.running_total_to_subtract_next_loop) running_total_to_subtract_this_loop
        , MIN(CASE WHEN initial_running_total - #group_bookkeeping.running_total_to_subtract_next_loop > RESET_VAL THEN initial_running_total ELSE NULL END) additional_value_next_loop
        , CASE WHEN MIN(CASE WHEN initial_running_total - #group_bookkeeping.running_total_to_subtract_next_loop > RESET_VAL THEN ID ELSE NULL END) IS NULL THEN 1 ELSE 0 END grp_done
        FROM #group_bookkeeping 
        INNER JOIN #initial_results IR ON #group_bookkeeping.grp = ir.grp
        WHERE #group_bookkeeping.grp_done = 0
        GROUP BY #group_bookkeeping.GRP
    )
    UPDATE #group_bookkeeping
    SET #group_bookkeeping.max_id_to_move = uv.max_id_to_update
    , #group_bookkeeping.running_total_to_subtract_this_loop = uv.running_total_to_subtract_this_loop
    , #group_bookkeeping.running_total_to_subtract_next_loop = uv.additional_value_next_loop
    , #group_bookkeeping.grp_done = uv.grp_done
    FROM UPD_CTE uv
    WHERE uv.GRP = #group_bookkeeping.grp
OPTION (LOOP JOIN);

वास्तव LOOP JOINमें सामान्य रूप से संकेत का प्रशंसक नहीं है , लेकिन यह एक सरल क्वेरी है और यह वह सबसे तेज़ तरीका है जो मुझे चाहिए था। प्रतिक्रिया समय के लिए वास्तव में अनुकूलित करने के लिए मुझे डीओपी 1 मर्ज जॉइन के बजाय समानांतर नेस्टेड लूप जॉइन चाहिए था।

नीचे दिया गया कोड लूप में चलता है और प्रारंभिक तालिका से अंतिम परिणाम तालिका में डेटा ले जाता है। प्रारंभिक चल रहे कुल को समायोजन पर ध्यान दें।

DELETE ir
OUTPUT DELETED.id,  
    DELETED.VAL,  
    DELETED.RESET_VAL,  
    DELETED.GRP ,
    DELETED.initial_running_total - tb.running_total_to_subtract_this_loop
INTO #final_results
FROM #initial_results ir
INNER JOIN #group_bookkeeping tb ON ir.GRP = tb.GRP AND ir.ID <= tb.max_id_to_move
WHERE tb.grp_done = 0;

आपकी सुविधा के लिए नीचे पूर्ण कोड है:

DECLARE @RC INT;
BEGIN
SET NOCOUNT ON;

CREATE TABLE #initial_results (
id int,
val int, 
reset_val int,
grp int,
initial_running_total int
);

CREATE TABLE #group_bookkeeping (
grp int,
max_id_to_move int,
running_total_to_subtract_this_loop int,
running_total_to_subtract_next_loop int,
grp_done bit, 
PRIMARY KEY (grp)
);

CREATE TABLE #final_results (
id int,
val int, 
reset_val int,
grp int,
running_total int
);

INSERT INTO #initial_results WITH (TABLOCK)
SELECT ID, VAL, RESET_VAL, GRP, SUM(VAL) OVER (PARTITION BY GRP ORDER BY ID) RUNNING_TOTAL
FROM reset_runn_total;

CREATE CLUSTERED INDEX i1 ON #initial_results (grp, id);

INSERT INTO #group_bookkeeping WITH (TABLOCK)
SELECT DISTINCT GRP, 0, 0, 0, 0
FROM reset_runn_total;

SET @RC = 1;
WHILE @RC > 0 
BEGIN
    WITH UPD_CTE AS (
        SELECT 
        #group_bookkeeping.GRP
        , MIN(CASE WHEN initial_running_total - #group_bookkeeping.running_total_to_subtract_next_loop > RESET_VAL THEN ID ELSE NULL END) max_id_to_move
        , MIN(#group_bookkeeping.running_total_to_subtract_next_loop) running_total_to_subtract_this_loop
        , MIN(CASE WHEN initial_running_total - #group_bookkeeping.running_total_to_subtract_next_loop > RESET_VAL THEN initial_running_total ELSE NULL END) additional_value_next_loop
        , CASE WHEN MIN(CASE WHEN initial_running_total - #group_bookkeeping.running_total_to_subtract_next_loop > RESET_VAL THEN ID ELSE NULL END) IS NULL THEN 1 ELSE 0 END grp_done
        FROM #group_bookkeeping 
        CROSS APPLY (SELECT ID, RESET_VAL, initial_running_total FROM #initial_results ir WHERE #group_bookkeeping.grp = ir.grp ) ir
        WHERE #group_bookkeeping.grp_done = 0
        GROUP BY #group_bookkeeping.GRP
    )
    UPDATE #group_bookkeeping
    SET #group_bookkeeping.max_id_to_move = uv.max_id_to_move
    , #group_bookkeeping.running_total_to_subtract_this_loop = uv.running_total_to_subtract_this_loop
    , #group_bookkeeping.running_total_to_subtract_next_loop = uv.additional_value_next_loop
    , #group_bookkeeping.grp_done = uv.grp_done
    FROM UPD_CTE uv
    WHERE uv.GRP = #group_bookkeeping.grp
    OPTION (LOOP JOIN);

    DELETE ir
    OUTPUT DELETED.id,  
        DELETED.VAL,  
        DELETED.RESET_VAL,  
        DELETED.GRP ,
        DELETED.initial_running_total - tb.running_total_to_subtract_this_loop
    INTO #final_results
    FROM #initial_results ir
    INNER JOIN #group_bookkeeping tb ON ir.GRP = tb.GRP AND ir.ID <= tb.max_id_to_move
    WHERE tb.grp_done = 0;

    SET @RC = @@ROWCOUNT;
END;

DELETE ir 
OUTPUT DELETED.id,  
    DELETED.VAL,  
    DELETED.RESET_VAL,  
    DELETED.GRP ,
    DELETED.initial_running_total - tb.running_total_to_subtract_this_loop
    INTO #final_results
FROM #initial_results ir
INNER JOIN #group_bookkeeping tb ON ir.GRP = tb.GRP;

CREATE CLUSTERED INDEX f1 ON #final_results (grp, id);

/* -- do something with the data
SELECT *
FROM #final_results
ORDER BY grp, id;
*/

DROP TABLE #final_results;
DROP TABLE #initial_results;
DROP TABLE #group_bookkeeping;

END;

बस बहुत बढ़िया मैं आपको इनाम के साथ पुरस्कार
दूंगा

हमारे सर्वर में, 50000 grp और 60 id के लिए आपका 1 मिनट और 10 सेकंड का समय लगा। Recursive CTE2 मिनट और 15 सेकंड
P

मैंने एक ही डेटा के साथ दोनों कोड का परीक्षण किया। तुम्हारा कमाल था। क्या इसमें और सुधार किया जा सकता है?
पी

मेरा मतलब था, मैंने आपके कोड को हमारे वास्तविक डेटा पर चलाया और इसका परीक्षण किया। गणना मेरी असली प्रक्रिया में अस्थायी तालिकाओं में संसाधित होती है, सबसे अधिक संभावना है कि इसे कसकर पैक किया जाना चाहिए। 30 सेकंड के आसपास इसे घटाया जा सकता है तो अच्छा होगा
P

@Prdp ने एक त्वरित दृष्टिकोण की कोशिश की जो एक अद्यतन का उपयोग करता है लेकिन यह बदतर लग रहा था। कुछ समय के लिए इस पर ध्यान नहीं दे पाएंगे। लॉग करने की कोशिश करें कि प्रत्येक ऑपरेशन में कितना समय लगता है ताकि आप यह पता लगा सकें कि कौन सा हिस्सा आपके सर्वर पर सबसे धीमा चल रहा है। यह निश्चित रूप से संभव है कि इस कोड या सामान्य रूप से एक बेहतर एल्गोरिथ्म को गति देने का एक तरीका है।
जो Obbish

4

CURSOR का उपयोग करना:

ALTER TABLE #reset_runn_total ADD RunningTotal int;

DECLARE @id int, @val int, @reset int, @acm int, @grp int, @last_grp int;
SET @acm = 0;

DECLARE curRes CURSOR FAST_FORWARD FOR 
SELECT id, val, reset_val, grp
FROM #reset_runn_total
ORDER BY grp, id;

OPEN curRes;
FETCH NEXT FROM curRes INTO @id, @val, @reset, @grp;
SET @last_grp = @grp;

WHILE @@FETCH_STATUS = 0  
BEGIN
    IF @grp <> @last_grp SET @acm = 0;
    SET @last_grp = @grp;
    SET @acm = @acm + @val;
    UPDATE #reset_runn_total
    SET RunningTotal = @acm
    WHERE id = @id;
    IF @acm > @reset SET @acm = 0;
    FETCH NEXT FROM curRes INTO @id, @val, @reset, @grp;
END

CLOSE curRes;
DEALLOCATE curRes;

+----+-----+-----------+-------------+
| id | val | reset_val | RunningTotal|
+----+-----+-----------+-------------+
| 1  | 1   | 10        |     1       |
+----+-----+-----------+-------------+
| 2  | 8   | 12        |     9       |
+----+-----+-----------+-------------+
| 3  | 6   | 14        |     15      |
+----+-----+-----------+-------------+
| 4  | 5   | 10        |     5       |
+----+-----+-----------+-------------+
| 5  | 6   | 13        |     11      |
+----+-----+-----------+-------------+
| 6  | 3   | 11        |     14      |
+----+-----+-----------+-------------+
| 7  | 9   | 8         |     9       |
+----+-----+-----------+-------------+
| 8  | 10  | 12        |     10      |
+----+-----+-----------+-------------+

यहां देखें: http://rextester.com/WSPLO95303


3

विंडो नहीं, बल्कि शुद्ध SQL संस्करण:

WITH x AS (
    SELECT TOP 1 id,
           val,
           reset_val,
           val AS running_total,
           1 AS level 
      FROM reset_runn_total
    UNION ALL
    SELECT r.id,
           r.val,
           r.reset_val,
           CASE WHEN x.running_total < x.reset_val THEN x.running_total + r.val ELSE r.val END,
           level = level + 1
      FROM x JOIN reset_runn_total AS r ON (r.id > x.id)
) SELECT
  *
FROM x
WHERE NOT EXISTS (
        SELECT 1
        FROM x AS x2
        WHERE x2.id = x.id
        AND x2.level > x.level
    )
ORDER BY id, level DESC
;

मैं SQL सर्वर की बोली का विशेषज्ञ नहीं हूं। यह PostrgreSQL के लिए एक प्रारंभिक संस्करण है (यदि मैं सही ढंग से समझता हूं कि मैं SQL सर्वर में पुनरावर्ती भाग में 1 / TOP 1 का उपयोग नहीं कर सकता):

WITH RECURSIVE x AS (
    (SELECT id, val, reset_val, val AS running_total
       FROM reset_runn_total
      ORDER BY id
      LIMIT 1)
    UNION
    (SELECT r.id, r.val, r.reset_val,
            CASE WHEN x.running_total < x.reset_val THEN x.running_total + r.val ELSE r.val END
       FROM x JOIN reset_runn_total AS r ON (r.id > x.id)
      ORDER BY id
      LIMIT 1)
) SELECT * FROM x;

@JoeObish ईमानदार होना, यह सवाल से पूरी तरह से स्पष्ट नहीं है। उदाहरण के लिए अपेक्षित परिणाम, कोई grpकॉलम नहीं दिखा ।
ypercube y

@ जोएबिश वह है जो मैंने भी समझा। फिर भी, इस प्रश्न के बारे में एक स्पष्ट कथन से लाभ हो सकता है। प्रश्न में कोड (CTE के साथ) या तो इसका उपयोग नहीं करता है (और इसमें अलग-अलग नाम वाले कॉलम भी हैं)। यह उन लोगों के लिए स्पष्ट होगा जो प्रश्न पढ़ते हैं - वे नहीं करेंगे - और नहीं - और अन्य उत्तरों या टिप्पणियों को पढ़ना होगा।
ypercube y

@ ypercube y ने प्रश्न पर आवश्यक जानकारी जोड़ी।
पी

1

ऐसा लगता है कि समस्या पर हमला करने के लिए आपके पास कई प्रश्न / तरीके हैं लेकिन आपने हमें प्रदान नहीं किया है - या यहां तक ​​कि माना जाता है? - मेज पर अनुक्रमित।

तालिका में कौन से सूचकांक हैं? क्या यह एक ढेर है या इसमें एक क्लस्टर इंडेक्स है?

मैं इस सूचकांक को जोड़ने के बाद सुझाए गए विभिन्न समाधानों की कोशिश करूंगा:

(grp, id) INCLUDE (val, reset_val)

या बस (या बनाने) संकुल अनुक्रमणिका को बदलने के लिए (grp, id)

किसी ऐसे सूचकांक के होने से जो विशिष्ट क्वेरी को लक्षित करता है, उसे दक्षता में सुधार करना चाहिए - यदि सभी विधियाँ नहीं तो।


प्रश्न पर आवश्यक जानकारी जोड़ी गई।
P P்
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.