समूह के अनुसार N परिणाम प्राप्त करने के लिए GROUP BY द्वारा सीमा का उपयोग करना?


385

निम्नलिखित प्रश्न:

SELECT
year, id, rate
FROM h
WHERE year BETWEEN 2000 AND 2009
AND id IN (SELECT rid FROM table2)
GROUP BY id, year
ORDER BY id, rate DESC

पैदावार:

year    id  rate
2006    p01 8
2003    p01 7.4
2008    p01 6.8
2001    p01 5.9
2007    p01 5.3
2009    p01 4.4
2002    p01 3.9
2004    p01 3.5
2005    p01 2.1
2000    p01 0.8
2001    p02 12.5
2004    p02 12.4
2002    p02 12.2
2003    p02 10.3
2000    p02 8.7
2006    p02 4.6
2007    p02 3.3

मुझे क्या चाहिए प्रत्येक आईडी के लिए केवल शीर्ष 5 परिणाम हैं:

2006    p01 8
2003    p01 7.4
2008    p01 6.8
2001    p01 5.9
2007    p01 5.3
2001    p02 12.5
2004    p02 12.4
2002    p02 12.2
2003    p02 10.3
2000    p02 8.7

क्या ऐसा करने का एक तरीका है कि आप किसी प्रकार के लिमिट जैसे संशोधक का उपयोग कर सकते हैं जो ग्रुप बीवाई के भीतर काम करता है?


10
यह MySQL में किया जा सकता है, लेकिन यह LIMITक्लॉज़ जोड़ने जितना आसान नहीं है । यहां एक लेख है जो समस्या के बारे में विस्तार से बताता है: एसक्यूएल में प्रति समूह में पहली / सबसे कम / अधिकतम पंक्ति का चयन कैसे करें यह एक अच्छा लेख है - वह "टॉप एन प्रति समूह" समस्या का एक सुरुचिपूर्ण लेकिन भोला समाधान प्रस्तुत करता है, और फिर धीरे-धीरे। उस पर सुधार होता है।
डेनबेन

सेलेक्ट * FROM (सिलेक्ट ईयर, आईडी, रेट फ्रॉम h
हियर इयर बीटाउन

जवाबों:


115

आप सभी वर्षों को एक एकल स्तंभ में समूहीकृत और क्रमबद्ध करके प्राप्त करने के लिए GROUP_CONCAT कुल फ़ंक्शन का उपयोग कर सकते हैं :idrate

SELECT   id, GROUP_CONCAT(year ORDER BY rate DESC) grouped_year
FROM     yourtable
GROUP BY id

परिणाम:

-----------------------------------------------------------
|  ID | GROUPED_YEAR                                      |
-----------------------------------------------------------
| p01 | 2006,2003,2008,2001,2007,2009,2002,2004,2005,2000 |
| p02 | 2001,2004,2002,2003,2000,2006,2007                |
-----------------------------------------------------------

और फिर आप FIND_IN_SET का उपयोग कर सकते हैं , जो दूसरे के अंदर पहले तर्क की स्थिति देता है, जैसे।

SELECT FIND_IN_SET('2006', '2006,2003,2008,2001,2007,2009,2002,2004,2005,2000');
1

SELECT FIND_IN_SET('2009', '2006,2003,2008,2001,2007,2009,2002,2004,2005,2000');
6

के संयोजन से GROUP_CONCATऔर FIND_IN_SET, और फ़िल्टरिंग का उपयोग करके find_in_set द्वारा लौटाया गया, आप तब इस क्वेरी का उपयोग कर सकते हैं जो प्रत्येक आईडी के लिए केवल पहले 5 वर्ष लौटाती है:

SELECT
  yourtable.*
FROM
  yourtable INNER JOIN (
    SELECT
      id,
      GROUP_CONCAT(year ORDER BY rate DESC) grouped_year
    FROM
      yourtable
    GROUP BY id) group_max
  ON yourtable.id = group_max.id
     AND FIND_IN_SET(year, grouped_year) BETWEEN 1 AND 5
ORDER BY
  yourtable.id, yourtable.year DESC;

कृपया यहाँ फिडल देखें ।

कृपया ध्यान दें कि यदि एक से अधिक पंक्ति में समान दर हो सकती है, तो आपको वर्ष कॉलम के बजाय दर स्तंभ पर GROUP_CONCAT (DISTINCT दर ORDER BY दर) का उपयोग करने पर विचार करना चाहिए।

GROUP_CONCAT द्वारा लौटाए गए स्ट्रिंग की अधिकतम लंबाई सीमित है, इसलिए यदि आप प्रत्येक समूह के लिए कुछ रिकॉर्ड का चयन करने की आवश्यकता है तो यह अच्छी तरह से काम करता है।


3
यह खूबसूरती से प्रदर्शन, तुलनात्मक रूप से सरल, और महान विवरण है; बहुत बहुत धन्यवाद। आपके अंतिम बिंदु पर, जहां एक उचित अधिकतम लंबाई की गणना की जा सकती है, कोई भी व्यक्ति SET SESSION group_concat_max_len = <maximum length>;ओपी के मामले में, एक गैर-मुद्दा (चूंकि डिफ़ॉल्ट 1024 है) का उपयोग कर सकता है, लेकिन उदाहरण के लिए, group_concat_max_len कम से कम 25 होना चाहिए: 4 (अधिकतम) एक वर्ष की लंबाई) + 1 (विभाजक चरित्र), 5 बार (पहले 5 वर्ष)। किसी त्रुटि को फेंकने के बजाय तार काटे जाते हैं, इसलिए चेतावनी जैसे देखें 1054 rows in set, 789 warnings (0.31 sec)
तीमुथियुस जॉन्स

अगर मैं 1 से 5 के बजाय सटीक 2 पंक्तियों को लाना चाहता हूं तो मुझे क्या करना चाहिए FIND_IN_SET()। मैंने कोशिश की FIND_IN_SET() =2लेकिन उम्मीद के मुताबिक परिणाम नहीं दिखा।
अमोघ

FIND_IN_SET BETWEEN 1 और 5, GROUP_CONCAT सेट की पहली 5 स्थिति लेगा यदि आकार 5 के बराबर या उससे अधिक हो। तो FIND_IN_SET = 2 आपके GROUP_CONCAT में केवल 2 स्थान के साथ डेटा लेगा। 2 पंक्तियाँ प्राप्त करके आप पहली और दूसरी स्थिति के लिए 1 और 2 की कोशिश कर सकते हैं।
jDub9

यह समाधान बड़े डेटासेट के लिए सलमान की तुलना में बेहतर प्रदर्शन है। मैं वैसे भी इस तरह के चतुर समाधान के लिए दोनों को एक अंगूठे दिया। धन्यवाद!!
tiomno

105

मूल प्रश्न उपयोगकर्ता चर और इस्तेमाल किया ORDER BYव्युत्पन्न टेबल पर; दोनों quirks के व्यवहार की गारंटी नहीं है। संशोधित उत्तर इस प्रकार है।

MySQL 5.x में आप वांछित परिणाम प्राप्त करने के लिए विभाजन पर गरीब आदमी की रैंक का उपयोग कर सकते हैं। बस बाहरी अपने साथ तालिका में शामिल हों और प्रत्येक पंक्ति के लिए, इससे कम पंक्तियों की संख्या गिनें । उपरोक्त मामले में, कम पंक्ति उच्च दर वाली है:

SELECT t.id, t.rate, t.year, COUNT(l.rate) AS rank
FROM t
LEFT JOIN t AS l ON t.id = l.id AND t.rate < l.rate
GROUP BY t.id, t.rate, t.year
HAVING COUNT(l.rate) < 5
ORDER BY t.id, t.rate DESC, t.year

डेमो और परिणाम :

| id  | rate | year | rank |
|-----|------|------|------|
| p01 |  8.0 | 2006 | 0    |
| p01 |  7.4 | 2003 | 1    |
| p01 |  6.8 | 2008 | 2    |
| p01 |  5.9 | 2001 | 3    |
| p01 |  5.3 | 2007 | 4    |
| p02 | 12.5 | 2001 | 0    |
| p02 | 12.4 | 2004 | 1    |
| p02 | 12.2 | 2002 | 2    |
| p02 | 10.3 | 2003 | 3    |
| p02 |  8.7 | 2000 | 4    |

ध्यान दें कि यदि दरों में संबंध थे, उदाहरण के लिए:

100, 90, 90, 80, 80, 80, 70, 60, 50, 40, ...

उपरोक्त प्रश्न 6 पंक्तियों को लौटाएगा:

100, 90, 90, 80, 80, 80

HAVING COUNT(DISTINCT l.rate) < 58 पंक्तियों को पाने के लिए बदलें :

100, 90, 90, 80, 80, 80, 70, 60

या ON t.id = l.id AND (t.rate < l.rate OR (t.rate = l.rate AND t.pri_key > l.pri_key))5 पंक्तियों को प्राप्त करने के लिए बदलें :

 100, 90, 90, 80, 80

MySQL 8 में या बाद में बस RANK, DENSE_RANKयाROW_NUMBER फ़ंक्शंस का उपयोग करें :

SELECT *
FROM (
    SELECT *, RANK() OVER (PARTITION BY id ORDER BY rate DESC) AS rnk
    FROM t
) AS x
WHERE rnk <= 5

7
मुझे लगता है कि यह ध्यान देने योग्य है कि कुंजी का हिस्सा आईडी द्वारा ऑर्डर करना है क्योंकि आईडी के मूल्य में कोई भी बदलाव रैंक में गिनती को फिर से शुरू करेगा।
खंडहर

प्रतिक्रिया प्राप्त करने के लिए मुझे इसे दो बार क्यों चलाना चाहिए WHERE rank <=5? पहली बार im को प्रत्येक आईडी से 5 पंक्तियाँ नहीं मिल रही हैं, लेकिन इसके बाद मैं आपके कहे अनुसार मिल सकता हूँ।
ब्रेनो लील

@BrennoLeal मुझे लगता है कि आप SETकथन (प्रथम प्रश्न देखें) भूल रहे हैं । यह आवश्यक है।
सलमान ए

3
नए संस्करणों ORDER BYमें, व्युत्पन्न तालिका में, और अक्सर, को अनदेखा किया जाएगा। यह लक्ष्य को हरा देता है। कुशल समूह-वार यहाँ पाए जाते हैं
रिक जेम्स

1
+1 आपका उत्तर फिर से लिखना बहुत ही मान्य है, क्योंकि आधुनिक MySQL / MariaDB संस्करण ANSI / ISO SQL 1992/1999/2003 मानकों का पालन करते हैं, जहाँ इसे वास्तव में कभी भी इस तरह से डिल्ड / सबक्वेरी ORDER BYमें उपयोग करने की अनुमति नहीं दी गई थी । यही कारण है कि आधुनिक MySQL / मारियाडीबी संस्करण ORDER BYबिना उपयोग किए उपश्रेणी में नजरअंदाज कर देते हैं LIMIT, मेरा मानना ​​है कि एएनएसआई / आईएसओ एसक्यूएल स्टैंडर्ड्स 2008/2011/2016 ORDER BYडिलीवरी / सबक्वायरीज को कानूनी बनाता है जब इसके साथ संयोजन में उपयोग किया जाता हैFETCH FIRST n ROWS ONLY
रेमंड निजलैंड

21

मेरे लिए कुछ ऐसा है

SUBSTRING_INDEX(group_concat(col_name order by desired_col_order_name), ',', N) 

अच्छी तरह से काम। कोई जटिल प्रश्न नहीं।


उदाहरण के लिए: प्रत्येक समूह के लिए शीर्ष 1 प्राप्त करें

SELECT 
    *
FROM
    yourtable
WHERE
    id IN (SELECT 
            SUBSTRING_INDEX(GROUP_CONCAT(id
                            ORDER BY rate DESC),
                        ',',
                        1) id
        FROM
            yourtable
        GROUP BY year)
ORDER BY rate DESC;

आपके समाधान ने पूरी तरह से काम किया है, लेकिन मैं वर्ष और अन्य स्तंभों को भी उपकुंजी से पुनर्प्राप्त करना चाहता हूं, हम यह कैसे कर सकते हैं?
MaNn

9

नहीं, आप मनमाने ढंग से उप-सूची नहीं दे सकते हैं (आप इसे नए MySQLs में सीमित सीमा तक कर सकते हैं, लेकिन प्रति समूह 5 परिणामों के लिए नहीं)।

यह एक समूहवार-अधिकतम प्रकार की क्वेरी है, जो SQL में करने के लिए तुच्छ नहीं है। इससे निपटने के विभिन्न तरीके हैं , जो कुछ मामलों के लिए अधिक कुशल हो सकते हैं, लेकिन सामान्य तौर पर टॉप-एन के लिए आप बिल के पिछले प्रश्न के उत्तर को देखना चाहेंगे ।

इस समस्या के अधिकांश समाधानों के रूप में, यह पाँच से अधिक पंक्तियों को वापस कर सकता है यदि एक ही rateमूल्य के साथ कई पंक्तियाँ हैं , तो आपको अभी भी उसके लिए जाँच करने के लिए पोस्ट-प्रोसेसिंग की मात्रा की आवश्यकता हो सकती है।


9

इसमें मानों को रैंक करने, उन्हें सीमित करने, फिर समूह बनाते समय योग करने के लिए उप-श्रृंखलाओं की एक श्रृंखला की आवश्यकता होती है

@Rnk:=0;
@N:=2;
select
  c.id,
  sum(c.val)
from (
select
  b.id,
  b.bal
from (
select   
  if(@last_id=id,@Rnk+1,1) as Rnk,
  a.id,
  a.val,
  @last_id=id,
from (   
select 
  id,
  val 
from list
order by id,val desc) as a) as b
where b.rnk < @N) as c
group by c.id;

9

इसे इस्तेमाल करे:

SELECT h.year, h.id, h.rate 
FROM (SELECT h.year, h.id, h.rate, IF(@lastid = (@lastid:=h.id), @index:=@index+1, @index:=0) indx 
      FROM (SELECT h.year, h.id, h.rate 
            FROM h
            WHERE h.year BETWEEN 2000 AND 2009 AND id IN (SELECT rid FROM table2)
            GROUP BY id, h.year
            ORDER BY id, rate DESC
            ) h, (SELECT @lastid:='', @index:=0) AS a
    ) h 
WHERE h.indx <= 5;

1
क्षेत्र सूची में अज्ञात स्तंभ a.type
अनु

5
SELECT year, id, rate
FROM (SELECT
  year, id, rate, row_number() over (partition by id order by rate DESC)
  FROM h
  WHERE year BETWEEN 2000 AND 2009
  AND id IN (SELECT rid FROM table2)
  GROUP BY id, year
  ORDER BY id, rate DESC) as subquery
WHERE row_number <= 5

उपकुंजी आपकी क्वेरी के लगभग समान है। केवल परिवर्तन जोड़ रहा है

row_number() over (partition by id order by rate DESC)

8
यह अच्छा है लेकिन MySQL में कोई विंडो फ़ंक्शन (जैसे ROW_NUMBER()) नहीं हैं।
ypercube y

3
MySQL 8.0 के रूप में, row_number()है उपलब्ध
erickg

4

वर्चुअल कॉलम बनाएं the Oracle में पंक्ति की तरह (

तालिका:

`
CREATE TABLE `stack` 
(`year` int(11) DEFAULT NULL,
`id` varchar(10) DEFAULT NULL,
`rate` float DEFAULT NULL) 
ENGINE=InnoDB DEFAULT CHARSET=utf8mb4
`

डेटा:

insert into stack values(2006,'p01',8);
insert into stack values(2001,'p01',5.9);
insert into stack values(2007,'p01',5.3);
insert into stack values(2009,'p01',4.4);
insert into stack values(2001,'p02',12.5);
insert into stack values(2004,'p02',12.4);
insert into stack values(2005,'p01',2.1);
insert into stack values(2000,'p01',0.8);
insert into stack values(2002,'p02',12.2);
insert into stack values(2002,'p01',3.9);
insert into stack values(2004,'p01',3.5);
insert into stack values(2003,'p02',10.3);
insert into stack values(2000,'p02',8.7);
insert into stack values(2006,'p02',4.6);
insert into stack values(2007,'p02',3.3);
insert into stack values(2003,'p01',7.4);
insert into stack values(2008,'p01',6.8);

इस तरह एसक्यूएल:

select t3.year,t3.id,t3.rate 
from (select t1.*, (select count(*) from stack t2 where t1.rate<=t2.rate and t1.id=t2.id) as rownum from stack t1) t3 
where rownum <=3 order by id,rate DESC;

यदि t3 में जहाँ क्लॉज़ को हटाते हैं, यह इस तरह दिखाता है:

यहां छवि विवरण दर्ज करें

"TOP N रिकॉर्ड" प्राप्त करें -> "पंक्तिबद्ध <= 3" को जहां क्लॉज (t3 का जहां-जहां-खंड) में जोड़ें;

"वर्ष" का चयन करें -> जहाँ क्लॉज़ (t3 का जहाँ-का-क्लाज़) में "बेटविन 2000 और 2009" जोड़ें;


यदि आपके पास समान आईडी के लिए दोहराए जाने वाले दर हैं, तो यह काम नहीं करेगा क्योंकि आपकी पंक्तिबद्ध संख्या अधिक हो जाएगी; आपको प्रति पंक्ति 3 नहीं मिलेगी, आप 0, 1 या 2 प्राप्त कर सकते हैं। क्या आप इसके लिए कोई समाधान सोच सकते हैं?
स्टारवेटर

@starvator ने "t1.rate <= t2.rate" को "t1.rate <t2.rate" में बदल दिया, अगर एक ही आईडी में सबसे अच्छी दर समान मान है, तो उन सभी में समान पंक्तिबद्धता है लेकिन उच्च वृद्धि नहीं होगी; जैसे "आईडी पी 01 में रेट 8", अगर यह "t1.rate <t2.rate" का उपयोग करके दोहराता है, तो "आईडी आईडी 01 में रेट 8" दोनों में समान पंक्ति 0 है; यदि "t1.rate <= t2.rate" का उपयोग कर रहे हैं, तो पंक्तिबद्ध 2 है;
वांग वेनान

3

कुछ काम कर रहे हैं, लेकिन मैं अपने समाधान साझा करने के लिए कुछ हो जाएगा क्योंकि यह सुंदर है और साथ ही काफी तेज लगता है।

SELECT h.year, h.id, h.rate 
  FROM (
    SELECT id, 
      SUBSTRING_INDEX(GROUP_CONCAT(CONCAT(id, '-', year) ORDER BY rate DESC), ',' , 5) AS l
      FROM h
      WHERE year BETWEEN 2000 AND 2009
      GROUP BY id
      ORDER BY id
  ) AS h_temp
    LEFT JOIN h ON h.id = h_temp.id 
      AND SUBSTRING_INDEX(h_temp.l, CONCAT(h.id, '-', h.year), 1) != h_temp.l

ध्यान दें कि यह उदाहरण प्रश्न के उद्देश्य के लिए निर्दिष्ट किया गया है और अन्य समान उद्देश्यों के लिए काफी आसानी से संशोधित किया जा सकता है।


2

निम्न पद: sql: selcting top N रिकॉर्ड प्रति समूह यह सबक्वेरी के बिना इसे प्राप्त करने के जटिल तरीके का वर्णन करता है।

यह यहाँ प्रस्तुत अन्य समाधानों में सुधार करता है:

  • एक ही प्रश्न में सब कुछ करना
  • इंडेक्स का ठीक से उपयोग करने में सक्षम होना
  • उप-वर्ग से बचना, कुख्यात रूप से MySQL में खराब निष्पादन योजनाओं का उत्पादन करने के लिए जाना जाता है

यह हालांकि सुंदर नहीं है। एक अच्छा समाधान प्राप्त करने योग्य होगा MySQL में विंडो फ़ंक्शंस (उर्फ एनालिटिक फ़ंक्शंस) सक्षम थे - लेकिन वे नहीं हैं। उक्त पोस्ट में उपयोग की गई ट्रिक GROUP_CONCAT का उपयोग करती है, जिसे कभी-कभी "MySQL के लिए गरीब आदमी की विंडो फ़ंक्शंस" के रूप में वर्णित किया जाता है।


1

मेरे जैसे उन लोगों के लिए जिनके पास प्रश्नों का समय था। मैंने एक विशिष्ट समूह द्वारा सीमा और कुछ और का उपयोग करने के लिए नीचे दिया है।

DELIMITER $$
CREATE PROCEDURE count_limit200()
BEGIN
    DECLARE a INT Default 0;
    DECLARE stop_loop INT Default 0;
    DECLARE domain_val VARCHAR(250);
    DECLARE domain_list CURSOR FOR SELECT DISTINCT domain FROM db.one;

    OPEN domain_list;

    SELECT COUNT(DISTINCT(domain)) INTO stop_loop 
    FROM db.one;
    -- BEGIN LOOP
    loop_thru_domains: LOOP
        FETCH domain_list INTO domain_val;
        SET a=a+1;

        INSERT INTO db.two(book,artist,title,title_count,last_updated) 
        SELECT * FROM 
        (
            SELECT book,artist,title,COUNT(ObjectKey) AS titleCount, NOW() 
            FROM db.one 
            WHERE book = domain_val
            GROUP BY artist,title
            ORDER BY book,titleCount DESC
            LIMIT 200
        ) a ON DUPLICATE KEY UPDATE title_count = titleCount, last_updated = NOW();

        IF a = stop_loop THEN
            LEAVE loop_thru_domain;
        END IF;
    END LOOP loop_thru_domain;
END $$

यह डोमेन की एक सूची के माध्यम से लूप करता है और फिर केवल 200 की एक सीमा सम्मिलित करता है


1

इसे इस्तेमाल करे:

SET @num := 0, @type := '';
SELECT `year`, `id`, `rate`,
    @num := if(@type = `id`, @num + 1, 1) AS `row_number`,
    @type := `id` AS `dummy`
FROM (
    SELECT *
    FROM `h`
    WHERE (
        `year` BETWEEN '2000' AND '2009'
        AND `id` IN (SELECT `rid` FROM `table2`) AS `temp_rid`
    )
    ORDER BY `id`
) AS `temph`
GROUP BY `year`, `id`, `rate`
HAVING `row_number`<='5'
ORDER BY `id`, `rate DESC;

0

कृपया नीचे संग्रहीत प्रक्रिया का प्रयास करें। मैंने पहले ही सत्यापित कर दिया है। मुझे उचित परिणाम मिल रहा है लेकिन उपयोग किए बिना groupby

CREATE DEFINER=`ks_root`@`%` PROCEDURE `first_five_record_per_id`()
BEGIN
DECLARE query_string text;
DECLARE datasource1 varchar(24);
DECLARE done INT DEFAULT 0;
DECLARE tenants varchar(50);
DECLARE cur1 CURSOR FOR SELECT rid FROM demo1;
DECLARE CONTINUE HANDLER FOR NOT FOUND SET done = 1;

    SET @query_string='';

      OPEN cur1;
      read_loop: LOOP

      FETCH cur1 INTO tenants ;

      IF done THEN
        LEAVE read_loop;
      END IF;

      SET @datasource1 = tenants;
      SET @query_string = concat(@query_string,'(select * from demo  where `id` = ''',@datasource1,''' order by rate desc LIMIT 5) UNION ALL ');

       END LOOP; 
      close cur1;

    SET @query_string  = TRIM(TRAILING 'UNION ALL' FROM TRIM(@query_string));  
  select @query_string;
PREPARE stmt FROM @query_string;
EXECUTE stmt;
DEALLOCATE PREPARE stmt;

END
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.