डेटा शुद्ध करने का सबसे तेज़ तरीका क्या है?


18

परिदृश्य:

हमारे पास सब्सक्राइबर सर्वर पर दो टेबल Tbl1और हैं Tbl2Tbl1प्रकाशक से दोहराया जा रहा है Server Aऔर यह दो ट्रिगर नहीं है - डालने और अद्यतन। ट्रिगर डेटा में सम्मिलित और अपडेट कर रहे हैं Tbl2

अब, हमें शुद्ध करना होगा (लगभग 900 मिलियन रिकॉर्ड) Tbl2जिसमें से कुल 1000+ मिलियन रिकॉर्ड है। नीचे एक महीने से एक मिनट के लिए डेटा वितरण है।

  • एक महीना - 14986826 पंक्तियाँ
  • एक दिन - 483446 पंक्तियाँ
  • एक घंटे - 20143 पंक्तियों
  • एक मिनट - 335 पंक्तियाँ

मैं जो खोज रहा हूं;

किसी भी उत्पादन के मुद्दे के बिना उस डेटा को शुद्ध करने का सबसे तेज़ तरीका, डेटा स्थिरता और संभवतः कोई डाउनटाइम नहीं है। इसलिए, मैं नीचे दिए गए चरणों का पालन करने के लिए सोच रहा हूं लेकिन अटक गया :(

कदम:

  1. BCP मौजूदा तालिका Tbl2 (लगभग 100 मिलियन रिकॉर्ड्स) से आवश्यक डेटा निकालता है, इसमें लगभग 30 मिनट लग सकते हैं)।
    • मान लें कि मैंने 1Fab2018 10:00 PM पर गतिविधि करना शुरू कर दिया, यह 1Fab2018 10:30 PM पर समाप्त हुआ। जब तक गतिविधि पूरी हो जाएगी, टेबल Tbl2 को नए रिकॉर्ड मिल जाएंगे जो डेल्टा बन जाते हैं
  2. डेटाबेस में Tbl3 नाम से एक नई तालिका बनाएँ
  3. निर्यात किए गए डेटा में BCP को नई बनाई गई तालिका Tbl3 (लगभग 100 मिलियन रिकॉर्ड) में लगभग 30 मिनट लग सकते हैं।
  4. प्रतिकृति कार्य रोकें
  5. एक बार BCP-in पूर्ण हो जाने के बाद, नए डेल्टा डेटा को सम्मिलित करने के लिए tsql स्क्रिप्ट का उपयोग करें।

  6. चुनौती है - डेल्टा "अपडेट" स्टेटमेंट से कैसे निपटें?

  7. प्रतिकृति शुरू करें

अतिरिक्त प्रश्न:

परिदृश्य से निपटने का सबसे अच्छा तरीका क्या है?

जवाबों:


26

चूंकि आप 90% पंक्तियों को हटा रहे हैं, इसलिए मैं आपको उन पंक्तियों की प्रतिलिपि बनाने की सलाह दूंगा जिन्हें आपको एक ही संरचना के साथ एक नई तालिका में रखने की आवश्यकता है, फिर ALTER TABLE ... SWITCHमौजूदा तालिका को नई तालिका से बदलने के लिए उपयोग करें, फिर बस पुरानी तालिका को छोड़ दें। इस Microsoft डॉक्स पृष्ठ को सिंटैक्स के लिए देखें ।

एक साधारण परीक्षण-बिस्तर, बिना प्रतिकृति के जो सामान्य सिद्धांत को दर्शाता है:

पहले, हम अपने परीक्षण के लिए एक डेटाबेस बनाएंगे:

USE master;
IF (SELECT 1 FROM sys.databases d WHERE d.name = 'SwitchTest') IS NOT NULL
BEGIN
    ALTER DATABASE SwitchTest SET SINGLE_USER WITH ROLLBACK IMMEDIATE;
    DROP DATABASE SwitchTest;
END
CREATE DATABASE SwitchTest;
ALTER DATABASE SwitchTest SET RECOVERY FULL;
BACKUP DATABASE SwitchTest TO DISK = 'NUL:';
GO

यहां, हम टेबल की एक जोड़ी बनाते हैं, जिसमें एक पंक्ति से तालिका "ए" से "बी" तक पंक्तियों को स्थानांतरित करने के लिए, आपके सेटअप को अनुमानित करता है।

USE SwitchTest;
GO
CREATE TABLE dbo.A
(
    i int NOT NULL 
        CONSTRAINT PK_A
        PRIMARY KEY CLUSTERED
        IDENTITY(1,1)
    , d varchar(300) NOT NULL
    , rowdate datetime NOT NULL
) ON [PRIMARY]
WITH (DATA_COMPRESSION = PAGE);

CREATE TABLE dbo.B
(
    i int NOT NULL 
        CONSTRAINT PK_B
        PRIMARY KEY CLUSTERED
    , d varchar(300) NOT NULL
    , rowdate datetime NOT NULL
) ON [PRIMARY]
WITH (DATA_COMPRESSION = PAGE);

GO
CREATE TRIGGER t_a
ON dbo.A
AFTER INSERT, UPDATE
AS
BEGIN
    SET NOCOUNT ON;
    DELETE
    FROM dbo.B
    FROM dbo.B b
        INNER JOIN deleted d ON b.i = d.i
    INSERT INTO dbo.B (i, d, rowdate)
    SELECT i.i
        , i.d
        , i.rowdate
    FROM inserted i;
END
GO

यहां, हम 1,000,000 पंक्तियों को "ए" में सम्मिलित करते हैं, और ट्रिगर के कारण, उन पंक्तियों को "बी" में भी डाला जाएगा।

;WITH src AS (
    SELECT i.n
    FROM (VALUES (0), (1), (2), (3), (4), (5), (6), (7), (8), (9))i(n)
)
INSERT INTO dbo.A (d, rowdate)
SELECT d = CRYPT_GEN_RANDOM(300), DATEADD(SECOND, s6.n + (s5.n * 100000) + (s4.n * 10000) + (s3.n * 1000) + (s2.n * 100) + (s1.n * 10), '2017-01-01T00:00:00.000')
FROM src s1
    CROSS JOIN src s2
    CROSS JOIN src s3
    CROSS JOIN src s4
    CROSS JOIN src s5
    CROSS JOIN src s6;

कमरे से बाहर भागने से बचने के लिए, लेन-देन लॉग साफ़ करें। इसे उत्पादन में न रखें क्योंकि यह "एनयूएल" डिवाइस को लेनदेन लॉग डेटा भेजता है।

BACKUP LOG SwitchTest TO DISK = 'NUL:';
GO

यह कोड यह सुनिश्चित करने के लिए एक लेनदेन बनाता है कि प्रभावित तालिकाओं में से कोई भी लिखा नहीं जा सकता है जबकि हम पंक्तियों को स्थानांतरित कर रहे हैं:

BEGIN TRANSACTION
EXEC sys.sp_getapplock @Resource = N'TableSwitcher', @LockMode = 'Exclusive', @LockOwner = 'Transaction', @LockTimeout = '1000', @DbPrincipal = N'dbo';
BEGIN TRY
    -- create a table to hold the rows we want to keep
    CREATE TABLE dbo.C
    (
        i int NOT NULL 
            CONSTRAINT PK_C
            PRIMARY KEY CLUSTERED
        , d varchar(300) NOT NULL
        , rowdate datetime NOT NULL
    ) ON [PRIMARY]
    WITH (DATA_COMPRESSION = PAGE);

    --copy the rows we want to keep into "C"
    INSERT INTO dbo.C (i, d, rowdate)
    SELECT b.i
        , b.d
        , b.rowdate
    FROM dbo.B
    WHERE b.rowdate >= '2017-01-11T10:00:00';

    --truncate the entire "B" table
    TRUNCATE TABLE dbo.B;

    --"switch" table "C" into "B"
    ALTER TABLE dbo.C SWITCH TO dbo.B;

    --drop table "C", since we no longer need it
    DROP TABLE dbo.C;

    --shows the count of rows in "B" which were retained.
    SELECT COUNT(1)
    FROM dbo.B
    WHERE b.rowdate >= '2017-01-11T10:00:00';

   --look for rows in "B" that should no longer exist.
    SELECT COUNT(1)
    FROM dbo.B
    WHERE b.rowdate < '2017-01-11T10:00:00';

    --release the applock and commit the transaction
    EXEC sys.sp_releaseapplock @Resource = N'TableSwitcher', @LockOwner = 'Transaction', @DbPrincipal = N'dbo';
    COMMIT TRANSACTION;
END TRY
BEGIN CATCH
    DECLARE @message nvarchar(1000) = ERROR_MESSAGE();
    DECLARE @severity int = ERROR_SEVERITY();
    DECLARE @state int = ERROR_STATE();
    RAISERROR (@message, @severity, @state);
    EXEC sys.sp_releaseapplock @Resource = N'TableSwitcher', @LockOwner = 'Transaction', @DbPrincipal = N'dbo';
    ROLLBACK TRANSACTION;
END CATCH
GO

sp_getapplockऔर sp_releaseapplockइस कोड को एक ही समय में चल रहा है के कई उदाहरण को रोकने के। यदि आप इस कोड को GUI के माध्यम से पुन: उपयोग करने में सक्षम करते हैं तो यह मददगार होगा।

(ध्यान दें कि ऐप लॉक केवल तभी प्रभावी होते हैं जब प्रत्येक संसाधन तक पहुँचने वाली प्रक्रिया समान मैनुअल संसाधन लॉजिक को स्पष्ट रूप से लागू करती है - ऐसा कोई जादू नहीं है कि एसक्यूएल सर्वर स्वचालित रूप से पंक्तियों, पेजों आदि को उसी तरह से "लॉक" करता है जिस तरह से तालिका, पंक्तियों, पृष्ठों आदि को लॉक करता है। डालें / अद्यतन करें।)

अब, हम पंक्तियों को "ए" में डालने की प्रक्रिया का परीक्षण करते हैं, यह सुनिश्चित करने के लिए कि उन्हें ट्रिगर द्वारा "बी" में डाला गया है।

INSERT INTO dbo.A (d, rowdate)
VALUES ('testRow', GETDATE());

SELECT *
FROM dbo.B
WHERE B.d = 'testRow'
+ --------- + --------- + ------------------------- +
| मैं | डी | उपद्रवी |
+ --------- + --------- + ------------------------- +
| 1000001 | testRow | 2018-04-13 03: 49: 53.343 |
+ --------- + --------- + ------------------------- +
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.