DirectX पिक्सेल आदेश का उपयोग करके GPU में DXGI_FORMAT_B8G8R8A8

मैं डेस्कटॉप डुप्लिकेट का उपयोग करके डेस्कटॉप को कैप्चर करने के लिए एक कोड पर काम कर रहा हूं और इंटेल हार्डवेयरएमएफटी का उपयोग करके h264 को समान करता हूं। एनकोडर केवल NV12 प्रारूप को इनपुट के रूप में स्वीकार करता है। मुझे एक DXGI_FORMAT_B8G8R8A8_UNORM से NV12 कन्वर्टर ( https://github.com/NVedia/video-sdk-samples/blob/master/nvEdcDXGIOutputDuplicationSample/Preproc.cpp ) प्राप्त हुआ है, जो ठीक काम करता है और आधारित है।

समस्या यह है कि कुछ इंटेल ग्राफिक्स हार्डवेयर पर VideoProcessor केवल DXGI_FORMAT_B8G8R8A8_UNORM से YUY2 तक रूपांतरणों का समर्थन करता है, लेकिन NV12 नहीं, मैंने GetVideoProcessorOutputFormats के माध्यम से समर्थित स्वरूपों की गणना करके इसकी पुष्टि की है। हालांकि वीडियोप्रोसेसर ब्ल्ट बिना किसी त्रुटि के सफल हो गया, और मैं देख सकता था कि आउटपुट वीडियो में फ़्रेम को थोड़ा सा पिक्सलेट किया गया है, अगर मैं इसे करीब से देखता हूं तो मैं इसे नोटिस कर सकता हूं।

मुझे लगता है, वीडियोप्रोसेसर बस अगले समर्थित आउटपुट प्रारूप (YUY2) पर विफल रहा है और मैं अनजाने में इसे एनकोडर को खिला रहा हूं जो सोचता है कि इनपुट NV12 में कॉन्फ़िगर किया गया है। इस तथ्य के कारण तख्ते की कोई विफलता या प्रमुख भ्रष्टाचार नहीं है कि एनवी 12 और वाईयूवाई 2 के बीच बाइट ऑर्डर और सबसम्पलिंग जैसे बहुत कम अंतर है। इसके अलावा, मुझे हार्डवेयर पर ऐसी पिक्सेलिंग समस्याएं नहीं हैं जो NV12 रूपांतरण का समर्थन करती हैं।

इसलिए मैंने पिक्सेल शेड्स का उपयोग करके रंग रूपांतरण करने का फैसला किया जो इस कोड ( https://github.com/bavulapati/DXGICaptureDXColorSpaceConversionIntelEncode/blob-master-DXGICaptureDXColorSpaceConversionIntelEncode/DuplicationMan ) पर आधारित है । मैं पिक्सेल शेड्स काम करने में सक्षम हूं, मैंने अपना कोड यहां ( https://codeshare.io/5PJjxP ) संदर्भ के लिए अपलोड किया है ( इसे जितना संभव हो उतना सरल बनाया है)।

अब, मैं क्रमशः दो चैनल, क्रोमा और लूमा के साथ छोड़ दिया गया हूं (ID3D11Texture2D बनावट)। और मैं वास्तव में कुशलतापूर्वक दो अलग-अलग चैनलों को एक ID3D11Texture2D बनावट में पैक करने के बारे में उलझन में हूं ताकि मैं एनकोडर को एक ही फ़ीड कर सकूं। क्या GPU में एक ID3D11Texture2D में कुशलतापूर्वक वाई और यूवी चैनलों को पैक करने का एक तरीका है? मैं वास्तव में महंगा होने के कारण सीपीयू आधारित दृष्टिकोणों से थक गया हूं, और यह संभव फ्रेम दर की पेशकश नहीं करता है। वास्तव में, मैं भी सीपीयू को बनावट की नकल करने के लिए अनिच्छुक हूँ। मैं सीपीयू और जीपीयू के बीच किसी भी आगे और पीछे की प्रतियां के बिना इसे GPU में करने का एक तरीका सोच रहा हूं।

मैं बिना किसी प्रगति के काफी समय से इस पर शोध कर रहा हूं, किसी भी मदद की सराहना की जाएगी।

/**
* This method is incomplete. It's just a template of what I want to achieve.
*/

HRESULT CreateNV12TextureFromLumaAndChromaSurface(ID3D11Texture2D** pOutputTexture)
{
    HRESULT hr = S_OK;

    try
    {
        //Copying from GPU to CPU. Bad :(
        m_pD3D11DeviceContext->CopyResource(m_CPUAccessibleLuminanceSurf, m_LuminanceSurf);

        D3D11_MAPPED_SUBRESOURCE resource;
        UINT subresource = D3D11CalcSubresource(0, 0, 0);

        HRESULT hr = m_pD3D11DeviceContext->Map(m_CPUAccessibleLuminanceSurf, subresource, D3D11_MAP_READ, 0, &resource);

        BYTE* sptr = reinterpret_cast<BYTE*>(resource.pData);
        BYTE* dptrY = nullptr; // point to the address of Y channel in output surface

        //Store Image Pitch
        int m_ImagePitch = resource.RowPitch;

        int height = GetImageHeight();
        int width = GetImageWidth();

        for (int i = 0; i < height; i++)
        {
            memcpy_s(dptrY, m_ImagePitch, sptr, m_ImagePitch);

            sptr += m_ImagePitch;
            dptrY += m_ImagePitch;
        }

        m_pD3D11DeviceContext->Unmap(m_CPUAccessibleLuminanceSurf, subresource);

        //Copying from GPU to CPU. Bad :(
        m_pD3D11DeviceContext->CopyResource(m_CPUAccessibleChrominanceSurf, m_ChrominanceSurf);
        hr = m_pD3D11DeviceContext->Map(m_CPUAccessibleChrominanceSurf, subresource, D3D11_MAP_READ, 0, &resource);

        sptr = reinterpret_cast<BYTE*>(resource.pData);
        BYTE* dptrUV = nullptr; // point to the address of UV channel in output surface

        m_ImagePitch = resource.RowPitch;
        height /= 2;
        width /= 2;

        for (int i = 0; i < height; i++)
        {
            memcpy_s(dptrUV, m_ImagePitch, sptr, m_ImagePitch);

            sptr += m_ImagePitch;
            dptrUV += m_ImagePitch;
        }

        m_pD3D11DeviceContext->Unmap(m_CPUAccessibleChrominanceSurf, subresource);
    }
    catch(HRESULT){}

    return hr;
}

NV12 ड्रा करें:

 //
// Draw frame for NV12 texture
//
HRESULT DrawNV12Frame(ID3D11Texture2D* inputTexture)
{
    HRESULT hr;

    // If window was resized, resize swapchain
    if (!m_bIntialized)
    {
        HRESULT Ret = InitializeNV12Surfaces(inputTexture);
        if (!SUCCEEDED(Ret))
        {
            return Ret;
        }

        m_bIntialized = true;
    }

    m_pD3D11DeviceContext->CopyResource(m_ShaderResourceSurf, inputTexture);

    D3D11_TEXTURE2D_DESC FrameDesc;
    m_ShaderResourceSurf->GetDesc(&FrameDesc);

    D3D11_SHADER_RESOURCE_VIEW_DESC ShaderDesc;
    ShaderDesc.Format = FrameDesc.Format;
    ShaderDesc.ViewDimension = D3D11_SRV_DIMENSION_TEXTURE2D;
    ShaderDesc.Texture2D.MostDetailedMip = FrameDesc.MipLevels - 1;
    ShaderDesc.Texture2D.MipLevels = FrameDesc.MipLevels;

    // Create new shader resource view
    ID3D11ShaderResourceView* ShaderResource = nullptr;
    hr = m_pD3D11Device->CreateShaderResourceView(m_ShaderResourceSurf, &ShaderDesc, &ShaderResource);

    IF_FAILED_THROW(hr);

    m_pD3D11DeviceContext->PSSetShaderResources(0, 1, &ShaderResource);

    // Set resources
    m_pD3D11DeviceContext->OMSetRenderTargets(1, &m_pLumaRT, nullptr);
    m_pD3D11DeviceContext->PSSetShader(m_pPixelShaderLuma, nullptr, 0);
    m_pD3D11DeviceContext->RSSetViewports(1, &m_VPLuminance);

    // Draw textured quad onto render target
    m_pD3D11DeviceContext->Draw(NUMVERTICES, 0);

    m_pD3D11DeviceContext->OMSetRenderTargets(1, &m_pChromaRT, nullptr);
    m_pD3D11DeviceContext->PSSetShader(m_pPixelShaderChroma, nullptr, 0);
    m_pD3D11DeviceContext->RSSetViewports(1, &m_VPChrominance);

    // Draw textured quad onto render target
    m_pD3D11DeviceContext->Draw(NUMVERTICES, 0);

    // Release shader resource
    ShaderResource->Release();
    ShaderResource = nullptr;

    return S_OK;
}

Init shaders:

void SetViewPort(D3D11_VIEWPORT* VP, UINT Width, UINT Height)
{
    VP->Width = static_cast<FLOAT>(Width);
    VP->Height = static_cast<FLOAT>(Height);
    VP->MinDepth = 0.0f;
    VP->MaxDepth = 1.0f;
    VP->TopLeftX = 0;
    VP->TopLeftY = 0;
}

HRESULT MakeRTV(ID3D11RenderTargetView** pRTV, ID3D11Texture2D* pSurf)
{
    if (*pRTV)
    {
        (*pRTV)->Release();
        *pRTV = nullptr;
    }
    // Create a render target view
    HRESULT hr = m_pD3D11Device->CreateRenderTargetView(pSurf, nullptr, pRTV);

    IF_FAILED_THROW(hr);

    return S_OK;
}

HRESULT InitializeNV12Surfaces(ID3D11Texture2D* inputTexture)
{
    ReleaseSurfaces();

    D3D11_TEXTURE2D_DESC lOutputDuplDesc;
    inputTexture->GetDesc(&lOutputDuplDesc);


    // Create shared texture for all duplication threads to draw into
    D3D11_TEXTURE2D_DESC DeskTexD;
    RtlZeroMemory(&DeskTexD, sizeof(D3D11_TEXTURE2D_DESC));
    DeskTexD.Width = lOutputDuplDesc.Width;
    DeskTexD.Height = lOutputDuplDesc.Height;
    DeskTexD.MipLevels = 1;
    DeskTexD.ArraySize = 1;
    DeskTexD.Format = lOutputDuplDesc.Format;
    DeskTexD.SampleDesc.Count = 1;
    DeskTexD.Usage = D3D11_USAGE_DEFAULT;
    DeskTexD.BindFlags = D3D11_BIND_SHADER_RESOURCE;

    HRESULT hr = m_pD3D11Device->CreateTexture2D(&DeskTexD, nullptr, &m_ShaderResourceSurf);
    IF_FAILED_THROW(hr);

    DeskTexD.Format = DXGI_FORMAT_R8_UNORM;
    DeskTexD.BindFlags = D3D11_BIND_RENDER_TARGET;

    hr = m_pD3D11Device->CreateTexture2D(&DeskTexD, nullptr, &m_LuminanceSurf);
    IF_FAILED_THROW(hr);

    DeskTexD.CPUAccessFlags = D3D11_CPU_ACCESS_READ;
    DeskTexD.Usage = D3D11_USAGE_STAGING;
    DeskTexD.BindFlags = 0;

    hr = m_pD3D11Device->CreateTexture2D(&DeskTexD, NULL, &m_CPUAccessibleLuminanceSurf);
    IF_FAILED_THROW(hr);

    SetViewPort(&m_VPLuminance, DeskTexD.Width, DeskTexD.Height);

    HRESULT Ret = MakeRTV(&m_pLumaRT, m_LuminanceSurf);
    if (!SUCCEEDED(Ret))
        return Ret;

    DeskTexD.Width = lOutputDuplDesc.Width / 2;
    DeskTexD.Height = lOutputDuplDesc.Height / 2;
    DeskTexD.Format = DXGI_FORMAT_R8G8_UNORM;

    DeskTexD.Usage = D3D11_USAGE_DEFAULT;
    DeskTexD.CPUAccessFlags = 0;
    DeskTexD.BindFlags = D3D11_BIND_RENDER_TARGET;

    hr = m_pD3D11Device->CreateTexture2D(&DeskTexD, nullptr, &m_ChrominanceSurf);
    IF_FAILED_THROW(hr);

    DeskTexD.CPUAccessFlags = D3D11_CPU_ACCESS_READ;
    DeskTexD.Usage = D3D11_USAGE_STAGING;
    DeskTexD.BindFlags = 0;

    hr = m_pD3D11Device->CreateTexture2D(&DeskTexD, NULL, &m_CPUAccessibleChrominanceSurf);
    IF_FAILED_THROW(hr);

    SetViewPort(&m_VPChrominance, DeskTexD.Width, DeskTexD.Height);
    return MakeRTV(&m_pChromaRT, m_ChrominanceSurf);
}

HRESULT InitVertexShader(ID3D11VertexShader** ppID3D11VertexShader)
{
    HRESULT hr = S_OK;
    UINT Size = ARRAYSIZE(g_VS);

    try
    {
        IF_FAILED_THROW(m_pD3D11Device->CreateVertexShader(g_VS, Size, NULL, ppID3D11VertexShader));;

        m_pD3D11DeviceContext->VSSetShader(m_pVertexShader, nullptr, 0);

        // Vertices for drawing whole texture
        VERTEX Vertices[NUMVERTICES] =
        {
            { XMFLOAT3(-1.0f, -1.0f, 0), XMFLOAT2(0.0f, 1.0f) },
            { XMFLOAT3(-1.0f, 1.0f, 0), XMFLOAT2(0.0f, 0.0f) },
            { XMFLOAT3(1.0f, -1.0f, 0), XMFLOAT2(1.0f, 1.0f) },
            { XMFLOAT3(1.0f, -1.0f, 0), XMFLOAT2(1.0f, 1.0f) },
            { XMFLOAT3(-1.0f, 1.0f, 0), XMFLOAT2(0.0f, 0.0f) },
            { XMFLOAT3(1.0f, 1.0f, 0), XMFLOAT2(1.0f, 0.0f) },
        };

        UINT Stride = sizeof(VERTEX);
        UINT Offset = 0;

        D3D11_BUFFER_DESC BufferDesc;
        RtlZeroMemory(&BufferDesc, sizeof(BufferDesc));
        BufferDesc.Usage = D3D11_USAGE_DEFAULT;
        BufferDesc.ByteWidth = sizeof(VERTEX) * NUMVERTICES;
        BufferDesc.BindFlags = D3D11_BIND_VERTEX_BUFFER;
        BufferDesc.CPUAccessFlags = 0;
        D3D11_SUBRESOURCE_DATA InitData;
        RtlZeroMemory(&InitData, sizeof(InitData));
        InitData.pSysMem = Vertices;

        // Create vertex buffer
        IF_FAILED_THROW(m_pD3D11Device->CreateBuffer(&BufferDesc, &InitData, &m_VertexBuffer));

        m_pD3D11DeviceContext->IASetVertexBuffers(0, 1, &m_VertexBuffer, &Stride, &Offset);
        m_pD3D11DeviceContext->IASetPrimitiveTopology(D3D11_PRIMITIVE_TOPOLOGY_TRIANGLELIST);

        D3D11_INPUT_ELEMENT_DESC Layout[] =
        {
            { "POSITION", 0, DXGI_FORMAT_R32G32B32_FLOAT, 0, 0, D3D11_INPUT_PER_VERTEX_DATA, 0 },
            { "TEXCOORD", 0, DXGI_FORMAT_R32G32_FLOAT, 0, 12, D3D11_INPUT_PER_VERTEX_DATA, 0 }
        };

        UINT NumElements = ARRAYSIZE(Layout);
        hr = m_pD3D11Device->CreateInputLayout(Layout, NumElements, g_VS, Size, &m_pVertexLayout);

        m_pD3D11DeviceContext->IASetInputLayout(m_pVertexLayout);
    }
    catch (HRESULT) {}

    return hr;
}

HRESULT InitPixelShaders()
{
    HRESULT hr = S_OK;
    // Refer https://codeshare.io/5PJjxP for g_PS_Y & g_PS_UV blobs
    try
    {
        UINT Size = ARRAYSIZE(g_PS_Y);
        hr = m_pD3D11Device->CreatePixelShader(g_PS_Y, Size, nullptr, &m_pPixelShaderChroma);

        IF_FAILED_THROW(hr);

        Size = ARRAYSIZE(g_PS_UV);
        hr = m_pD3D11Device->CreatePixelShader(g_PS_UV, Size, nullptr, &m_pPixelShaderLuma);

        IF_FAILED_THROW(hr);
    }
    catch (HRESULT) {}

    return hr;
}

— राम
स्रोत

यह जाँच की जानी चाहिए, लेकिन मुझे लगता है कि हार्डवेयर पर जहां VideoProcessor केवल YUY2 के लिए आउटपुट कर सकता है, हार्डवेयर एनकोडर भी YUY2 को स्वीकार करेगा। तो आप इसे जांच सकते हैं और सीधे इस मामले में एनकोडर को वीडियोप्रोसेसर आउटपुट खिला सकते हैं।

— वुविर्ट

@Vuirt, मुझे भी ऐसा ही लगता है, लेकिन जब मैंने इनपुट प्रकार के रूप में YUY2 के साथ हार्डवेयर एनकोडर को एन्यूमरेट करने की कोशिश की तो मुझे कोई एनकोडर वापस नहीं मिला।

— राम

क्या यह संभव है कि आपने दोहरे जीपीयू पीसी पर कोशिश की?

— 19

मुझे यकीन है, मैं इसे कई ग्राफिक्स कार्ड वाली मशीन पर नहीं चला रहा हूं। मैं अभी भी सोच रहा हूं कि इस तरह की असंगति कैसे हो सकती है। मैं इस थ्रेड में अधिक विवरण अपडेट करने का प्रयास करूंगा।

— राम

मैं इस आरजीबीए रूपांतरण को केवल GPU में NV12 में DirectX11 का उपयोग कर रहा हूं।

यह एक अच्छी चुनौती है। मैं Directx11 से परिचित नहीं हूं, इसलिए यह मेरा पहला प्रयोग है।

अपडेट के लिए इस प्रोजेक्ट को देखें: D3D11ShaderNV12

मेरे वर्तमान कार्यान्वयन में (अंतिम नहीं हो सकता है), यहाँ मैं क्या कर रहा हूँ:

चरण 1: इनपुट बनावट के रूप में एक DXGI_FORMAT_B8G8R8A8_UNORM का उपयोग करें
चरण 2: 3 बनावट पाने के लिए 1 पास पास बनाने के लिए (Y: Luma, U: ChromaCb और V: ChromaCr): YCbCrPS2.hlsl देखें
चरण 3: Y DXGI_FORMAT_R8_UNORM है, और अंतिम NV12 बनावट के लिए तैयार है
चरण 4: यूवी को एक दूसरे पास के शैडर में डाउनसमॉप करने की आवश्यकता है: स्क्रीनपीएस 2 देखें। शेल (रैखिक फ़िल्टर का उपयोग करके)
चरण 5: वाई बनावट का नमूना करने के लिए एक तीसरा पास shader
चरण 6: एक पारी बनावट का उपयोग करके यूवी बनावट का नमूना करने के लिए एक चौथा पास shader (मुझे लगता है कि अन्य तकनीक का उपयोग किया जा सकता है)

मेरी अंतिम बनावट DXGI_FORMAT_NV12 नहीं है, बल्कि एक समान DXGI_FORMAT_R8_RORM बनावट है। मेरा कंप्यूटर Windows7 है, इसलिए DXGI_FORMAT_NV12 को संभाला नहीं जाता है। मैं बाद में दूसरे कंप्यूटर पर कोशिश करूंगा।

चित्रों के साथ प्रक्रिया:

— mofo77
स्रोत

महान। यही वह है जिसकी तलाश में मैं हूं। धन्यवाद।

— राम

आप ID3D11DeviceContext :: GenerateMips कॉल के साथ अपना दूसरा रेंडर पास बदलने की कोशिश कर सकते हैं। यह GPU ड्राइवर के अंदर गहराई से कार्यान्वित किया जाता है, आपके कोड में अतिरिक्त रेंडर पास की तुलना में तेज़ हो सकता है।

— सूट्स

मुझे नहीं पता कि यह तेज़ है या नहीं, लेकिन मैंने शेडर के बजाय GenerateMips का उपयोग करने के लिए एक संस्करण जोड़ा। यह एक दिलचस्प तकनीक है। सुझावों के लिए धन्यवाद।

— mofo77

DirectX पिक्सेल आदेश का उपयोग करके GPU में DXGI_FORMAT_B8G8R8A8_UNORM से NV12 तक रंग रूपांतरण