Рішення у швидкому режимі у стандарті кодування відео HEVC шляхом використання регіону з домінованими функціями руху та виділення

Паллаб Канті Поддер

1 Школа обчислювальної техніки та математики, Університет Чарльза Стерта, Батерст, штат Нью-Йорк, Австралія

Маноранжан Павло

1 Школа обчислювальної техніки та математики, Університет Чарльза Стерта, Батерст, штат Нью-Йорк, Австралія

Манзур Муршед

2 Школа інформаційних технологій, Університет Федерації, Черчілль, Вікторія, Австралія

Задумав і спроектував експерименти: PKP MP MM. Виконував експерименти: ПКП М.П. Проаналізовано дані: PKP MP MM. Внесені реагенти/матеріали/інструменти для аналізу: PKP MP. Написав папір: PKP MP MM.

Пов’язані дані

Усі відповідні дані містяться в роботі.

Анотація

Вступ

Розробляючи низку потужних інструментів кодування, найновіший стандарт кодування відео HEVC [1] забезпечив схожу якість сприйняття зображення у порівнянні зі своїм попередником H.264 [2] із зменшенням швидкості передачі приблизно на 50% за рахунок ефективної передачі та зберігання великого обсягу відеодані [3]. HEVC досягає цієї покращеної продуктивності за рахунок більш ніж в 4 рази алгоритмічної складності завдяки збільшеній кількості рівнів та схемі розподілу складних модулів кодування (CU) порівняно з попередником H.264 у конкретній реалізації [4,5]. З цієї причини будь-які електронні пристрої з обмеженою обробною здатністю не можуть повною мірою використовувати функції кодування та декодування HEVC. Це спонукало нас зменшити обчислювальний час кодування HEVC шляхом відповідного вибору режимів міжпрогнозування. Щоб це сталося, враховується лише система RDMS у відео, яка включає функцію виділення на основі зорової уваги та особливості руху на основі кореляції фаз.

Хоу та ін. [18] рекомендують порогове значення на основі витрат на РД для вивчення режимів лише на вищому рівні, що призводить до 30% економії часу та 0,5% втрати якості. Ванне та ін. [19] пропонують ефективну схему прийняття рішень між режимами шляхом пошуку можливих режимів симетричного та асиметричного розділення руху. Тестовані результати показують зниження складності кодеру HEVC на 31% -51% за рахунок збільшення приросту бітрейту на 0,2% -1,3%. Пан та ін. [20] запровадити ранній алгоритм прийняття рішення в режимі MERGE для зменшення обчислювальної складності кодера HEVC. На основі всієї інформації про нульовий блок та рух вони спочатку застосовують режим MERGE для кореневих CU, а потім для дочірніх CU за допомогою кореляції вибору режиму. Вони досягають економії часу на 35% із збільшенням швидкості передачі даних на 0,32% та втратою якості на рівні 0,11 дБ пікового відношення сигнал/шум (PSNR). Шен та ін. [21] запровадити метод критеріїв перевірки на основі методу дострокового припинення, який вибирає 36% та 14% режимів на рівні глибини «0» та «3» відповідно. Цей процес спричиняє втрату якості, особливо для послідовностей, що містять велику площу з великою активністю руху, хоча їх алгоритм економить близько 30% обчислювального часу.

На додаток до вищезазначених алгоритмів вибору режиму на основі стандарту кодування відео HEVC, інші літературні алгоритми вибору режиму на основі стандарту кодування відео H.264 також доступні в літературі [22–24]. Пол та співавт. [25] витягують коефіцієнт концентрації енергії (ECR) із кореляції фаз і використовують його для процесу вибору режимів, щоб зменшити час кодування у стандарті H.264. Підхід, використаний у [25], не буде прямо застосований у HEVC для вибору прямого режиму або підмножини міжрежимів через триразово збільшену кількість режимів, подвійний/чотирикратний розмір МС та складний (тобто симетричний/асиметричні) Шаблони розподілу CU порівняно з H.264. Більше того, лише вибір режиму на основі ECR не забезпечить очікуваних результатів стиснення в HEVC, оскільки він вказує лише залишкову помилку між поточним блоком та опорним блоком з компенсацією руху. Він також без потреби використовує менші розділи блоків, тоді як блок не має жодного поступального руху або забезпечує високоточний прогнозований рух.

Основні вклади цієї статті узагальнені наступним чином: (i) Ми вводимо три особливості руху фазової кореляції та використовуємо їх для швидкого процесу вибору режиму за стандартом HEVC, (ii) Ми включаємо помітність у наш алгоритм та ефективно використовуємо цю функцію для Категоризація RDMS, (iii) Для визначення RDMS ми адаптивно розробляємо шаблони двійкових шаблонів на основі шаблонів розподілу CU в HEVC, та (iv) Ми розробляємо функцію адаптованої зваженої вартості, засновану на вмісті, завдяки поєднанню характеристик та інноваційному виведенню ваг для кожного особливість адаптивно.

Решта статті впорядкована таким чином: Розділ 2 сформулює механізм роботи нещодавнього HEVC, Розділ 3 описує ключові етапи запропонованої техніки кодування; Розділ 4 детально оцінює результати експериментів та обговорення, а розділ 5 завершує роботу.

Останній аналіз HEVC

Порівняно із сучасним стандартом H.264, HEVC запроваджує винахідницькі підходи, включаючи розширення розміру CU від 16 × 16 до 64 × 64-пікселів, змінний розмір PU та TU та явище симетричного/асиметричного розділення блоків . Для вибору конкретного режиму передбачення руху HM перевіряє функцію витрат Лагранжа (LCF) [26] вичерпно, використовуючи всі режими на кожному рівні глибини кодування (рівень 64 × 64, 32 × 32, 16 × 16 та 8 × 8 позначаються як глибина рівень 0, 1, 2, 3 відповідно). LCF, Jn для вибору n-го режиму визначається:

де λ - множник Лагранжа, D - спотворення, R - результуючий біт, який визначається режимами для CU. Для того, щоб вибрати найкращий режим розділення на рівні глибини кодування, HM перевіряє мінімум 8 (тобто 64 × 64, 64 × 48, 48 × 64, 64 × 32, 32 × 64, 16 × 64, 64 × 16, і 32 × 32), і максимум 24 режими передбачення (тобто подібне розділення з меншими блоками від 32 × 32 до 8 × 8) з найнижчим LCF. Цей процес надзвичайно трудомісткий завдяки дослідженню всіх режимів на одному або декількох рівнях глибини кодування. На відміну від тестової моделі HEVC (HM12.1) [27], у запропонованій техніці вибрані КУ із СРМ оцінюють рух та компенсують рух за допомогою режимів на більш високих рівнях глибини, з іншого боку, КУ без СДУ оцінюють і рух, компенсований режимами на нижчих рівнях глибини. Таким чином, ми можемо уникнути вичерпного вивчення всіх режимів на кожному рівні глибини кодування. Це призводить до обчислювального скорочення часу.

Що стосується вибору режиму на основі HM, то з рівняння (1) ми помітили, що найкращий режим, який обраний для даного значення множника Лагранжа (тобто λ), буде іншим для інших значень коефіцієнта множника. Таким чином, різні значення множника можуть вибирати різні найкращі режими на рівні глибини кодування для даного параметра квантування (QP). Більше того, лише рішення на основі LCF не може забезпечити найкращу продуктивність RD в різних операційних точках кодування через складні шаблони розподілу CU, блокове розділення та заголовки перетворення, довжину кодування векторів руху, диверсифікований відеовміст та інші розширені параметри параметрів у стандарті кодування відео HEVC. Тому замість того, щоб просто залежати від існуючого LCF, на першому етапі запропонована методика концентрується на критеріях RDMS для підмножини міжмодового вибору, яка не залежить від існуючої LCF. Ця кількість послідовних етапів попередньої обробки (показаних на рис. 1) робить процес прийняття рішення про режим більш відповідним і менш трудомістким.

рішення

Запропонована техніка

Вилучення особливостей руху

Ми обчислюємо фазову кореляцію, застосовуючи БПФ, а потім зворотний БПФ (IFFT) поточного та опорного блоків і, нарешті, застосовуючи функцію FFTSHIFT наступним чином:

де Fc і Fr - це швидко перетворені Фур'є-блоки поточного C і опорного R-блоків відповідно, Г - FFTSHIFT, Ʌ позначає IFFT, а ∠ - фаза відповідного трансформованого блоку. Зауважимо, що Ω є двовимірною матрицею. Оцінюємо пік кореляції фази (β) з положення (dx + μ/2 + 1, dy + μ/2 + 1) наступним чином:

де розмір блоку, позначений μ, дорівнює 8, оскільки ми використовуємо блок 8 × 8 пікселів для кореляції фаз. Потім ми обчислюємо передбачуваний вектор руху (dx, dy), віднімаючи μ-1 із положення (x, y) Ω, де знаходимо максимальне значення Ω. У процесі генерації узгодженого блоку ми використовуємо фазу поточного блоку та величину блоку з компенсацією руху в опорній рамці і, нарешті, обчислюємо відповідний опорний блок (Ѱ) для поточного блоку за допомогою:

Тепер похибка переміщення (§) перераховується:

Потім ми застосовуємо дискретне косинусне перетворення (DCT) до помилки § і обчислюємо ECR (тобто α) як відношення низькочастотної складової та загальної енергії блоку помилок (тобто відношення від енергії верхнього лівого трикутника відносно на всю енергію області) шляхом:

де DEL і DET представляють енергію верхнього лівого трикутника та енергію всієї площі певного блоку. Зверніть увагу, що дві сторони верхнього лівого трикутника складають три чверті розміру блоку, тобто 6 у нашому здійсненні.

Виділення особливостей виділення

Категоризація RDMS за допомогою Feature Fusion

Оцінивши вилучені особливості руху фазової кореляції (тобто, α, β і (dx, dy) та карту дисперсії, виділену за виокремленням, ми, нарешті, визначаємо функцію витрат. Розробка адаптивної зваженої функції вартості на основі вмісту для блок здійснюється за допомогою процесу синтезу ознак. Рівняння функції витрат визначається:

де δ позначає розмір блоку, а від ω1 до ω4 - вагові коефіцієнти з ∑ i = 1 4 ω i = 1. Ми інноваційно отримуємо ваги для кожної функції адаптивно і не враховуємо всі можливі комбінації ваги в цьому експерименті. Ми враховуємо лише ваги 0,50, 0,25, 0,125 і 0,125 на основі відносного відхилення текстури поточного блоку від значення цілого кадру. Для обчислення відхилення ми застосовуємо стандартне відхилення (STD) як для поточного блоку, так і для поточного кадру і використовуємо ці ваги для чотирьох атрибутів. По-перше, ми сортуємо чотири ознаки на основі їх значень, і якщо значення STD блоку менше значення поточного кадру, тоді до об’єкта 1 (тобто відсортованого) застосовується найбільша вага (тобто 0,50) і найменша вага (тобто 0,125) застосовується до ознаки 4 (згідно з відсортованим списком); в іншому випадку застосовується зворотно зважений порядок. Якщо результуюче значення функції витрат (тобто ¥) перевищує заздалегідь визначений поріг, блок позначається «1», інакше позначається «0», де «1» та «0» відповідає RDMS та не RDMS відповідно.

Раціональність запропонованої стратегії вибору ваги полягає в тому, що якщо поточний блок має більші варіації текстури порівняно з поточним кадром, поточний блок повинен кодуватися більшою кількістю бітів порівняно з рештою блоків для досягнення подібних/покращених характеристик RD. Щоб забезпечити витрачання більшої кількості бітів, нам потрібно класифікувати блок як блок RDMS, що виконується нашою стратегією вибору порогу. Інший підхід до вибору ваги може працювати ефективніше, однак, експериментальні результати показують, що запропонована методика забезпечує подібну ефективність РД.

Рис.2 демонструє взаємозв'язок кількісних особливостей руху та виділення з візуальними особливостями людини. Рис. 2B – 2D ) показує категорії піків руху (β) та їх відповідні значення, надані ECR (в Рис.2 (E)) та особливість виділення (у Рис.2 (F) ) для тенісного відео. З рисунка видно, що для α та γ значення складного руху найвищі, тоді як для β складний рух має кілька піків, і це значення є найменшим. Застосована методика GBVS створює фактичні карти виокремлення на основі функції результативних витрат. Ці карти генеруються між 11-м і 12-м кадрами на тенісному відео для CU у положеннях (3, 1), (3, 10) та (5, 7) відповідно з відхиленням текстури, як показано на Рис.3 . З малюнка та експериментальних результатів ми легко можемо помітити, що ознаки α, (dx, dy) та γ мають позитивну кореляцію, а β має зворотну кореляцію для позначення зорових особливостей людини. Ми вирівнюємо складну фактуру та гладкі фактурні ділянки відповідно червонуватим та синюватим кольором, тоді як будь-який інший колір відповідає простим фактурним областям Рис.3 .

г) являють собою фазово зміщені графіки руху без руху (0,4), простого руху (0,7) та складного руху (0,8); (e-f) відповідає відповідним значенням, генерованим ECR та функцією виділення для блоків у положеннях (3, 1), (3, 10) та (5, 7) відповідно.

Для чіткої візуалізації ми використовуємо розмір блоку 32 × 32.