NVIDIA объяснила, за счёт чего уско..

NVIDIA объяснила, за счёт чего ускорители GeForce RTX 30-й серии так рванули в производительности

NVIDIA представила новое поколение игровых видеокарт Ampere 1 сентября, однако первоначальная презентация почти не содержала технических подробностей. Теперь, спустя несколько дней, компания обнародовала документацию, которая проясняет, откуда берётся то впечатляющее преимущество в производительности, которым выделяются на фоне предшественников видеокарты GeForce RTX 30-й серии.

nvidia_obyasnila_za_schet_chego_uskoriteli_geforce_rtx_30y_serii_tak_rvanuli_v_proizvoditelnosti_1.jpg

Многие сразу обратили внимание, что в официальных характеристиках GeForce RTX 3090, GeForce RTX 3080 и GeForce RTX 3070 на сайте NVIDIA было указано ошеломляюще большое число CUDA-процессоров.

nvidia_obyasnila_za_schet_chego_uskoriteli_geforce_rtx_30y_serii_tak_rvanuli_v_proizvoditelnosti_2.png

Как оказалось, удвоение FP32-производительности игровых процессоров Ampere по сравнению с Turing действительно имеет место, и связано оно с изменением архитектуры базовых строительных блоков GPU потоковых процессоров (SM).

nvidia_obyasnila_za_schet_chego_uskoriteli_geforce_rtx_30y_serii_tak_rvanuli_v_proizvoditelnosti_3.jpg

В то время как SM в GPU поколения Turing имели один вычислительный тракт для операций с плавающей точкой, в Ampere каждый потоковый процессор получил по два тракта, которые в сумме могут выполнить до 128 FMA-операций за такт против 64 у Turing. При этом половина из имеющихся исполнительных устройств Ampere способна исполнять как целочисленные (INT) операции, так и 32-битные операции с плавающей точкой (FP32), в то время как вторая половина устройств предназначена исключительно для FP32-операций. Такой подход применён ради экономии транзисторного бюджета, исходя из того, что игровая нагрузка порождает значительно больше FP32-, чем INT-операций. Впрочем, что в Turing комбинированных исполнительных устройств не было вообще.

nvidia_obyasnila_za_schet_chego_uskoriteli_geforce_rtx_30y_serii_tak_rvanuli_v_proizvoditelnosti_4.jpg

Одновременно для того, чтобы обеспечить усиленные потоковые процессоры необходимым объёмом данных, NVIDIA на треть увеличила объём L1-кеша в SM (с 96 до 128 Кбайт), а также вдвое увеличила его пропускную способность.

Другое важное усовершенствование в Ampere касается того, что CUDA-, RT- и тензорные ядра теперь могут работать полностью параллельно. Это позволяет графическому движку, например, использовать DLSS для масштабирования одного кадра, и в то же время на CUDA- и RT-ядрах рассчитывать следующий кадр, сокращая простои функциональных узлов и поднимая общую производительность.

К этому нужно добавить, что RT-ядра второго поколения, которые реализованы в Amрere, могут вычислять пересечения треугольников лучами в два раза быстрее, чем это происходило в Turing. А новые тензорные ядра третьего поколения в два раза улучшили математическую производительность при работе с разреженными матрицами.

Удвоение скорости расчёта пересечений треугольников в Ampere должно существенно повлиять на производительность ускорителей GeForce RTX 30-й серии в играх с поддержкой трассировки лучей. По утверждению NVIDIA, именно эта характеристика выступала узким местом в архитектуре Turing, в то время как показатели скорости расчётов пересечений лучей ограничивающих параллелепипедов нареканий не вызывали. Теперь же баланс производительности в трассировке оптимизирован, и более того, в Ampere оба типа операций с лучами (с треугольниками и параллелепипедами) могут выполняться параллельно.

В дополнение к этому для RT-ядер в Ampere была добавлена новая функциональность, позволяющая интерполировать положение треугольников. Это может быть использовано для размытия объектов в движении, когда не все треугольники в сцене находятся в постоянной позиции.

Для иллюстрации всего перечисленного, NVIDIA показала прямое сравнение, как распределяется нагрузка на графические процессоры Turing и Ampere в трассировке лучей в Wolfenstein Youngblood в разрешении 4K. Как следует из представленной иллюстрации, Ampere заметно выигрывает в скорости построения кадра как за счёт более быстрых математических FP32-вычислений, так благодаря RT-ядрам второго поколения, а также параллельной работе разнородных ресурсов GPU.

nvidia_obyasnila_za_schet_chego_uskoriteli_geforce_rtx_30y_serii_tak_rvanuli_v_proizvoditelnosti_5.jpg

Кроме того, для практического подкрепления изложенного, NVIDIA представила дополнительные результаты тестов GeForce RTX 3090, GeForce RTX 3080 и GeForce RTX 3070. Согласно им, GeForce RTX 3070 примерно на 60 % опережает GeForce RTX 2070 в разрешении 1440p, причём такая картина наблюдается как в играх с поддержкой RTX, так и при традиционной растеризации, в частности, в Borderlands 3.

nvidia_obyasnila_za_schet_chego_uskoriteli_geforce_rtx_30y_serii_tak_rvanuli_v_proizvoditelnosti_6.jpg

Производительность GeForce RTX 3080 оказывается вдвое лучше, чем у GeForce RTX 2080 в разрешении 4K. Правда, в этом случае в Borderlands 3 без поддержки RTX преимущество новой карты не двукратное, а примерно 80-процентное.

nvidia_obyasnila_za_schet_chego_uskoriteli_geforce_rtx_30y_serii_tak_rvanuli_v_proizvoditelnosti_7.jpg

А старшая карта, GeForce RTX 3090, в собственных тестах NVIDIA показывает примерно полуторакратное преимущество над Titan RTX.

nvidia_obyasnila_za_schet_chego_uskoriteli_geforce_rtx_30y_serii_tak_rvanuli_v_proizvoditelnosti_8.jpg

Как следует из сообщений технических журналистов, полноценные обзоры GeForce RTX 3080 эталонного дизайна должны быть опубликованы 14 сентября. Тремя днями позже, 17 сентября, будет разрешено публиковать данные тестов серийных моделей GeForce RTX 3080 от партнёров компании. Таким образом, появления в Сети результатов независимых тестов представителей GeForce RTX 30-й серии ждать осталось совсем немного.

Видео

Ноутбуки и ПК

proizvoditelnye_ryzen_poyavyatsya_v_hrombukah_amd_i_google_planiruyut_vypustit_14_prodvinutyh_noutbukov_na_chrome_os_default.jpg

Производительные Ryzen появятся в хромбуках: ...

  • Сен 22, 2020
  • 413

Компания AMD запустила новые мобильные процессоры Ryzen и Athlon, которые лягут в основу хромбуков нового поколения. Эти мобильные чипы на базе архите...

Windows

sozdavayte_masshtabiruemye_servisy_dlya_obscheniya_na_baze_azure_communication_services_default.jpg

Создавайте масштабируемые сервисы для общения...

  • Сен 22, 2020
  • 376

Автор – Скотт Ван Влит, корпоративный вице-президент, Intelligent Communication  Сегодняшняя ситуация в мире серьезно повлияла на то, как мы общаемся ...

Наверх