что такое транзистор в видеокарте
Устройство видеокарты
Не секрет, что видеокарты делятся на два типа: интегрированные (встроенные) и дискретные. Дискретные вставляются в разъем PCI Express и являются полноценной, самостоятельной частью ПК. Из-за этого устройство дискретной видеокарты гораздо сложнее и заслуживает отдельной темы. Разберёмся, из каких компонентов состоит видеокарта и за что они отвечают.
Графический процессор (GPU)
GPU (графический процессор) – является «сердцем» видеокарты, который отвечает за математические расчеты изображения, выводящегося на экран. Иными словами – обработка графики. GPU по своим свойствам похож на центральный процессор (CPU) компьютера, однако предназначен для построения изображения.
Частота
Одна из важнейших характеристик графического процессора – тактовая частота. С ней всё просто. Она измеряется в мегагерцах и чем выше его показатель, тем быстрее идет обработка информации. Частота современных видеокарт достигает отметки в 1000-1400 Мгц.
Техпроцесс
Важным показателем является техпроцесс, это один из первых пунктов среди характеристик видеоадаптеров. Измеряется в нанометрах.
Грубо говоря, основной движущей силой являются транзисторы. Если взять современные видеокарты, то можно заметить, что показатель нанометров все меньше и меньше с каждым поколением видеочипов. Все это обусловлено тем, что чем меньше размер транзисторов, тем больше их можно разместить на одном видеочипе.
С уменьшением размера транзисторов, в целом у видеокарт уменьшается также:
Производительность при этом увеличивается, так как на одной площади можно разместить больше вычислительной мощности.
Чем меньше техпроцесс, тем лучше.
Видеопамять
Работа видеокарты сосредоточена на постоянном выводе цифрового изображения на экран. Существует необходимость в сохранении выводящейся, а также остающейся за пределами экрана информации. Это задача возложена на видеопамять карты.
Память видеокарты по своим свойствам похожа на оперативную память компьютера.
Зачастую память карты используют для маркетинга, особенно в слабых (не игровых и не профессиональных) видеокартах. Кричащие 4 гб памяти почему-то сразу вызывают доверие у неподготовленного покупателя. Но один и тот же объём памяти радикально отличается на разных видеоадаптерах, если говорить о реальной производительности в требовательных задачах и современных играх. Например, даже самая бюджетная из игровых видеокарт nVidia GTX 1050 с двумя гигабайтами памяти во всех задачах покажет себя лучше, чем любой представитель карт серии GT.
Объём видеопамяти – важный, но не ключевой показатель.
Видеопамять в основном делается по стандарту GDDR. В наше время, у пользователей зачастую можно обнаружить память типа GDDR5. Ранее была распространена GDDR3.
Очевидно, что чем выше цифра, тем лучше, так как в каждой новой версии были ряды изменений, которые увеличивали пропускную способность и скорость тактовой частоты. Сейчас среди активных разработчиков можно заметить AMD, Hynix и Qimonda.
Очень важным элементом является шина памяти видеокарты и ее пропускная способность. Именно она гоняет информацию между процессором графического адаптера и его памятью. Частота памяти и шина влияют на производительность видеокарты. Частота измеряется в Мгц (мегагерцах), и чем больше она, тем быстрее работает память. Шина измеряется в bit, от 64 — до 448 bit. Чем «шире» шина, тем быстрее память взаимодействует с графическим процессором (GPU).
Самый распространенный размер шины – 128bit. Однако топовый уровень – это 256 и 384. Благодаря размеру шины и тактовой частоте, в принципе, и строится ее пропускная способность. Чем выше эти показатели, тем быстрее графический процессор обменивается данными с видеопамятью.
Интерфейсы подключения видеокарт
Интерфейсы подключения служат для соединения комплектующих и материнской платы. Различные периферийные устройства (сетевые и звуковые карты, ТВ-тюнеры и т.п.) как правило подключаются через PCI. Это стандартная шина ввода-вывода, но речь не о ней, т.к. для видеокарт используются другие слоты. До 2006 года был популярен интерфейс AGP, затем ему на смену пришёл PCIexpess (PCIe).
AGP был создан по технологиям PCI, но предназначен исключительно для видеокарт. Он отличается более высокой пропускной способностью. Последняя обновленная версия AGP 8x обладает пропускной способностью 2.1 Гб/с. Платы с AGP выпускались до 2006 года. Больше не производится, т.к. появился более совершенный интерфейс – PCIexpress.
PCI Express, отличии от AGP, обладает большей пропускной способностью, постоянно модернизируется и имеет обратную совместимость. На данный момент существуют 4 версии, следуя порядковому номеру. Самой последней является, PCIe 4.0. С каждым разом разработчики увеличивали пропускную способность интерфейса. Сейчас им удалось достигнуть отметки в 16 Гбит/с. Не стоит забывать про то, что PCI Express видеоадаптера и материнской платы зачастую не совпадают. Однако особого риска и страха здесь нет. Видеокарта будет работать на старой материнке, хоть и не сможет работать на всю свою мощность. При обратной совместимости вообще не возникает проблем.
SLI и CrossFire
Отдельно про SLI и CrossFire. Для начала стоит сказать, что разница между ними состоит в производителях и связках видеокарт. Не секрет, что вы можете подключить множество видеокарт, если только хватит ваших PCI Express слотов. SLI – фирменная технология nVidia, CrossFire – разработка AMD.
Благодаря SLI можно подключить две видеокарты одной серии с помощью специального мостика. Производительность возрастает, но видеопамять не суммируется. При объединении видеокарт в связку SLI важно знать, что они должны быть не только одного поколения, но и одной серии. Производители при этом могут быть разными. Например, GTX 1080 в SLI заработает только с другой GTX 1080.
CrossFire
Объединение видеокарт в CrossFire проще. Здесь разными могут быть не только призводители, но и модели видеокарт. Так же как и в SLI, видеокарты соединяются друг с другом с помощью специального мостика, видеопамять также не суммируется.
Проблема заключается в том, что не все материнские платы поддерживают SLI или CrossFire. Как правило, это игровые решения.
Немного про разъемы
Современные видеокарты оснащены несколькими портами, чтобы была возможность подключить более одного монитора. В свою же очередь каждый монитор имеет разный тип разъемов, о которых пользователю будет полезно узнать.
Video Graphics Array (adapter) – достаточно древняя 15-контактная штука синего цвета, которая специализировалась на выводе аналогового сигнала. Его особенностью было то, что на изображение могло повлиять разные вещи: длина провода (который состоял из 5 метров) или личные свойства видеокарты. Ранее был одним из основных, однако с появлением плоских мониторов стал сдавать свои позиции, ибо разрешение экрана увеличивалось, с чем не справлялся VGA. Используется и по сей день.
s-Video
S-Video – это так же аналоговый разъем, который часто можно встретить на телевизорах и редко на видеокартах. Качество его хуже, чем у VGA, однако его кабель достигает 20 метров, все еще сохраняя при этом хорошую картинку. Информация передается трёхканально.
HDMI имеет несколько преимуществ перед DVI. Главной его особенностью является то, что кроме видео канала, у него так же имеется и аудио. Благодаря этому достиг большой популярности среди известных компаний, получив поддержки. Также из плюсов можно отметить его компактность и отсутствие креплений, которые наблюдаются у DVI. К тому же, кроме видеокарты, он отлично «сотрудничает» с другими устройствами.
DisplayPort
DISPLAYPORT, в принципе, далеко не ушел от HDMI, так как они оба способны выводить качественное изображение на большой экран вместе с аудио сопровождением. Однако у DISPLAY-я есть переходники на другие, популярные виды разъемов. В отличии с HDMI производители имеют возможность не платить налог, что увеличивает его популярность. Однако шанс встретить его среди бытовых пользователей, все еще, намного меньше. Максимальный размер кабеля достигает 15 метров. Пропускная способность выше, чем у HDMI, хоть и меняется в зависимости от его версии.
Thunderbolt
Thunderbolt (бывший Light Peak) – это аппаратный интерфейс для периферийных устройств. Обладает высокой пропускной способностью и функциональностью. По легендам, создан, чтобы улучшить и превзойти USB. Раньше использовался только в продукции Apple. Можно использовать для подключения мониторов с разрешением в 4К.
Питание видеокарты
Однако все пойдет по наклонной, если вы забудете учесть свой блок питания. Сразу можно сказать, что, если у вас 350w, то выбирать видеокарту нужно очень тщательно, так как современные версии очень требовательны к этому. Известно, что материнская плата не способна отдать нужное количество энергии для энергоёмких видеоадаптеров, что приводит к необходимости использования дополнительного питания.
Обычно для подключения дополнительного питания, видеокарта оснащена 6-пиновым переходником. К сожалению, не все блоки питания имеют функцию прямого подключения, так как попросту не имеют подходящего разъема, но страшного ничего здесь нет – большинство видеокарт продают со специальным переходником в комплекте. Современные же блоки обладают уже встроенным разъемом, от чего необходимость в переходниках отпадает. Так же, на современных видеокартах часто можно обнаружить 8-пиновый разъем питания. Это связано с постоянным увеличением необходимой энергии для видеокарты.
Охлаждение
Не менее важным моментом является охлаждение устройства. Как уже было сказано – видеокарта очень требовательна к энергии, потому она больше всего склонна к перегреву. Чтобы избежать подобного существуют разные типы охлаждений. Есть пассивный, он нацелен на то, чтобы поглощать и рассеивать энергию. Активный, в свою очередь, это привычные нам кулеры или система водного охлаждения.
Что такое техпроцесс в микрочипах и как он влияет на производство полупроводников
Содержание
Содержание
Одна из главных характеристик процессоров и других микрочипов — техпроцесс. Что означает этот термин и насколько он влияет на производительность — разберемся в этом блоге.
Что такое техпроцесс
Ключевым элементом практически каждой вычислительной схемы является транзистор. Это полупроводниковый элемент, который служит для управления токами. Из транзисторов собираются основные логические элементы, а на их основе создаются различные комбинационные схемы и уже непосредственно процессоры.
Чем больше транзисторов в процессоре — тем выше его производительность, ведь можно поместить на кристалл большее количество логических элементов для выполнения разных операций.
В 1971 году вышел первый микропроцессор — Intel 4004. В нем было всего 2250 транзисторов. В 1978 мир увидел Intel 8086 и в нем помещались целых 29 000 транзисторов. Легендарный Pentium 4 уже включал 42 миллиона. Сегодня эти числа дошли до миллиардов, например, в AMD Epyc Rome поместилось 39,54 миллиарда транзисторов.
Модель | Год выпуска | Кол-во транзисторов |
Xeon Broadwell-E5 | 2016 | 7 200 000 000 |
Ryzen 5 1600 X | 2017 | 4 800 000 000 |
Apple A12 Bionic (шестиядерный ARM64) | 2018 | 6 900 000 000 |
Qualcomm Snapdragon 8cx | 2018 | 8 500 000 000 |
AMD Ryzen 7 3700X | 2019 | 5 990 000 000 |
AMD Ryzen 9 3900X | 2019 | 9 890 000 000 |
Apple M1 ARM | 2020 | 16 000 000 000 |
Много это или мало? На 2020 год на нашей планете приблизительно 7,8 миллиардов человек. Если представить, что каждый из них это один транзистор, то полтора населения планеты
с легкостью поместилась бы в процессоре Apple A14 Bionic.
В 1975 году Гордон Мур, основатель Intel, вывел скорректированный закон, согласно которому число транзисторов на схеме удваивается каждые 24 месяца.
Нетрудно посчитать, что с момента выхода первого процессора до сего дня, а это всего-то 50 лет, число транзисторов увеличилось в 10 000 000 раз!
Казалось бы, поскольку транзисторов так много, то и схемы должны вырасти в размерах на несколько порядков. Площадь кристалла у первого процессора Intel 4004 — 12 мм², а у современных процессоров AMD Epyc — 717 мм² (33,5 млрд. транзисторов). Получается, по площади кристалла процессоры выросли всего в 60 раз.
Как же инженерам удается втискивать такое огромное количество транзисторов в столь маленькие площади? Ответ очевиден — размер транзисторов также уменьшается. Так
и появился термин, который дал обозначение размеру используемых
полупроводниковых элементов.
Упрощенно говоря, техпроцесс — это толщина транзисторного слоя, который применяется в процессорах.
Чем мельче транзисторы, тем меньше они потребляют энергии, но при этом сохраняют текущую производительность. Именно поэтому новые процессоры имеют большую вычислительную мощность, но при этом практически не увеличиваются в размерах
и не потребляют киловатты энергии.
Какие существуют техпроцессы: вчера и сегодня
Первые микросхемы до 1990-х выпускались по технологическому процессу 3,5 микрометра. Эти показатели означали непосредственно линейное разрешение литографического оборудования. Если вам трудно представить, насколько небольшая величина в 3 микрометра, то давайте узнаем, сколько транзисторов может поместиться в ширине человечного волоса.
Уже тогда транзисторы были настолько маленькими, что пару десятков с легкостью помещались в толщине человеческого волоса. Сейчас техпроцесс принято соотносить с длиной затвора транзисторов, которые используются в микросхеме. Нынешние транзисторы вышли на размеры в несколько нанометров.
Для Intel актуальный техпроцесс — 14 нм. Насколько это мало? Посмотрите в сравнении
с вирусом:
Однако по факту текущие числа — это частично коммерческие наименования. Это означает, что в продуктах по техпроцессу 5 нм на самом деле размер транзисторов не ровно столько, а лишь приближенно. Например, в недавнем исследовании эксперты сравнили транзисторы от Intel по усовершенствованному техпроцессу 14 нм и транзисторы от компании TSMC на 7 нм. Оказалось, что фактические размеры на самом деле отличаются не на много, поэтому величины на самом деле относительные.
Рекордсменом сегодня является компания Samsung, которая уже освоила техпроцесс 5 нм. По нему производятся чипы Apple A14 для мобильной техники. Одна из последних новинок Apple M1 — первый ARM процессор, который будет установлен в ноутбуках от Apple.
Продукцию по техпроцессу в 3 нм Samsung планирует выпускать уже к 2021 году. Если разработчикам действительно удастся приблизиться к таким размерам, то один транзистор можно будет сравнить уже с некоторыми молекулами.
Насколько маленьким может быть техпроцесс
Уменьшение размеров транзисторов позволяет делать более энергоэффективные и мощные процессоры, но какой предел? На самом деле ответа никто не знает.
Проблема кроется в самой конструкции транзистора. Уменьшение прослойки между эмиттером и коллектором приводит к тому, что электроны начинают самостоятельно просачиваться, а это делает транзистор неуправляемым. Ток утечки становится слишком большим, что также повышает потребление энергии.
Не стоит забывать, что каждый транзистор выделяет тепло. Уже сейчас процессоры Intel Core i9-10ХХХ нагреваются до 95 градусов Цельсия, и это вполне нормальный показатель. Однако при увеличении плотности транзисторов температуры дойдут до таких пределов, когда даже водяное охлаждение окажется полностью бесполезным.
Самые смелые предсказания — это техпроцесс в 1,4 нм к 2029 году. Разработка еще меньших транзисторов, по словам ученых, будет нерентабельной, поэтому инженерам придется искать другие способы решения проблемы. Среди возможных альтернатив — использование передовых материалов вместо кремния, например, графена.
FAQ по видеокартам GeForce: что следует знать о графических картах?
Страница 4: GPU
Что скрывается за потоковым процессором, блоком шейдеров или ядром CUDA?
Потоковый процессор обрабатывает непрерывный поток данных, которых насчитываются многие сотни, причем они выполняются параллельно на множестве потоковых процессоров. Современные GPU оснащаются несколькими тысячами потоковых процессоров, они отлично подходят для задач с высокой степенью параллельности. Это и рендеринг графики, и научные расчеты. Что, кстати, позволило GPU закрепиться в серверном сегменте в качестве вычислительных ускорителей.
Еще одним шагом дальше можно назвать интеграцию ядер Tensor в архитектуру NVIDIA Ampere, которые способны эффективно вычислять менее сложные числа INT8 и INT4, но об этом мы поговорим чуть позже.
В составе GPU GA102 имеются семь кластеров Graphics Processing Clusters (GPC) с 12 потоковыми мультипроцессорами Streaming Multiprocessors (SM) каждый. Но на видеокартах GeForce RTX 3090 и GeForce RTX 3080 активны не все SM. GA102 GPU теоретически содержит 10.752 блоков FP32 (7 GPC x 12 SM x 128 блоков FP32). Но у GeForce RTX 3090 два SM отключены, поэтому видеокарта предлагает «всего» 10.496 блоков FP32. Такой подход повышает выход годных чипов NVIDIA, поскольку наличие одного-двух дефектных SM не приводит к отбраковке кристалла.
В случае GeForce RTX 3080 один кластер GPC полностью отключен, поэтому на GA102 GPU остаются шесть GPC, но только четыре из них содержат полные 12 SM, два ограничены десятью SM. Что дает в сумме 8.704 блока FP32 в составе 68 SM.
NVIDIA масштабирует архитектуру Ampere с видеокарты GeForce RTX 3060 вплоть до GeForce RTX 3090. Ниже представлен обзор видеокарт GeForce RTX 30:
GeForce RTX 3090 | GeForce RTX 3080 Ti | GeForce RTX 3080 | GeForce RTX 3070 Ti | |
GPU | Ampere (GA102) | Ampere (GA102) | Ampere (GA102) | Ampere (GA104) |
Число транзисторов | 28 млрд. | 28 млрд. | 28 млрд. | 17,4 млрд. |
Техпроцесс | 8 нм | 8 нм | 8 нм | 8 нм |
Площадь кристалла | 628,4 мм² | 628,4 мм² | 628,4 мм² | 392,5 мм² |
Число FP32 ALU | 10.496 | 10.240 | 8.704 | 6.144 |
Число INT32 ALU | 5.248 | 5.120 | 4.352 | 3.072 |
Число SM | 82 | 80 | 68 | 48 |
Ядра Tensor | 328 | 320 | 272 | 192 |
Ядра RT | 82 | 80 | 68 | 48 |
Базовая частота | 1.400 МГц | 1.365 МГц | 1.440 МГц | 1.580 МГц |
Частота Boost | 1.700 МГц | 1.665 МГц | 1.710 МГц | 1.770 МГц |
Емкость памяти | 24 GB | 12 GB | 10 GB | 8 GB |
Тип памяти | GDDR6X | GDDR6X | GDDR6X | GDDR6X |
Частота памяти | 1.219 МГц | 1.188 МГц | 1.188 МГц | 1.188 МГц |
Ширина шины памяти | 384 бит | 384 бит | 320 бит | 256 бит |
Пропускная способность памяти | 936 Гбайт/с | 912 Гбайт/с | 760 Гбайт/с | 608 Гбайт/с |
TDP | 350 Вт | 350 Вт | 320 Вт | 290 Вт |
GeForce RTX 3070 | GeForce RTX 3060 Ti | GeForce RTX 3060 | |
GPU | Ampere (GA104) | Ampere (GA104) | Ampere (GA106) |
Число транзисторов | 17,4 млрд. | 17,4 млрд. | 12 млрд. |
Техпроцесс | 8 нм | 8 нм | 8 нм |
Площадь кристалла | 392,5 мм² | 392,5 мм² | 276 мм² |
Число FP32 ALU | 5.888 | 4.864 | 3.584 |
Число INT32 ALU | 2.944 | 2.432 | 1.792 |
Число SM | 46 | 38 | 28 |
Ядра Tensor | 184 | 152 | 112 |
Ядра RT | 46 | 38 | 28 |
Базовая частота | 1.500 МГц | 1.410 МГц | 1.320 МГц |
Частота Boost | 1.730 МГц | 1.665 МГц | 1.780 МГц |
Емкость памяти | 8 GB | 8 GB | 12 GB |
Тип памяти | GDDR6 | GDDR6 | GDDR6 |
Частота памяти | 1.725 МГц | 1.750 МГц | 1.875 МГц |
Ширина шины памяти | 256 бит | 256 бит | 192 бит |
Пропускная способность памяти | 448 Гбайт/с | 448 Гбайт/с | 360 Гбайт/с |
TDP | 220 Вт | 200 Вт | 170 Вт |
Одновременное выполнение операций с целыми числами и числами с плавающей запятой
Как мы уже упоминали, вычислительные блоки FP32 могут работать в режиме 2x FP16, то же самое касается INT16. Чтобы увеличить вычислительную производительность и сделать ее более гибкой, в архитектуре NVIDIA Turing появилась возможность одновременного расчета чисел с плавающей запятой и целых чисел. Конечно, подобная возможность сохранилась и в архитектуре Ampere. NVIDIA проанализировала данные вычисления в конвейере рендеринга в десятках игр, обнаружив, что на каждые 100 расчетов FP выполняется примерно треть вычислений INT. Впрочем, значение среднее, на практике оно меняется от 20% до 50%. Конечно, если вычисления FP и INT будут выполняться одновременно, то конвейеру придется иногда «подтормаживать» в случае взаимных связей.
Соотношение 1/3 INT32 и 2/3 FP32 отражено в структуре Ampere Streaming Multiprocessor (SM), составляющем элементе архитектуры Ampere. NVIDIA удвоила число вычислительных блоков FP32 на каждый SM. Вместо 64 блоков FP32 на SM, их теперь насчитывается 128. Плюс 64 блока INT32. Теперь на квадрант SM насчитывается два пути данных, некоторые могут работать параллельно. Один из путей данных содержит 16 блоков FP32, то есть может выполнять 16 вычислений FP32 за такт. Второй путь данных содержит по 16 блоков FP32 и INT32. Каждый из квадрантов SM может выполнять либо 32 операции FP32, либо по 16 операций FP32 и INT32 за такт. Если же брать SM целиком, то возможно выполнение 128 операций FP32 или по 64 операции FP32 и INT32 за такт.
Параллельное выполнение продолжается и на других блоках. Например, ядра RT и Tensor могут работать параллельно в конвейере рендеринга, что снижает время, требующееся на рендеринг кадра.
Под термином «потоковые процессоры» сегодня подразумевают количество вычислительных блоков GPU, хотя следует помнить, что сложность вычислений бывает разной. Поэтому термин используется гибко, но обычно все равно описывает вычислительные блоки.
Текстурные блоки
Действительно, для рендеринга объекта простых текстур уже недостаточно, использование нескольких слоев позволяет, например, получить 3D-эффект вместо плоской текстуры. Раньше объекты приходилось рассчитывать на конвейере несколько раз, и каждый проход текстурный блок накладывал текстуру, сегодня достаточно одного процесса рендеринга, текстурный блок может получать данные объекта для многократной обработки из буфера.
Контроллер памяти
Помимо изменений в SM, новая архитектура NVIDIA получила оптимизированную структуру конвейеров растровых операций (ROP), а также соединения ROP и контроллера памяти. До поколения Turing ROP всегда подключались к интерфейсу памяти. И на каждый 32-битный контроллер памяти приходилось восемь ROP. Если число контроллеров памяти и ширина шины менялись, то же самое касалось и ROP. В архитектуре Ampere ROP перенесены в GPC. Используются два раздела ROP на GPC, каждый раздел содержит восемь ROP.
Что дает иную формулу вычисления ROP на GeForce RTX 3080. Шесть GPC с 2x 8 ROP на каждом дают 96 ROP. У GeForce RTX 3090 работают семь GPC с 2x 8 ROP, что дает 112 ROP. NVIDIA намеренно интегрировала ROP глубже, чтобы задняя часть конвейера рендеринга меньше зависела от интерфейса памяти. Например, видеокарта GeForce RTX 3080 использует 320-битный интерфейс памяти, но содержит 96 ROP, а не 80 ROP.
Интерфейс памяти разделен на 32-битные блоки. В зависимости от желаемой ширины интерфейса памяти или емкости, их можно набирать в произвольном количестве.
Ядра Tensor и RT
Ядра Tensor третьего поколения
С архитектурой Turing NVIDIA представила два новых вычислительных блока, ранее на GPU не использовавшихся. Конечно, ядра Tensor знакомы нам по архитектуре Volta, но там они использовались для научных расчетов. В случае GPU Ampere ядра Tensor перешли уже на третье поколение.
Ядра Tensor ранее использовались только для вычислений INT16 и FP16, но в третьем поколении они могут работать с FP32 и FP64. Что особенно важно для сегмента HPC с высокой точностью. Для игровых GPU GeForce намного важнее меньшая точность.
Ядра Tensor архитектуры Turing могут выполнять 64 операции FP16 Fused Multiply-Add (FMA) каждое. В случае Ampere число операций увеличено до 128 у GA102 GPU и до 256 у GA100 GPU с плотными матрицами. Если же используются разреженные матрицы, число операций FMA FP16 увеличивается до 256 у GA102 GPU и до 512 у GA100 GPU. Ядра Tensor архитектуры Turing разреженные матрицы не поддерживают.
Ядра RT второго поколения
Все они опираются на тот принцип, что удаленные от луча примитивы не могут с ним пересекаться. Следовательно, и смысла их просчитывать нет. Число лучей на сценах растет экспоненциально, поэтому на каждый луч следует обрабатывать как можно меньшее число примитивов, чтобы не увеличивать вычислительную нагрузку.
Поскольку NVIDIA не изменила число ядер RT на SM в архитектуре Ampere, количество блоков SM на GPU по-прежнему определяет производительность RT. Но в ядрах RT есть другие оптимизации.
Одна из проблем с расчетом пересечений при трассировке лучей связана с движущимися объектами, особенно если используется эффект размытия движения (motion blur). Для ядер RT в архитектуре Turing такой сценарий является «узким местом». Но второе поколение ядер RT уже лучше справляется с интерполяцией эффекта размытия движения. Пересечения просчитываются с упреждением, в итоге трассировка лучей рассчитываются только для тех областей, где она необходима.
Кэши L1 и L2
Между функциональными блоками (потоковые процессоры, ядра RT и Tensor) и видеопамятью располагаются еще два уровня хранения данных, без которых GPU не смог бы выдавать высокий уровень производительности. Цель этих кэшей заключается в том, чтобы хранить информацию как можно ближе к функциональным блокам. Данные передаются из видеопамяти сначала в кэш L2, а затем и в кэш L1.
NVIDIA с архитектурой Ampere вновь увеличила кэш L1 с 96 до 128 кбайт. Скорость работы L1 была вновь удвоена. NVIDIA реализовала такую же меру ранее при переходе с Pascal на Turing. Число 32-битных регистров не изменилось и осталось на уровне 16.384. То же самое касается числа блоков чтения/записи.