+7(863)285-04-66

info@promtechautomat.ru

г. Ростов-на-Дону. Социалистическая 74

Тестирование энергоэффективности и скорости вычислений видеокарт для майнинга в BOINC проектах

На момент написания статьи идет криптозима (весна 2025 года). Количество предложений видеокарт от майнеров на популярных площадках увеличивается, и сейчас неплохое время для апгрейда оборудования. Материал этой статьи будет полезен для сравнения характеристик видеокарт для майнинга в проектах распределенных вычислений на платформе BOINC.

Подробно о добровольных вычислениях и проектах можно почитать здесь: https://ru.wikipedia.org/wiki/Добровольные_вычисления

https://ru.wikipedia.org/wiki/BOINC

Характеристики графических процессоров, которые будут протестированы, приведены в таблице 1. Данные для таблицы взяты с сайта techpowerup.com, как показали эксперименты в реальности тактовая частота работы графических процессоров отличается от приведенной в открытых источниках. Также по графическому процессору CMP 90HX в таблице завышен показатель TDP, как показали замеры, энергопотребление ограничено мощностью 250 Вт. Возможно попался экземпляр с модифицированным биосом.

Таблица 1 – Характеристики графических процессоров

Название процессора Nvidia CMP 170HX (GA100-105F-A1) Nvidia P102-100 (GP102-100-A1) Nvidia 1080ti Duke (GP102-350-K1-A1) Nvidia CMP 90HX (GA102-100-A1)
Архитектура Ampere Pascal Pascal Ampere
Технологический процесс производства, нм 7 16 16 8
Унифицированных шейдерных процессоров, шт 4480 3200 3584 6400
Текстурных блоков, шт 280 200 224 200
Блоков растеризации, шт 128 80 88 80
Потоковых мультипроцессоров, шт 70 25 28 50
Ядра Tensor, шт 280 0 0 200
Тактовая частота номинальная, МГц 1140 1582 1481 1500
Тактовая частота максимальная, МГц 1410 1683 1582 1710
Пропускная способность памяти, ГБ/с 2900 440,3 484,4 760,3
Производительность FP16 (половинной точности), TFLOPS 50,530 0,1683 0,1772 21,89
Производительность FP32 (одинарной точности), TFLOPS 12,630 10,77 11,34 21,89
Производительность FP64 (двойной точности), TFLOPS 6,317 0,3366 0,3544 0,342
Требования по теплоотводу, TDP, Вт 250 250 250 320

Характеристики тестового стенда приведены в таблице 2.

Таблица 2 – Состав тестового стенда

Операционная система Microsoft Windows 10 Pro 10.0.19045.5608 (Win10 22H2 2022 Update)
Тип ЦП QuadCore Intel Core i5-6600K, 3700 MHz (37 x 100)
Системная плата Asus B250 Mining Expert
Системная память Kingston HyperX KHX2400C14D4/16G 2шт
Блок питания IBM DPS-2980AB 2980W

Установка драйверов

В Windows видеокарты CMP 170HX и P102-100 одновременно работать с BOINC отказались, видимо это связано с тем, что для этих видеокарт драйвера находятся в разных установочных пакетах (для CMP 170HX требуется Datacenter driver for Windows).

Если вы все сделали правильно, в диспетчере устройств появится видеоадаптер NVIDIA A100.

Настройка системы охлаждения графического процессора

Ниже приводится описание, как установить драйверы для видеокарты CMP 170HX в Windows 10 Pro.

Уменьшение влияния на производительность графического процессора центрального процессора

Видеокарта CMP 170HX является урезанной версией ускорителя NVIDIA A100, однако производитель не включил отдельный драйвер в установочный пакет, и поиск драйвера на сайте nvidia ни к чему не приведет. Чтобы установить драйвер для CMP 170HX, необходимо скачать Data Center Driver for Windows с поддержкой устройств A-series. На момент написания этого обзора, самая новая версия этого драйвера 572.61-data-center-tesla-desktop-win10-win11-64bit-dch-international. Далее нужно распаковать файлы драйвера в папку (например, программой 7zip) и через диспетчер устройств указать Поиск и установка драйвера вручную

Если вы все сделали правильно, в диспетчере устройств появится видеоадаптер NVIDIA A100.

Настройка системы охлаждения графического процессора

Современные графические процессоры имеют встроенную температурную защиту от перегрева. При приближении температуры кристалла к критической, происходит динамическое изменение частоты работы процессора (частота снижается), за счет этого температура не поднимается выше. Также существует лимит по энергопотреблению, который также имеет связь с температурой кристалла. Чтобы исключить влияние температуры на производительность, удобнее всего вручную задать скорость вращения вентиляторов системы охлаждения, проверив под нагрузкой, что максимальная температура кристалла графического процессора меньше критической и тактовая частота постоянная (равна максимальной). Например, для работы CMP 170HX с максимальной производительностью, температура кристалла должна быть меньше 73 градусов. Уже про 74 градусах максимальная тактовая частота будет ниже 1410 МГц.

Уменьшение влияния на производительность графического процессора центрального процессора

Различные задачи BOINC нагружают центральный процессор по-разному. При оценке производительности графического процессора (GPU), нужно убедиться, что центральный процессор (CPU) не является узким местом вычислительной системы. При работе приложений BOINC, использующих видеокарту, загрузка центрального процессора не должна быть 100%. Особенно это актуально если в системе несколько видеокарт и проект активно использует ресурсы центрального процессора. Например, при использовании тестового стенда и 5 видеокарт Zotac P102-100 для расчетов заданий проекта Einstein@Home, время выполнения задания выше на 50%, из-за перегрузки центрального процессора. При использовании 3-х видеокарт Zotac P102-100, в проекте Einstein@Home перегрузки процессора Intel Core i5-6600K уже не происходит, как результат - производительность вычислительной системы с тремя видеокартами выше, чем с пятью. Если центральный процессор не является узким местом вычислительной системы, время выполнения задания и время ЦП в статистике задания должны быть примерно равны (для All-Sky Gravitational Wave search on O3), и загрузка процессора меньше 100%.

CMP170hX, GPU 1410, Memory 1458, i5-6600, версия драйвера 572.61
Проект Приложение Задание Объем вычислений, GFLOPs Затрачено времени, с Потребление GPU, Вт Использование GPU, % Использование CPU, % Cobblestones за задание Квт*ч на задание Cobblestones/с Cobblestones/ч Cobblestones/Квт*ч
Einstein@Home All-Sky Gravitational Wave search on O3 1.16 (GW-opencl-nvidia-3) h1_0201.80_O3aLC01Cl1In0 __O3ASBu_202.00Hz_68521 1 440 000 1845 102,4 73,9 36,0 20000 0,052480 10,84 39024 381098
PrimeGrid Genefer 17 Mega 4.06 (OCLcudaGFN17MEGA) genefer17mega_219485926 29 688 202 109,2 83,0 18,1 510,49 0,006125 2,53 9098 83351
PrimeGrid Genefer 18 4.04 (OCLcudaGFN18) genefer18_225373750 110 235 545 143,0 91,5 10,4 1895,17 0,021644 3,48 12519 87562
PrimeGrid Genefer 19 4.04 (OCLcudaGFN19) genefer19_227978953 484 656 1691 187,9 97,6 8,6 8333 0,088253 4,93 17740 94422
PrimeGrid Genefer 20 4.04 (OCLcudaGFN20) genefer20_216644352 1 855 379 5607 225,33 98,7 6,6 35090 0,350945 6,26 22530 99987
PrimeGrid Genefer 21 4.04 (OCLcudaGFN) genefer21_195292090 8 373 269 22049 245,23 98,8 4,5 172767 1,501957 7,84 28208 115028
P102-100 Zotac, GPU 1860, Memory 5508, i5-6600k, версия драйвера 384.74
Проект Приложение Задание Объем вычислений, GFLOPs Затрачено времени, с Потребление GPU*, Вт Использование GPU, % Использование CPU, % Cobblestones за задание Квт*ч на задание Cobblestones/с Cobblestones/ч Cobblestones/Квт*ч
Einstein@Home All-Sky Gravitational Wave search on O3 1.16 (GW-opencl-nvidia-3) h1_0201.80_O3aLC01Cl1In0__O3ASBu_202.00Hz_35696 1 440 000 3478 153,8 66,6 32,6 20000 0,148550 5,75 20702 134635
PrimeGrid Genefer 17 Mega 4.06 (OCLcudaGFN17MEGA) genefer17mega_219516315 29 689 514 180,3 81,6 11,8 510,49 0,025737 0,99 3575 19835
PrimeGrid Genefer 18 4.04 (OCLcudaGFN18) genefer18_225374024 110 235 1576 226,1 93,9 10,6 1895,17 0,098976 1,20 4329 19148
PrimeGrid Genefer 19 4.04 (OCLcudaGFN19) genefer19_227981822 484 694 5341 245,0 96,3 6,4 8333 0,363546 1,56 5617 22921
PrimeGrid Genefer 20 4.04 (OCLcudaGFN20) genefer20_216645211 1 855 379 17431 245,3 97,3 5,8 35090 1,187618 2,01 7247 29547

* У P102-100 отсутствует измерение потребляемой мощности с помощью Afterburner, соответственно эти данные заполнялись с помощью пересчета % мощности GPU и значения TDP в потребляемую мощность. Так как величина TDP не является максимальным теоретическим тепловыделением процессора, то полученные при пересчете значения не будут точными. Для 1080ti есть данные и по потребляемой мощности в Ваттах и по мощности GPU в %. Мощность, измеренная в Ваттах примерно на 11-12% больше чем рассчитанная мощность (Мощность GPU в % умножить на TDP и разделить на 100%). Для точного измерения потребляемой мощности требуются внешние приборы, эта задача выходит за рамки настоящего исследования.

1080ti Duke, GPU 1936, Memory 5005, i5-6600k версия драйвера 560.94
Проект Приложение Задание Объем вычислений, GFLOPs Затрачено времени, с Потребление GPU, Вт Использование GPU, % Использование CPU, % Cobblestones за задание Квт*ч на задание Cobblestones/с Cobblestones/ч Cobblestones/Квт*ч
Einstein@Home All-Sky Gravitational Wave search on O3 1.16 (GW-opencl-nvidia-3) h1_0202.80_O3aLC01Cl1In0__O3ASBu_203.00Hz_65384 1 440 000 3140 146,0 66,6 31,8 20000 0,127351 6,37 22930 157046
PrimeGrid Genefer 17 Mega 4.06 (OCLcudaGFN17MEGA) genefer17mega_219410381 29 688 512 178,9 76,2 21,7 510,49 0,025441 1,00 3589 20066
90HX, GPU 1890-1575, Memory 9501, i5-6600k версия драйвера 560.94 bios 94.02.74.00.01 лимит мощности 250 Вт
Проект Приложение Задание Объем вычислений, GFLOPs Затрачено времени, с Потребление GPU, Вт Использование GPU, % Использование CPU, % Cobblestones за задание Квт*ч на задание Cobblestones/с Cobblestones/ч Cobblestones/Квт*ч
Einstein@Home All-Sky Gravitational Wave search on O3 1.16 (GW-opencl-nvidia-3) h1_0202.80_O3aLC01Cl1In0__O3ASBu_203.00Hz_65386 1 440 000 2088 180,1 80,0 34,3 20000 0,104479 9,58 34483 191426
PrimeGrid Genefer 17 Mega 4.06 (OCLcudaGFN17MEGA) genefer17mega_228480484 29 691 224 211,1 85,4 14,3 510,49 0,013137 2,28 8196 38821
PrimeGrid Genefer 21 4.04 (OCLcudaGFN) genefer21_229505960c 130 856 667 217,8 94,6 9,9 2700,2 0,040349 4,05 14574 66922
PrimeGrid Genefer 19 4.04 (OCLcudaGFN19) genefer19_227986516 484 757 2524 246,1 99,1 8,1 8335 0,172519 3,30 11888 68910
PrimeGrid Genefer 20 4.04 (OCLcudaGFN20) genefer20_216646063 1 855 679 8880 247,1 99,2 6,3 35100 0,609426 3,95 14230 57595

Затраты энергии на выполнение задания на CMP 170HX в 3,9 раза меньше чем у графических процессоров GeForce 10 серии. Скорость вычислений CMP 170HX в различных приложениях BOINC выше в 3,1 раза по сравнению с 1080ti и P102-100.

Затраты энергии на выполнение задания CMP 90HX в 1,9 раза меньшее чем у графических процессоров GeForce 10 серии Скорость вычислений CMP 90HX в различных приложениях BOINC выше в 2 раза по сравнению с 1080ti и P102-100.

На сайте проекта PrimeGrid имеется информация о относительной скорости графических процессоров (вычисляется автоматически на основе присланных результатов) https://www.primegrid.com/gpu_list.php#GFN20. К сожалению, там нет информации по графическим процессорам для майнинга. Приняв допущение, что производительность P102-100 примерно равна производительности 1080ti, получаем следующий рейтинг по относительной скорости (для задач Genefer 20 4.04 (OCLcudaGFN20).

№ п.п. Относительная скорость Модель Время вычисления задания объемом 1855379 GFLOPS, с
1 1,000 NVIDIA GeForce RTX 4090
2 0,795 NVIDIA GeForce RTX 4080
3 0,620 NVIDIA GeForce RTX 4070 Ti SUPER
4 0,619 NVIDIA GeForce RTX 4070 Ti
5 0,526 NVIDIA GeForce RTX 4070 SUPER
6 0,444 NVIDIA CMP 170HX 5607
7 0,391 NVIDIA GeForce RTX 4060 Ti
8 0,358 NVIDIA GeForce RTX 4070 Laptop GPU
9 0,346 NVIDIA GeForce RTX 3080
10 0,333 NVIDIA L4
11 0,280 NVIDIA CMP 90HX 8880
12 0,263 NVIDIA GeForce RTX 4060
13 0,260 NVIDIA GeForce RTX 2080 Ti
14 0,255 NVIDIA GeForce RTX 3070 Ti
15 0,235 Tesla V100-FHHL-16GB
16 0,218 NVIDIA GeForce RTX 3070
17 0,209 NVIDIA GeForce RTX 3060 Ti
18 0,186 NVIDIA TITAN V
19 0,183 NVIDIA GeForce RTX 2060 SUPER
20 0,162 NVIDIA GeForce RTX 3060
21 0,144 NVIDIA RTX A4000
22 0,143 NVIDIA P102-100 17431
23 0,143 NVIDIA GeForce GTX 1080 Ti
24 0,141 NVIDIA GeForce RTX 3060 Laptop GPU
25 0,139 NVIDIA GeForce RTX 2060
26 0,132 Tesla P40
27 0,124 NVIDIA GeForce GTX 1660 SUPER
28 0,122 NVIDIA GeForce GTX 1660 Ti
29 0,095 NVIDIA GeForce RTX 3050
30 0,077 NVIDIA GeForce GTX 1060 6GB
31 0,064 NVIDIA GeForce GTX 1060 3GB
32 0,058 NVIDIA GeForce GTX 1650

В рейтинге CMP 90HX заметно ниже NVIDIA GeForce RTX 3080, разница в 23% объясняется уменьшением лимита потребляемой мощности до 250 Вт, скорее всего при одинаковом лимите энергопотребления, время вычисления заданий тоже будет одинаковым.

Графический процессор CMP 170HX также занял достойное место в рейтинге. При вычислениях задач Genefer 20 4.04 потребляемая мощность практически равна значению TDP. У топа из рейтинга - GeForce RTX 4090 TDP равно 450 Вт, у CMP 170HX измеренное потребление – 225 Вт. Соответственно, если сравнить скорость при одинаковом энергопотреблении, производительность двух ускорителей CMP 170HX будет ниже на 12% производительности одной карты GeForce RTX 4090. Тут нужно отметить, что 170HX выпускается по техпроцессу 7 нм, а RTX 4090 по техпроцессу 5нм.