Тестирование энергоэффективности и скорости вычислений видеокарт для майнинга в BOINC проектах

На момент написания статьи идет криптозима (весна 2025 года). Количество предложений видеокарт от майнеров на популярных площадках увеличивается, и сейчас неплохое время для апгрейда оборудования. Материал этой статьи будет полезен для сравнения характеристик видеокарт для майнинга в проектах распределенных вычислений на платформе BOINC.

Подробно о добровольных вычислениях и проектах можно почитать здесь: https://ru.wikipedia.org/wiki/Добровольные_вычисления

https://ru.wikipedia.org/wiki/BOINC

Характеристики графических процессоров, которые будут протестированы, приведены в таблице 1. Данные для таблицы взяты с сайта techpowerup.com, как показали эксперименты в реальности тактовая частота работы графических процессоров отличается от приведенной в открытых источниках. Также по графическому процессору CMP 90HX в таблице завышен показатель TDP, как показали замеры, энергопотребление ограничено мощностью 250 Вт. Возможно попался экземпляр с модифицированным биосом.

Таблица 1 – Характеристики графических процессоров

Название процессора	Nvidia CMP 170HX (GA100-105F-A1)	Nvidia P102-100 (GP102-100-A1)	Nvidia 1080ti Duke (GP102-350-K1-A1)	Nvidia CMP 90HX (GA102-100-A1)
Архитектура	Ampere	Pascal	Pascal	Ampere
Технологический процесс производства, нм	7	16	16	8
Унифицированных шейдерных процессоров, шт	4480	3200	3584	6400
Текстурных блоков, шт	280	200	224	200
Блоков растеризации, шт	128	80	88	80
Потоковых мультипроцессоров, шт	70	25	28	50
Ядра Tensor, шт	280	0	0	200
Тактовая частота номинальная, МГц	1140	1582	1481	1500
Тактовая частота максимальная, МГц	1410	1683	1582	1710
Пропускная способность памяти, ГБ/с	2900	440,3	484,4	760,3
Производительность FP16 (половинной точности), TFLOPS	50,530	0,1683	0,1772	21,89
Производительность FP32 (одинарной точности), TFLOPS	12,630	10,77	11,34	21,89
Производительность FP64 (двойной точности), TFLOPS	6,317	0,3366	0,3544	0,342
Требования по теплоотводу, TDP, Вт	250	250	250	320

Характеристики тестового стенда приведены в таблице 2.

Таблица 2 – Состав тестового стенда

Операционная система	Microsoft Windows 10 Pro 10.0.19045.5608 (Win10 22H2 2022 Update)
Тип ЦП	QuadCore Intel Core i5-6600K, 3700 MHz (37 x 100)
Системная плата	Asus B250 Mining Expert
Системная память	Kingston HyperX KHX2400C14D4/16G 2шт
Блок питания	IBM DPS-2980AB 2980W

Установка драйверов

В Windows видеокарты CMP 170HX и P102-100 одновременно работать с BOINC отказались, видимо это связано с тем, что для этих видеокарт драйвера находятся в разных установочных пакетах (для CMP 170HX требуется Datacenter driver for Windows).

Если вы все сделали правильно, в диспетчере устройств появится видеоадаптер NVIDIA A100.

Настройка системы охлаждения графического процессора

Ниже приводится описание, как установить драйверы для видеокарты CMP 170HX в Windows 10 Pro.

Уменьшение влияния на производительность графического процессора центрального процессора

Видеокарта CMP 170HX является урезанной версией ускорителя NVIDIA A100, однако производитель не включил отдельный драйвер в установочный пакет, и поиск драйвера на сайте nvidia ни к чему не приведет. Чтобы установить драйвер для CMP 170HX, необходимо скачать Data Center Driver for Windows с поддержкой устройств A-series. На момент написания этого обзора, самая новая версия этого драйвера 572.61-data-center-tesla-desktop-win10-win11-64bit-dch-international. Далее нужно распаковать файлы драйвера в папку (например, программой 7zip) и через диспетчер устройств указать Поиск и установка драйвера вручную

Если вы все сделали правильно, в диспетчере устройств появится видеоадаптер NVIDIA A100.

Настройка системы охлаждения графического процессора

Современные графические процессоры имеют встроенную температурную защиту от перегрева. При приближении температуры кристалла к критической, происходит динамическое изменение частоты работы процессора (частота снижается), за счет этого температура не поднимается выше. Также существует лимит по энергопотреблению, который также имеет связь с температурой кристалла. Чтобы исключить влияние температуры на производительность, удобнее всего вручную задать скорость вращения вентиляторов системы охлаждения, проверив под нагрузкой, что максимальная температура кристалла графического процессора меньше критической и тактовая частота постоянная (равна максимальной). Например, для работы CMP 170HX с максимальной производительностью, температура кристалла должна быть меньше 73 градусов. Уже про 74 градусах максимальная тактовая частота будет ниже 1410 МГц.

Уменьшение влияния на производительность графического процессора центрального процессора

Различные задачи BOINC нагружают центральный процессор по-разному. При оценке производительности графического процессора (GPU), нужно убедиться, что центральный процессор (CPU) не является узким местом вычислительной системы. При работе приложений BOINC, использующих видеокарту, загрузка центрального процессора не должна быть 100%. Особенно это актуально если в системе несколько видеокарт и проект активно использует ресурсы центрального процессора. Например, при использовании тестового стенда и 5 видеокарт Zotac P102-100 для расчетов заданий проекта Einstein@Home, время выполнения задания выше на 50%, из-за перегрузки центрального процессора. При использовании 3-х видеокарт Zotac P102-100, в проекте Einstein@Home перегрузки процессора Intel Core i5-6600K уже не происходит, как результат - производительность вычислительной системы с тремя видеокартами выше, чем с пятью. Если центральный процессор не является узким местом вычислительной системы, время выполнения задания и время ЦП в статистике задания должны быть примерно равны (для All-Sky Gravitational Wave search on O3), и загрузка процессора меньше 100%.

CMP170hX, GPU 1410, Memory 1458, i5-6600, версия драйвера 572.61
Проект	Приложение	Задание	Объем вычислений, GFLOPs	Затрачено времени, с	Потребление GPU, Вт	Использование GPU, %	Использование CPU, %	Cobblestones за задание	Квт*ч на задание	Cobblestones/с	Cobblestones/ч	Cobblestones/Квт*ч
Einstein@Home	All-Sky Gravitational Wave search on O3 1.16 (GW-opencl-nvidia-3)	h1_0201.80_O3aLC01Cl1In0 __O3ASBu_202.00Hz_68521	1 440 000	1845	102,4	73,9	36,0	20000	0,052480	10,84	39024	381098
PrimeGrid	Genefer 17 Mega 4.06 (OCLcudaGFN17MEGA)	genefer17mega_219485926	29 688	202	109,2	83,0	18,1	510,49	0,006125	2,53	9098	83351
PrimeGrid	Genefer 18 4.04 (OCLcudaGFN18)	genefer18_225373750	110 235	545	143,0	91,5	10,4	1895,17	0,021644	3,48	12519	87562
PrimeGrid	Genefer 19 4.04 (OCLcudaGFN19)	genefer19_227978953	484 656	1691	187,9	97,6	8,6	8333	0,088253	4,93	17740	94422
PrimeGrid	Genefer 20 4.04 (OCLcudaGFN20)	genefer20_216644352	1 855 379	5607	225,33	98,7	6,6	35090	0,350945	6,26	22530	99987
PrimeGrid	Genefer 21 4.04 (OCLcudaGFN)	genefer21_195292090	8 373 269	22049	245,23	98,8	4,5	172767	1,501957	7,84	28208	115028

P102-100 Zotac, GPU 1860, Memory 5508, i5-6600k, версия драйвера 384.74
Проект	Приложение	Задание	Объем вычислений, GFLOPs	Затрачено времени, с	Потребление GPU*, Вт	Использование GPU, %	Использование CPU, %	Cobblestones за задание	Квт*ч на задание	Cobblestones/с	Cobblestones/ч	Cobblestones/Квт*ч
Einstein@Home	All-Sky Gravitational Wave search on O3 1.16 (GW-opencl-nvidia-3)	h1_0201.80_O3aLC01Cl1In0__O3ASBu_202.00Hz_35696	1 440 000	3478	153,8	66,6	32,6	20000	0,148550	5,75	20702	134635
PrimeGrid	Genefer 17 Mega 4.06 (OCLcudaGFN17MEGA)	genefer17mega_219516315	29 689	514	180,3	81,6	11,8	510,49	0,025737	0,99	3575	19835
PrimeGrid	Genefer 18 4.04 (OCLcudaGFN18)	genefer18_225374024	110 235	1576	226,1	93,9	10,6	1895,17	0,098976	1,20	4329	19148
PrimeGrid	Genefer 19 4.04 (OCLcudaGFN19)	genefer19_227981822	484 694	5341	245,0	96,3	6,4	8333	0,363546	1,56	5617	22921
PrimeGrid	Genefer 20 4.04 (OCLcudaGFN20)	genefer20_216645211	1 855 379	17431	245,3	97,3	5,8	35090	1,187618	2,01	7247	29547

* У P102-100 отсутствует измерение потребляемой мощности с помощью Afterburner, соответственно эти данные заполнялись с помощью пересчета % мощности GPU и значения TDP в потребляемую мощность. Так как величина TDP не является максимальным теоретическим тепловыделением процессора, то полученные при пересчете значения не будут точными. Для 1080ti есть данные и по потребляемой мощности в Ваттах и по мощности GPU в %. Мощность, измеренная в Ваттах примерно на 11-12% больше чем рассчитанная мощность (Мощность GPU в % умножить на TDP и разделить на 100%). Для точного измерения потребляемой мощности требуются внешние приборы, эта задача выходит за рамки настоящего исследования.

1080ti Duke, GPU 1936, Memory 5005, i5-6600k версия драйвера 560.94
Проект	Приложение	Задание	Объем вычислений, GFLOPs	Затрачено времени, с	Потребление GPU, Вт	Использование GPU, %	Использование CPU, %	Cobblestones за задание	Квт*ч на задание	Cobblestones/с	Cobblestones/ч	Cobblestones/Квт*ч
Einstein@Home	All-Sky Gravitational Wave search on O3 1.16 (GW-opencl-nvidia-3)	h1_0202.80_O3aLC01Cl1In0__O3ASBu_203.00Hz_65384	1 440 000	3140	146,0	66,6	31,8	20000	0,127351	6,37	22930	157046
PrimeGrid	Genefer 17 Mega 4.06 (OCLcudaGFN17MEGA)	genefer17mega_219410381	29 688	512	178,9	76,2	21,7	510,49	0,025441	1,00	3589	20066

90HX, GPU 1890-1575, Memory 9501, i5-6600k версия драйвера 560.94 bios 94.02.74.00.01 лимит мощности 250 Вт
Проект	Приложение	Задание	Объем вычислений, GFLOPs	Затрачено времени, с	Потребление GPU, Вт	Использование GPU, %	Использование CPU, %	Cobblestones за задание	Квт*ч на задание	Cobblestones/с	Cobblestones/ч	Cobblestones/Квт*ч
Einstein@Home	All-Sky Gravitational Wave search on O3 1.16 (GW-opencl-nvidia-3)	h1_0202.80_O3aLC01Cl1In0__O3ASBu_203.00Hz_65386	1 440 000	2088	180,1	80,0	34,3	20000	0,104479	9,58	34483	191426
PrimeGrid	Genefer 17 Mega 4.06 (OCLcudaGFN17MEGA)	genefer17mega_228480484	29 691	224	211,1	85,4	14,3	510,49	0,013137	2,28	8196	38821
PrimeGrid	Genefer 21 4.04 (OCLcudaGFN)	genefer21_229505960c	130 856	667	217,8	94,6	9,9	2700,2	0,040349	4,05	14574	66922
PrimeGrid	Genefer 19 4.04 (OCLcudaGFN19)	genefer19_227986516	484 757	2524	246,1	99,1	8,1	8335	0,172519	3,30	11888	68910
PrimeGrid	Genefer 20 4.04 (OCLcudaGFN20)	genefer20_216646063	1 855 679	8880	247,1	99,2	6,3	35100	0,609426	3,95	14230	57595

Затраты энергии на выполнение задания на CMP 170HX в 3,9 раза меньше чем у графических процессоров GeForce 10 серии. Скорость вычислений CMP 170HX в различных приложениях BOINC выше в 3,1 раза по сравнению с 1080ti и P102-100.

Затраты энергии на выполнение задания CMP 90HX в 1,9 раза меньшее чем у графических процессоров GeForce 10 серии Скорость вычислений CMP 90HX в различных приложениях BOINC выше в 2 раза по сравнению с 1080ti и P102-100.

На сайте проекта PrimeGrid имеется информация о относительной скорости графических процессоров (вычисляется автоматически на основе присланных результатов) https://www.primegrid.com/gpu_list.php#GFN20. К сожалению, там нет информации по графическим процессорам для майнинга. Приняв допущение, что производительность P102-100 примерно равна производительности 1080ti, получаем следующий рейтинг по относительной скорости (для задач Genefer 20 4.04 (OCLcudaGFN20).

№ п.п.	Относительная скорость	Модель	Время вычисления задания объемом 1855379 GFLOPS, с
1	1,000	NVIDIA GeForce RTX 4090
2	0,795	NVIDIA GeForce RTX 4080
3	0,620	NVIDIA GeForce RTX 4070 Ti SUPER
4	0,619	NVIDIA GeForce RTX 4070 Ti
5	0,526	NVIDIA GeForce RTX 4070 SUPER
6	0,444	NVIDIA CMP 170HX	5607
7	0,391	NVIDIA GeForce RTX 4060 Ti
8	0,358	NVIDIA GeForce RTX 4070 Laptop GPU
9	0,346	NVIDIA GeForce RTX 3080
10	0,333	NVIDIA L4
11	0,280	NVIDIA CMP 90HX	8880
12	0,263	NVIDIA GeForce RTX 4060
13	0,260	NVIDIA GeForce RTX 2080 Ti
14	0,255	NVIDIA GeForce RTX 3070 Ti
15	0,235	Tesla V100-FHHL-16GB
16	0,218	NVIDIA GeForce RTX 3070
17	0,209	NVIDIA GeForce RTX 3060 Ti
18	0,186	NVIDIA TITAN V
19	0,183	NVIDIA GeForce RTX 2060 SUPER
20	0,162	NVIDIA GeForce RTX 3060
21	0,144	NVIDIA RTX A4000
22	0,143	NVIDIA P102-100	17431
23	0,143	NVIDIA GeForce GTX 1080 Ti
24	0,141	NVIDIA GeForce RTX 3060 Laptop GPU
25	0,139	NVIDIA GeForce RTX 2060
26	0,132	Tesla P40
27	0,124	NVIDIA GeForce GTX 1660 SUPER
28	0,122	NVIDIA GeForce GTX 1660 Ti
29	0,095	NVIDIA GeForce RTX 3050
30	0,077	NVIDIA GeForce GTX 1060 6GB
31	0,064	NVIDIA GeForce GTX 1060 3GB
32	0,058	NVIDIA GeForce GTX 1650

В рейтинге CMP 90HX заметно ниже NVIDIA GeForce RTX 3080, разница в 23% объясняется уменьшением лимита потребляемой мощности до 250 Вт, скорее всего при одинаковом лимите энергопотребления, время вычисления заданий тоже будет одинаковым.

Графический процессор CMP 170HX также занял достойное место в рейтинге. При вычислениях задач Genefer 20 4.04 потребляемая мощность практически равна значению TDP. У топа из рейтинга - GeForce RTX 4090 TDP равно 450 Вт, у CMP 170HX измеренное потребление – 225 Вт. Соответственно, если сравнить скорость при одинаковом энергопотреблении, производительность двух ускорителей CMP 170HX будет ниже на 12% производительности одной карты GeForce RTX 4090. Тут нужно отметить, что 170HX выпускается по техпроцессу 7 нм, а RTX 4090 по техпроцессу 5нм.