NVIDIA выпустила новый набор бенчмарков для своего H100 AI GPU и сравнила его с недавно представленным MI300X от AMD. Цель этих бенчмарков - продемонстрировать, как H100 обеспечивает более высокую производительность, чем конкуренты, при использовании правильного программного обеспечения, чего не было на недавней презентации конкурента.
NVIDIA ставит AMD на заднее сиденье: Годовалый GPU Hopper H100 обеспечивает на 47% более высокую производительность по сравнению с AMD MI300X в правильных условиях бенчмаркинга
В ходе презентации "Advancing AI" компания AMD представила свой графический процессор Instinct MI300X, который должен стать началом пути ИИ в сегменте центров обработки данных. Презентация включала различные цифры и бенчмарки, в которых компания сравнивала MI300X с графическим процессором NVIDIA H100. AMD утверждает, что MI300X обеспечивает производительность на 20% выше, чем H100, при сравнении с одним GPU и на 60% выше, чем H100, при сравнении с сервером на 8 GPU. NVIDIA быстро отреагировала на эти бенчмарки и подчеркнула, что результаты далеки от истины.
СЛЕДУЮЩАЯ СТОРИЯ AMD публикует полный исходный код FSR 3 для DX12 и Unreal Engine 5, упрощая интеграцию в игры для разработчиков
Графический процессор NVIDIA H100 был выпущен в 2022 году и получил различные улучшения в программной части. Последние улучшения TensorRT-LLM обеспечили еще большую производительность в специфических для ИИ рабочих нагрузках, а также оптимизацию на уровне ядра. NVIDIA утверждает, что все это позволяет графическим процессорам H100 AI выполнять такие модели, как Llama 2 70B, используя операции FP8. Ниже приведены данные о производительности AI GPU в Llama 2 70B, представленные AMD на мероприятии:
MI300X на 40 % быстрее по сравнению с H100 (Llama 2 70B) в сервере 8v8
MI300X на 20 % быстрее H100 (Llama 2 70B) в сравнении 1v1
При сравнении Instinct MI300X с Hopper H100 компания AMD использовала оптимизированные библиотеки из пакета ROCm 6.0. Однако это не относится к графическому процессору NVIDIA H100, который не тестировался с оптимизированным программным обеспечением, таким как TensorRT-LLM. В бенчмарках, опубликованных NVIDIA, компания показывает реальную производительность одного сервера DGX H100 с 8 GPU H100, работающими на модели Llama 2 70B в Batch-1.
Подразумеваемые заявления AMD для H100 основаны на конфигурации, взятой из презентации AMD, сноска #MI300-38. Используя программное обеспечение vLLM v.02.2.2 с системой NVIDIA DGX H100, Llama 2 выполнила 70B запрос с длиной входной последовательности 2 048 и длиной выходной последовательности 128. Они заявили об относительной производительности по сравнению с DGX H100 с 8-кратным GPU MI300X.
Для данных измерений NVIDIA использовала DGX H100 с 8-ю графическими процессорами NVIDIA H100 Tensor Core с 80 ГБ HBM3 с общедоступным NVIDIA TensorRT-LLM, v0.5.0 для партии 1 и v0.6.1 для измерения порога латентности. Детали рабочей нагрузки такие же, как в сноске #MI300-38.
Результаты показывают, что по сравнению с тем, что AMD продемонстрировала на своем мероприятии, сервер DGX H100 в 2 раза быстрее при использовании оптимизированных программных рабочих процессов. Сервер также на 47 % быстрее решения AMD MI300X 8-GPU.
DGX H100 может обрабатывать один вывод за 1,7 секунды, используя пакетный размер один - другими словами, один запрос на вывод за раз. Размер партии в один запрос обеспечивает максимально быстрое время отклика при обслуживании модели. Чтобы оптимизировать время отклика и пропускную способность центра обработки данных, облачные сервисы устанавливают фиксированное время отклика для конкретного сервиса. Это позволяет им объединять несколько запросов на вывод в более крупные "партии" и увеличивать общее количество выводов в секунду на сервере. Стандартные отраслевые бенчмарки, такие как MLPerf, также измеряют производительность с помощью этой метрики фиксированного времени отклика.
Небольшой компромисс во времени отклика может увеличить количество запросов на вывод, которые сервер может обрабатывать в реальном времени. Используя фиксированное время отклика в 2,5 секунды, 8-GPU сервер DGX H100 может обрабатывать более пяти выводов Llama 2 70B в секунду по сравнению с менее чем одним в секунду при использовании первой партии.
через NVIDIA
Использование NVIDIA этих новых бенчмарков правильно с той точки зрения, что AMD также использовала оптимизированное ПО для оценки производительности своих GPU, так почему бы не сделать то же самое при тестировании оборудования NVIDIA? Программный стек NVIDIA для экосистемы CUDA и развивающегося рынка ИИ надежен и имеет многолетний опыт разработки, в то время как ROCm 6.0 от AMD появился недавно и еще не был протестирован в реальных условиях. Тем не менее, AMD заключила множество сделок с такими ведущими компаниями, как Microsoft, META и другими, которые рассматривают свои графические процессоры MI300X в качестве альтернативы ИИ-решениям NVIDIA.
Выход Instinct MI300X и MI300A ожидается в 1 полугодии 2024 года, то есть примерно в то же время, когда NVIDIA представит еще более быстрый GPU Hopper H200, а во 2 полугодии 2024 года - Blackwell B100. Так что, похоже, конкуренция в сфере ИИ станет еще более острой.
Понравилась новость? Тогда не забудь оставить свой комментарий.
А так же, добавь наш сайт в закладки (нажми Ctrl+D), не теряй нас.
Комментарии