Компания Cerebras добилась того, что большая языковая модель Meta Llama 3.1 405B работала со скоростью 969 лексем в секунду, что в 75 раз быстрее, чем удалось достичь самому быстрому сервису ИИ Amazon Web Services с графическими процессорами.
Модель LLM была запущена на облачном ИИ-сервисе Cerebras Inference, в котором используются чипы третьего поколения Wafer Scale Engines компании, а не GPU от Nvidia или AMD. Cerebras всегда утверждала, что ее сервис...
Читать далее