NVIDIA apresenta plataforma com menor custo por token através de co-design extremo
A NVIDIA destaca como o design integrado de hardware, software e modelos de IA é essencial para maximizar a eficiência das fábricas de IA e reduzir custos por token. Segundo a empresa, medir esse desempenho vai muito além das especificações de pico dos chips — benchmarks rigorosos de inferência em cenários reais são críticos para entender a produção real de tokens, que determina a receita das operações de IA.
O design integrado de hardware, software e modelos é fundamental para entregar a maior vazão em fábricas de IA e o menor custo por token. Medir esse desempenho vai muito além das especificações de pico dos chips. Benchmarks rigorosos de desempenho em inferência de IA são críticos para entender a produção real de tokens em cenários do mundo real, o que determina a receita das operações de IA. MLPerf Inference v6.0 é o mais recente de uma série de benchmarks da indústria que medem o desempenho real de inferência de IA.