A Hugging Face adicionou a DeepInfra à lista de Inference Providers do Hub. A integração libera inferência serverless direto nas model pages, com suporte inicial a tarefas de chat e text-generation em LLMs open-weight como DeepSeek V4, Kimi-K2.6 e GLM-5.1. Funciona via SDKs (Python e JS) e roteamento pelo token da HF, sem markup extra.
A Hugging Face anunciou que a DeepInfra agora é um Inference Provider suportado no Hub. Na prática, dá pra rodar modelos hospedados na DeepInfra direto pelas model pages, pelos SDKs oficiais (huggingface_hub em Python e @huggingface/inference em JS) ou via roteador OpenAI-compatível.
A DeepInfra é uma plataforma serverless de inferência com catálogo de mais de 100 modelos e posicionamento agressivo de preço por token. Nessa primeira fase da integração, o suporte cobre tarefas conversacionais e de text-generation, com LLMs open-weight populares: DeepSeek V4, Kimi-K2.6, GLM-5.1, entre outros. Text-to-image, text-to-video e embeddings ficam pra um próximo rollout.
Na UI do Hub, em configurações da conta, você pode:
Dois modos de chamar os Inference Providers:
import os
from openai import OpenAI
client = OpenAI(
base_url="https://router.huggingface.co/v1",
api_key=os.environ["HF_TOKEN"],
)
completion = client.chat.completions.create(
model="deepseek-ai/DeepSeek-V4-Pro:deepinfra",
messages=[
{
"role": "user",
"content": "Write a Python function that returns the nth Fibonacci number using memoization.",
}
],
)
print(completion.choices[0].message)
O sufixo :deepinfra no nome do modelo é o que força o roteamento. Sem ele, a HF escolhe o provider conforme sua ordem de preferência.
Os Inference Providers da HF já estão integrados em vários agent harnesses (Pi, OpenCode, Hermes Agents, OpenClaw e outros). Ou seja, dá pra plugar modelo hospedado na DeepInfra direto nessas ferramentas sem código de cola.
Requisições diretas (com API key do provider) são cobradas pelo provider. Roteadas pela HF saem pelo preço padrão do provider, sem markup. A HF avisa que pode estabelecer revenue-share com parceiros no futuro, mas hoje é repasse direto.
Usuários PRO ganham US$ 2 em créditos de Inference por mês, válidos entre providers. Free signed-in tem cota pequena pra testar.
Pra quem já roda DeepSeek ou Kimi via API direta, a vantagem aqui é poder trocar de provider só mudando o sufixo no nome do modelo, sem reescrever cliente HTTP nem gerenciar N tokens. É a aposta da HF de virar a camada de abstração em cima do mercado fragmentado de inferência open-weight.
☕ gostou dessa?
Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.
☕ comentários · 0