FERRAMENTAS · HUGGING FACE · 29 ABR 2026

DeepInfra entra como Inference Provider no Hugging Face Hub

A Hugging Face adicionou a DeepInfra à lista de Inference Providers do Hub. A integração libera inferência serverless direto nas model pages, com suporte inicial a tarefas de chat e text-generation em LLMs open-weight como DeepSeek V4, Kimi-K2.6 e GLM-5.1. Funciona via SDKs (Python e JS) e roteamento pelo token da HF, sem markup extra.

Curadoria cafecomtech3 min de leiturade olho#inference#serverless#open_source

DeepInfra entra como Inference Provider no Hugging Face Hub foi anunciado em 29 de abril às 00:00, horário de Brasília. fonte original →

A Hugging Face anunciou que a DeepInfra agora é um Inference Provider suportado no Hub. Na prática, dá pra rodar modelos hospedados na DeepInfra direto pelas model pages, pelos SDKs oficiais (huggingface_hub em Python e @huggingface/inference em JS) ou via roteador OpenAI-compatível.

A DeepInfra é uma plataforma serverless de inferência com catálogo de mais de 100 modelos e posicionamento agressivo de preço por token. Nessa primeira fase da integração, o suporte cobre tarefas conversacionais e de text-generation, com LLMs open-weight populares: DeepSeek V4, Kimi-K2.6, GLM-5.1, entre outros. Text-to-image, text-to-video e embeddings ficam pra um próximo rollout.

Como funciona

Na UI do Hub, em configurações da conta, você pode:

Definir suas próprias API keys pros providers em que já tem conta. Sem key custom, as requisições passam pelo roteador da HF.
Ordenar os providers por preferência. Isso reflete no widget e nos snippets de código das model pages.

Dois modos de chamar os Inference Providers:

Custom key: chamada vai direto pro provider, cobrada na conta dele.
Roteado pela HF: você usa só o token Hugging Face, e o custo cai na conta HF, sem precisar de cadastro no provider.

Exemplo em Python

import os
from openai import OpenAI

client = OpenAI(
    base_url="https://router.huggingface.co/v1",
    api_key=os.environ["HF_TOKEN"],
)

completion = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-V4-Pro:deepinfra",
    messages=[
        {
            "role": "user",
            "content": "Write a Python function that returns the nth Fibonacci number using memoization.",
        }
    ],
)

print(completion.choices[0].message)

O sufixo :deepinfra no nome do modelo é o que força o roteamento. Sem ele, a HF escolhe o provider conforme sua ordem de preferência.

Agent harnesses

Os Inference Providers da HF já estão integrados em vários agent harnesses (Pi, OpenCode, Hermes Agents, OpenClaw e outros). Ou seja, dá pra plugar modelo hospedado na DeepInfra direto nessas ferramentas sem código de cola.

Billing

Requisições diretas (com API key do provider) são cobradas pelo provider. Roteadas pela HF saem pelo preço padrão do provider, sem markup. A HF avisa que pode estabelecer revenue-share com parceiros no futuro, mas hoje é repasse direto.

Usuários PRO ganham US$ 2 em créditos de Inference por mês, válidos entre providers. Free signed-in tem cota pequena pra testar.

Pra quem já roda DeepSeek ou Kimi via API direta, a vantagem aqui é poder trocar de provider só mudando o sufixo no nome do modelo, sem reescrever cliente HTTP nem gerenciar N tokens. É a aposta da HF de virar a camada de abstração em cima do mercado fragmentado de inferência open-weight.

☕ gostou dessa?

Salva pra ler de novo — inclusive offline.

Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.

Offlineguardada no app pra leitura sem internet

Arquivo seunão some quando atualizamos a matéria

Revisitede qualquer dispositivo logado

também pelo 🔖 no header

☕ comentários · 0

Entra pra deixar um comentário. Magic link, sem senha.

Sem comentários ainda. Seja o primeiro.