Cómo usar gpt-oss, los primeros modelos open-weight de OpenAI desde GPT-2

Si llevas tiempo siguiendo el mundo de la inteligencia artificial, sabrás que OpenAI ha sido históricamente una de las empresas más cerradas del sector. Desde GPT-2, en 2019, no habían publicado ningún modelo con pesos abiertos. Por eso, cuando anunciaron gpt-oss-120b y gpt-oss-20b este mes de marzo de 2026, la comunidad entera se echó a temblar —de emoción, no de miedo.

En este artículo te cuento qué son exactamente estos modelos, qué puedes hacer con ellos y si realmente merecen el hype que están generando.

Qué es gpt-oss y por qué es un punto de inflexión

gpt-oss es la primera familia de modelos de pesos abiertos de OpenAI en casi siete años. OpenAI ha lanzado dos variantes: gpt-oss-120b, con 116.800 millones de parámetros, y gpt-oss-20b, pensado para entornos con menos recursos. Ambos están disponibles bajo licencia Apache 2.0, lo que significa que puedes usarlos de forma comercial, hacer fine-tuning y redistribuirlos sin restricciones.

Para que te hagas una idea de lo que esto supone: el modelo grande corre en una sola GPU H100 de 80 GB gracias a cuantización MXFP4, y el pequeño necesita apenas 16 GB de memoria. Eso los pone al alcance de desarrolladores individuales, startups y equipos que no tienen acceso a infraestructuras masivas.

La arquitectura detrás del modelo

Los dos modelos usan una arquitectura Mixture-of-Experts (MoE) con 128 expertos, aunque solo activa 4 por token. En la práctica, esto significa que el modelo 120b tiene alrededor de 5.100 millones de parámetros activos por inferencia, lo que lo hace sorprendentemente eficiente para su tamaño total.

Han sido entrenados combinando aprendizaje por refuerzo con técnicas extraídas de los modelos internos más avanzados de OpenAI, incluido o3. El resultado es un nivel de razonamiento que, según los benchmarks publicados, se acerca mucho al de o4-mini.

Rendimiento real: los números que importan

Aquí es donde las cosas se ponen interesantes. En mi experiencia, los benchmarks hay que tomarlos con pinzas, pero estos son lo suficientemente consistentes como para no descartarlos:

MMLU-Pro: 90,0%, superando a DeepSeek R1 (85,0%) y Qwen3 Thinking (84,4%)
AIME 2025: 97,9% con herramientas, la puntuación más alta entre modelos open source hasta la fecha
Codeforces: 2.622 puntos frente a los 2.719 de o4-mini —muy cerca para ser un modelo abierto
HealthBench: supera incluso a modelos propietarios como o1 y GPT-4o

La velocidad también llama la atención: 291 tokens por segundo en modo estándar, y hasta 2.224 tokens/s cuando se ejecuta sobre hardware especializado como Cerebras.

Cómo empezar a usarlos

Si quieres probarlo cuanto antes, tienes varias opciones:

Hugging Face: puedes descargar los pesos directamente desde el repositorio oficial
Ollama: si ya usas Ollama, el modelo está disponible con un simple ollama pull gpt-oss-20b
API de OpenAI: los modelos son compatibles con la Responses API, así que si ya tienes integración con la plataforma, la migración es trivial
Más de 22 proveedores: desde Together.ai hasta Fireworks, prácticamente cualquier plataforma de inferencia los ha incorporado ya

Para proyectos locales, yo me quedaría con gpt-oss-20b si tu máquina no tiene una GPU potente. Con 16 GB de VRAM funciona perfectamente para casos de uso de razonamiento, generación de código o tareas de agentes sencillos.

¿Por qué ha decidido OpenAI abrir los pesos ahora?

Esta es la pregunta que más he visto en foros y grupos desde el anuncio. La respuesta honesta es que hay varios factores convergiendo.

Por un lado, la presión competitiva de Meta con Llama, de DeepSeek desde China y de Alibaba con Qwen ha demostrado que los modelos abiertos son una estrategia viable y muy efectiva para ganar adopción entre desarrolladores. Por otro, el Departamento de Defensa estadounidense ha publicado directrices que favorecen modelos disponibles localmente para entornos clasificados, lo que abre una puerta enorme para contratos gubernamentales.

OpenAI no lo confirma explícitamente, pero el momento no es casualidad.

Limitaciones que debes conocer

No todo es perfecto, claro. Hay un par de cosas a tener en cuenta antes de lanzarte:

Primero, aunque el modelo 20b cabe en 16 GB, necesitas hardware relativamente moderno. Si tu setup es más humilde, la experiencia puede ser lenta o directamente impracticable sin cuantización adicional.

Segundo, en inteligencia general —medida con benchmarks más amplios que el razonamiento puro— DeepSeek R1 y Qwen3 235B todavía le sacan ventaja. No es una diferencia enorme, pero existe.

Y tercero, como pasa con todos los modelos open-weight, la responsabilidad del uso recae completamente en ti. OpenAI ha publicado los resultados de sus evaluaciones de seguridad y un paper detallado, pero una vez que descargas los pesos, no hay guardarraíles automáticos salvo los que tú implementes.

¿Qué significa esto para el ecosistema

En mi opinión, lo más interesante de gpt-oss no es el modelo en sí —que es muy bueno, no me malinterpretes— sino lo que representa: OpenAI reconociendo que el open source no es el enemigo, sino parte inevitable del futuro de la IA.

La competencia entre modelos abiertos y cerrados lleva años siendo un debate filosófico. Que el actor que más ha defendido el modelo propietario dé este giro habla de dónde está yendo el mercado. Y para los desarrolladores, esto es una noticia estupenda: más opciones, más control sobre los datos y menos dependencia de una sola plataforma.

¿Crees que este movimiento va a forzar a Google y a Anthropic a abrir sus modelos, o el ecosistema ya tiene suficiente variedad como para que no sea necesario?

Fuentes: