DeepSeek lanza un modelo más liviano y eficiente para textos largos

El equipo de DeepSeek acaba de presentar un nuevo modelo experimental llamado V3.2-Exp, diseñado para trabajar mejor con textos largos. Según lo reportado por DeepSeek, este modelo incluye una técnica innovadora llamada atención dispersa, que permite procesar información de forma más rápida y eficiente, sin afectar la calidad de las respuestas.

Este modelo con atención dispersa busca resolver un problema común: cuando las IA deben leer y analizar textos extensos, necesitan muchos recursos (memoria, procesamiento, tiempo). La propuesta de DeepSeek es hacerlo más liviano sin que eso afecte la precisión. Y, según sus pruebas, lo están logrando.

¿Qué es la atención dispersa?

Imagina que estás en una reunión con 100 personas. En lugar de escuchar a todos al mismo tiempo y tratar de recordar cada cosa que dijeron, decides enfocarte solo en las 10 personas que están hablando de lo que realmente te interesa. Ignoras lo irrelevante, y así puedes concentrarte mejor, responder más rápido y disminuir el «gasto» cognitivo.

Eso es, en esencia, lo que hace la atención dispersa: permite que el modelo no compare cada palabra con todas las demás (como sí lo hace la atención completa), sino solo con las más relevantes.

Esto reduce el esfuerzo computacional sin perder comprensión, lo que es clave cuando la IA necesita analizar textos largos, código, o múltiples turnos de conversación.

En estos escenarios, un modelo con atención dispersa responde más rápido, usa menos memoria, y puede funcionar incluso en dispositivos con menos recursos.

¿Y cómo rinde en comparación con modelos anteriores?

DeepSeek comparó este nuevo modelo con una versión previa llamada V3.1-Terminus. En evaluaciones con pruebas estándar —como exámenes matemáticos, preguntas de cultura general o tareas de programación— los resultados fueron prácticamente iguales.

Incluso, en algunos casos, obtuvo un puntaje levemente superior. También mantuvo o mejoró su desempeño en tareas con herramientas como navegación web o preguntas simples, lo que demuestra que la eficiencia no vino con pérdida de calidad.

Hoy, los modelos de IA están creciendo en tamaño y potencia, pero eso también significa más consumo de energía y recursos. Si queremos que estas tecnologías sean accesibles y sostenibles, necesitamos que también sean eficientes.

El avance de DeepSeek apunta justamente en esa dirección: modelos que no solo respondan bien, sino que lo hagan sin sobrecargar el sistema. Además, al ser de código abierto, cualquier desarrollador o investigador puede probarlo, adaptarlo y mejorarlo.

Comparte y dialoga el futuro

¿Qué es la atención dispersa?

¿Y cómo rinde en comparación con modelos anteriores?

Entradas relacionadas