Un paso clave en la evolución de DeepSeek
DeepSeek anunció el lanzamiento oficial de DeepSeek-V3.2-Exp, una versión experimental que incorpora DeepSeek Sparse Attention, un mecanismo diseñado para optimizar el entrenamiento y la inferencia en escenarios de largo contexto. Esta innovación se presenta como una evolución respecto a V3.1-Terminus, manteniendo la calidad de salida del modelo con mejoras significativas en eficiencia computacional.
Innovación con DeepSeek Sparse Attention
La introducción de DeepSeek Sparse Attention marca un hito, ya que permite una atención dispersa de grano fino. Esta característica proporciona un mejor manejo de secuencias extensas, reduciendo la carga de cómputo y acelerando procesos de entrenamiento e inferencia. A pesar de las mejoras técnicas, los resultados en calidad de salida se mantienen prácticamente idénticos a los obtenidos por la versión previa.

Comparación con DeepSeek-V3.1-Terminus
Para validar el impacto de estas mejoras, DeepSeek-V3.2-Exp se entrenó bajo configuraciones similares a su predecesor. Los resultados muestran un rendimiento comparable, con variaciones menores en pruebas de razonamiento y programación. Entre los benchmarks destacados se incluyen MMLU-Pro, AIME 2025 y Codeforces, donde se observaron resultados equivalentes o incluso superiores en algunos casos.
Implementación y soporte técnico
El modelo puede ejecutarse de manera local mediante HuggingFace, SGLang y vLLM, garantizando accesibilidad para investigadores y desarrolladores. Además, se ofrecen kernels abiertos a través de TileLang y DeepGEMM, que facilitan la investigación académica y optimizan el rendimiento en CUDA.
Licencia y disponibilidad
DeepSeek-V3.2-Exp está disponible bajo licencia MIT, lo que asegura flexibilidad para la comunidad tecnológica. La documentación incluye ejemplos de ejecución y soporte técnico para diferentes entornos, reforzando su accesibilidad y fomentando la colaboración en proyectos de inteligencia artificial avanzada.
Fuente:
Más noticias: