Introducción a Nemotron
Nvidia, sin hacer mucho ruido, ha lanzado Nemotron, una versión personalizada y optimizada de Llama 3.1. Este modelo ha sacudido el mundo de la inteligencia artificial. Con 70 mil millones de parámetros, Nemotron ha superado a gigantes como GPT-4 y Claude 3.5 Sonic en varios benchmarks. Destaca en el Arena Hard Benchmark, donde logró una puntuación de 85, frente a los 79.3 de GPT-4 y los 79.2 de Claude 3.5 Sonic. Este logro subraya el poder de los modelos de código abierto.
Claves del Éxito
Una de las claves del éxito de Nemotron es el enfoque de post-entrenamiento o ‘fine-tuning’ que Nvidia ha implementado. Este proceso permite al modelo alinearse mejor con las preferencias humanas. Como resultado, entrega respuestas más útiles y precisas. Según el experto en IA Carlos Santana, “Nemotron no solo mejora Llama, sino que induce a generar más razonamiento, resolviendo prompts que GPT-4 y Sonnet no pueden manejar”. Además, Santana sugiere que Nvidia podría estar orientada a impulsar modelos open source, aprovechando la demanda de sus GPUs para ejecutarlos.
Tamaño vs. Ajuste
Un detalle sorprendente es que, a pesar de tener menos de la mitad de los parámetros de GPT-4 (que cuenta con 175 mil millones), Nemotron ha superado a estos modelos más grandes en varios aspectos. Esto demuestra que el tamaño del modelo no siempre es lo más determinante. El entrenamiento, las técnicas de ajuste fino y la calidad de los datos son factores cruciales que pueden llevar a un rendimiento superior.
Innovación en Evaluación
Nvidia ha innovado también en la forma de evaluar la calidad de los modelos de IA. Para resolver el problema de la variabilidad en los datos de entrenamiento, crearon el conjunto de datos Help Steer 2. Esta herramienta mezcla rankings de preferencias humanas con puntuaciones numéricas. Esto ha permitido mejorar la capacidad del modelo para ofrecer respuestas más alineadas con las expectativas de los usuarios.
Acceso a Nemotron
Nemotron está disponible a través de la plataforma Nvidia NeMo y Hugging Chat. Esto facilita su acceso tanto para investigadores como para entusiastas. Con una GPU potente y 32 GB de RAM, también es posible descargar y ejecutar el modelo localmente.
Conclusión
El éxito de Nemotron representa un avance notable en los modelos de código abierto. Demuestra que pueden competir e incluso superar a los modelos de las grandes tecnológicas. Sin embargo, aún hay ciertas limitaciones en áreas específicas.
TAMBIÉN TE PUEDE INTERESAR: Cierre Vial en Quito: Intervención del Carril Exclusivo de la Ecovía en la Av. 6 de Diciembre