Impacto del junk data en el rendimiento de modelos de lenguaje
El uso de datos de baja calidad en el entrenamiento de modelos de lenguaje puede causar un deterioro cognitivo, denominado "brain rot". Investigadores demostraron que estos datos afectan negativamente el rendimiento y la capacidad cognitiva de los modelos, subrayando la importancia de seleccionar datos de calidad.