La diferencia que existe entre la predición de un LLM y el texto realmente presente en el corpus original. Se utiliza como una métrica clave para optimizar el modelo durante su fase de entrenamiento.

Si bien es deseable reducir la pérdida, no hasta el punto de eliminarla, ya que esto significaría que el modelo estaría simplemente reproduciendo el texto del corpus y perdería toda capacidad para generar texto creativo o novedoso. A esto se le llama Overfitting