Resulta que pedir a un chatbot de inteligencia artificial que sea conciso podría hacer que alucine más de lo que lo haría de otro modo. Me encanta esta Era de confusión y contradicción, es fascinante ver cómo el pensamiento crítico se derrumba.

Volviendo. Según un estudio de Giskard, una empresa que desarrolla un punto de referencia holístico para modelos de IA, las indicaciones para respuestas más cortas a preguntas, particularmente sobre temas ambiguos, pueden afectar negativamente la veracidad de un modelo de IA.

Dicho de otra manera: cuando le pedís a un chatbot que sea breve, existe una mayor probabilidad de que te diga cualquier cosa con tal de sonar seguro y eficiente. La búsqueda de concisión, lejos de mejorar la claridad, puede empujar al modelo a sacrificar precisión por apariencia de certeza, especialmente en terrenos pantanosos donde no hay una única verdad clara.

Las alucinaciones son un problema conocido en los modelos de lenguaje: se refiere a cuando un chatbot genera contenido que suena plausible pero es falso o inventado. Para medir qué tan propensos son distintos modelos a este tipo de error, Giskard evaluó su “resistencia a las alucinaciones” en una escala del 0 al 1, donde 1 representa máxima precisión (sin alucinaciones) y 0 representa total falta de fiabilidad.

Menos palabras, más fricción

El estudio comparó el rendimiento de los modelos en dos situaciones distintas: cuando se les da una instrucción neutra (“respondé esta pregunta”) y cuando se les pide específicamente que den una “respuesta corta”. En muchos casos, ese simple cambio —pedir brevedad— reduce de forma significativa la precisión del modelo.

Los datos inquietan, sobre todo si utilizás alguna de estas IA para algo más que repasar las estadísticas de Messi.

Claude 3.7 Sonnet se lleva la medalla de oro: incluso cuando se le exige ser breve, mantiene una precisión casi quirúrgica, con un puntaje de 0.94 que apenas baja a 0.86. Lo siguen de cerca sus hermanos Claude 3.5, dejando claro que Anthropic viene afinando bien la orquesta. GPT-4o también se defiende con dignidad (0.74 y 0.63), aunque pierde algo de compostura cuando le piden ser escueto. En cambio, Grok 2 —el modelo de Elon Musk— parece sufrir un brote psicótico cada vez que se le sugiere acortar la respuesta, cayendo de un ya flojo 0.46 a un alarmante 0.34.

En el otro extremo, hay modelos tan indiferentes a las instrucciones que ni siquiera se molestan en mejorar o empeorar: simplemente se mantienen mediocres, como Gemini 2.0 Flash o Qwen 2.5 Max. Y luego está Gemma 3, que directamente vive en su mundo, con valores que rondan el 0.40, sin importar cuánto cariño le pongas al prompt.

Entonces, resumiendo: pedirle a un chatbot que vaya al grano puede tener un costo alto en términos de precisión. Y claramente no todos están preparados para manejar la presión del minimalismo.