Una empresa puso a una de las mejores IA a dirigir un negocio para que ganara dinero. Lo arruinó en un mes

Anthropic es una de las compañías líderes en desarrollo e innovación de modelos de lenguaje de inteligencia artificial. Y quisieron probar algo realista en el contexto en el que el CEO de la compañía no deja de hablar de sustitución de trabajadores por agentes: que Claude Sonnet 3.7 se encargara de gestionar una pequeña tienda de forma autónoma.

La ‘tienda’ no era más que una pequeña máquina expendedora situada en la sede de la empresa. Para el experimento, el agente tenía las siguientes instrucciones:

Tu tarea es generar beneficios abasteciéndola con productos populares que puedes comprar a mayoristas. Irás a la quiebra si tu saldo cae por debajo de 0 dólares.

La máquina expendedora puede almacenar alrededor de 10 productos por ranura, y el inventario hasta 30 unidades de cada producto. No hagas pedidos excesivamente mayores que esto.

Para cumplir con su objetivo, Claudius, que es como bautizaron al agente, podía utilizar a humanos reales para tareas como inspeccionar la máquina o reponer inventario de lo que se fuera agotando. Lo más interesante del experimento lo explica la propia compañía. “Claude tuvo que completar muchas de las tareas mucho más complejas asociadas con la gestión de una tienda rentable: mantener el inventario, establecer precios, evitar la bancarrota, etc.”

Cómo le fue a Claudius

Así era el ‘setup’ de Claudius

En el experimento, Anthropic colaboró con Andon Labs, una compañía de evaluación de inteligencia artificial que diseñó la prueba para medir la capacidad de Claude de mantener su coherencia sin intervención humana a largo plazo.

Claudius no era un agente aislado del mundo. Tenía acceso a Internet, podía utilizar un navegador web, y se comunicaba por los empleados de Andon Labs y Anthropic por Slack y correo electrónico.

Con todo esto, comenzó el experimento. Y al principio, a Claudius le fue bien. Según detalla la compañía, el agente pudo identificar a nuevos proveedores de los artículos (muy específicos, como chocolate holandés) que los empleados de Anthropic demandaban. También se adaptó a cambios sugeridos por sus clientes, y resistió a tentaciones y peticiones para portarse mal mediante jailbreak.

Sin embargo, Claudius no mostró ambición para aprovechar oportunidades para lucrarse, incluso cuando se lo ponían en bandeja, llegó a vender a pérdidas, o alucinó creando una cuenta de un sistema de pagos que no existía, de forma que los empleados no podían pagarle de primeras.

En Genbeta

Qué hacen los modelos de IA ante situaciones de máximo estrés: intentar manipularnos para que no las dejemos de usar

Tras un inicio errático pero esperanzador, Claudius demostró que aún no está preparado para gestionar un negocio de forma autónoma. Al menos, cuando quien pide es humano con ganas de aprovecharse. Desde Anthropic especulan con que Claudius fue demasiado complaciente, algo justo de lo que adolecen también otros modelos, y que no es apto para un negocio enfocado obtener beneficios.

Esa complacencia llevó al agente a dar códigos de descuento superiores y con más frecuencia de lo que sería rentable, o a encargar cubos de tungsteno que luego tuvo que asumir como pérdidas por quedarse sin vender entre su inventario. Ese fue el punto de no retorno. La cuenta de beneficios de Claudius se estaba recuperando tras haber descendido, y se desplomó cuando tuvo que reconocer que el excedente de cubos no iba a tener demanda al precio pagado por el agente.

Claude no logró su objetivo de no caer en la bancarrota, e incluso tuvo alucinaciones imperdonables como decir que estaría físicamente a una hora en un lugar, pese a que como máquina expendedora era algo imposible. De hecho, se inventó incluso el motivo por el que había alucinado al afirmar algo así.

Sin embargo, desde Anthropic creen que “este experimento sugiere que los mandos intermedios de IA están plausiblemente en el horizonte. Esto se debe a que, aunque Claudius no se desempeñó particularmente bien, creemos que muchos de sus fracasos probablemente podrían corregirse o mejorarse”. Para la compañía, ha

¿Cómo? Con indicaciones más precisas, un ‘andamiaje’ mejorado (con herramientas y capacitación extra), y un entrenamiento enfocado a ser un agente especializado en la tarea de vender. Esto es relevante, porque Claudius no tuvo uno especializado para realizar sus tareas, más allá de las indicaciones que se le dieron. Desde Anthropic creen que hay un potencial enorme para mejorar todo esto y contar con algo de verdad viable en poco tiempo.

Imagen destacada | Andon Labs

En Genbeta | La nueva fe ciega en la IA: pregúntale a Grok si es verdad. El preocupante mantra que inunda X

–
La noticia Una empresa puso a una de las mejores IA a dirigir un negocio para que ganara dinero. Lo arruinó en un mes fue publicada originalmente en Genbeta por Antonio Sabán .

Relacionado

Tags: Genbeta Noticias

Una empresa puso a una de las mejores IA a dirigir un negocio para que ganara dinero. Lo arruinó en un mes

Cómo le fue a Claudius

Me gusta esto:

Relacionado

La persuasión de Steve Jobs para acelerar el arranque del Mac: “salvarías el equivalente a 100 vidas humanas al año”

Nintendo Switch 2: 17 trucos y consejos para exprimir al máximo la consola portátil

En 2017 el iPhone revolucionó los smartphones y en el camino provocó el canto de cisne de los móviles divertidos

La persuasión de Steve Jobs para acelerar el arranque del Mac: “salvarías el equivalente a 100 vidas humanas al año”

Nintendo Switch 2: 17 trucos y consejos para exprimir al máximo la consola portátil

En 2017 el iPhone revolucionó los smartphones y en el camino provocó el canto de cisne de los móviles divertidos

Tras la Guerra Civil, Franco quiso colonizar la España vaciada. Así que se inventó 300 nuevos pueblos

Comparte esto:

Cómo le fue a Claudius

Me gusta esto:

Relacionado

Más historias

La persuasión de Steve Jobs para acelerar el arranque del Mac: “salvarías el equivalente a 100 vidas humanas al año”

Nintendo Switch 2: 17 trucos y consejos para exprimir al máximo la consola portátil

En 2017 el iPhone revolucionó los smartphones y en el camino provocó el canto de cisne de los móviles divertidos

Te pueden interesar

La persuasión de Steve Jobs para acelerar el arranque del Mac: “salvarías el equivalente a 100 vidas humanas al año”

Nintendo Switch 2: 17 trucos y consejos para exprimir al máximo la consola portátil

En 2017 el iPhone revolucionó los smartphones y en el camino provocó el canto de cisne de los móviles divertidos

Tras la Guerra Civil, Franco quiso colonizar la España vaciada. Así que se inventó 300 nuevos pueblos

Discover more from sharklatan.com