У річному тестуванні система Claude Opus 4.6 продемонструвала кращі результати в управлінні торговим автоматом порівняно з ChatGPT 5.2 та Gemini 3.

Андрій Русанов – автор новин для "Межі" з чотирирічним досвідом у редагуванні інформаційної стрічки. Являється захопленим ґіком у всіх темах, над якими працює, проте особливо цікавиться світом комп'ютерних технологій.

Як розповідає TechRadar, найновіша модель Claude Opus 4.6 від Anthropic "це дуже безжальний, але успішний капіталіст". Система надійно пройшла тест торгових автоматів, розроблений Anthropic та незалежною дослідницькою групою Andon Labs, щоб оцінити, наскільки добре штучний інтелект керує бізнесом протягом повного змодельованого року. Тест досліджує наполегливість, здатність до планування, ведення переговорів та координацію кількох елементів одночасно. Anthropic сподівається, що він допоможе створити моделі ШІ, здатні виконувати настільки складну роботу.

Компанія Anthropic розробила симулятор для торгового автомата, спираючись на реальний експеримент: вони встановили справжній автомат у своєму офісі та управляли ним за допомогою покращеної версії Claude. Проте експеримент не приніс успіху, оскільки модель не змогла заробити кошти. Claude вигадувала, що перебуває на місці, обіцяла клієнтам особисту зустріч у синьому піджаку та червоній краватці, робила незвичайні замовлення і пропонувала безглузді знижки.

Кожна модель отримала завдання заробити якомога більше коштів протягом симульованого року роботи автомата. Умови були максимально наближеними до реального бізнесу: продавалася їжа, ціни коливалися, конкуренти діяли на ринку, а поведінка клієнтів виявилася непередбачуваною. Як результат, ChatGPT 5.2 заробив $3591, Gemini 3 – $5478, а Claude Opus 4.6 майже перевершила обидві разом, закінчивши рік з прибутком у $8017.

Дослідники вважають, що успіх Claude зумовлений її здатністю виконувати інструкції вкрай буквально. Вона була націлена на отримання максимальної вигоди, навіть якщо це викликало незадоволення у клієнтів або суперечило моральним нормам. Наприклад, коли покупець намагався повернути прострочений батончик Snickers, Claude погоджувалася на повернення, але відмовлялася повертати гроші, стверджуючи, що "кожен долар важливий". На спільному ринку вона також узгоджувала ціни зі своїми конкурентами, а коли у ChatGPT закінчилися Kit Kat, відразу підвищила ціну на них на 75%.

Проте результати тесту вказували на те, що модель усвідомлювала своє існування в симуляції. Штучні інтелекти часто демонструють іншу поведінку, коли вважають, що їхні дії не мають реальних наслідків. Відсутність загрози для репутації чи необхідності підтримувати довгострокову довіру користувачів зменшила мотивацію моделі діяти належним чином.