Недавнее исследование Оксфордского института интернета (Oxford Internet Institute, OII) заставляет задуматься: возможно, большая часть того, что мы считаем «прогрессом ИИ», основана на зыбком фундаменте. Команда из 42 учёных из Оксфорда, EPFL, Стэнфорда, Технического университета Мюнхена и других институтов проанализировала 445 бенчмарков, используемых для оценки больших языковых моделей (LLM), и пришла к тревожному выводу — только 16 % из них соответствуют научным стандартам статистической проверки.
Иными словами, большинство тестов, на которые ссылаются в пресс-релизах OpenAI, Anthropic и Google DeepMind, не способны достоверно показать, действительно ли одна модель «умнее» другой.
⚙️ Где именно «ломается» наука
Исследователи выделили несколько характерных проблем, и почти каждая из них знакома тем, кто работает с ИИ ежедневно:
