xAI звинувачують у маніпуляціях з результатами тестування Grok 3

Ботченко НадіяТехно23 Лютого 202574 переглядів

Останні заяви щодо продуктивності штучного інтелекту від компанії xAI викликали жваву дискусію серед експертів галузі. Відкриті дані про тестування Grok 3 на платформі AIME 2025 виявилися суперечливими, що призвело до звинувачень у можливому спотворенні реальних результатів. Як повідомляє IZ з посиланням на TechCrunch, представники OpenAI заявили, що графіки, опубліковані xAI, не враховували методологію cons@64, яка суттєво впливає на підсумкові оцінки моделей. Однак засновник xAI наполягає, що компанія діяла в рамках коректної оцінки можливостей свого продукту.

Суть конфлікту полягає в способі порівняння моделей штучного інтелекту. xAI презентувала Grok 3 як найрозумніший AI у світі, проте без врахування спеціальної методики, яка дає конкурентам додаткову перевагу. За умов стандартного тестування Grok 3 Reasoning Beta демонструє нижчі показники, ніж конкурентні моделі OpenAI, зокрема o3-mini-high. Дослідники зазначають, що без чіткого порівняння всіх моделей на рівних умовах складно оцінити реальну продуктивність кожної з них, що лише посилює плутанину серед користувачів та інвесторів.

Обговорення методики тестування AI виходить за межі цього конфлікту. Дослідники штучного інтелекту неодноразово наголошували, що бенчмарки не завжди повністю відображають реальні можливості технологій. Крім того, залишається відкритим питання вартості ресурсів, які витрачають компанії на досягнення максимальних показників. У зв’язку з цим багато експертів пропонують уніфікований підхід до тестування AI-моделей, що дозволить уникнути подібних суперечок у майбутньому.

Нагадаємо, раніше ми писали про нову функцію пріоритетних сповіщень на основі штучного інтелекту на IOS 18.4.

Залишити коментар

Останні новини

Follow
Sidebar Search
Loading

Signing-in 3 seconds...

Signing-up 3 seconds...