Експерти виявили слабкі місця у сотнях тестів, що перевіряють ефективність ШІ

Поточні оцінки безпеки та ефективності ШІ можуть бути “не релевантними або навіть оманливими”.

Експерти виявили суттєві слабкі місця у сотнях тестів, які використовуються для перевірки безпеки та ефективності нових моделей штучного інтелекту, повідомляє The Guardian.

Безпека ШІ під питанням: Експерти виявили недоліки у 440 тестах

Зазначається, що фахівці з комп’ютерних наук, які представляють Інститут безпеки штучного інтелекту уряду Великої Британії, а також експерти з університетів Стенфорд, Берклі та Оксфорд, проаналізували понад 440 тестів, призначених для оцінки систем безпеки ШІ.

Вони виявили недоліки, що, за їхніми словами, «підривають правдивість отриманих результатів».

Експерти констатували, що майже всі розглянуті тести «мають слабкі місця щонайменше в одній сфері», а отримані оцінки можуть бути «не релевантними або навіть оманливими».

Ендрю Бін, дослідник Оксфордського інтернет-інституту та головний автор дослідження, зазначив, що багато з цих тестів використовуються для оцінки найновіших моделей ШІ, випущених великими технологічними компаніями.

Чому тести ШІ не дають реальної картини безпеки

Через відсутність загальнонаціонального регулювання ШІ у Великій Британії та США, ці тести застосовують для перевірки, чи є нові моделі безпечними, чи відповідають вони інтересам людей, і чи досягають заявлених можливостей в аргументації, математиці та кодуванні.

«Тести лежать в основі майже усіх тверджень про досягнення у галузі штучного інтелекту. Але без єдиних визначень і надійних методів вимірювання важко зрозуміти, чи моделі дійсно вдосконалюються, чи це лише видимість», - наголосив Бін.

У межах дослідження було розглянуто загальнодоступні тести, однак провідні компанії у сфері ШІ також мають власні внутрішні тести, які не вивчалися.

Бін зауважив, що «шокуючим висновком стало те, що лише невелика меншість (16%) тестів використовувала оцінки невизначеності або статистичні методи», аби показати ймовірну точність критерію.

В інших випадках, коли критерії встановлювалися для оцінки характеристик ШІ, зокрема його «нешкідливості», визначення поняття було суперечливим або нечітким, що знижувало користь тесту.

У висновках дослідження наголошується, що існує «нагальна потреба у спільних стандартах і найкращих практиках» щодо штучного інтелекту.