კვლევის თანახმად, AI-ის შესაძლებლობები შესაძლოა გაზვიადებული იყოს

კვლევის თანახმად, AI-ის შესაძლებლობები შესაძლოა გაზვიადებული იყოს

გასულ კვირას გამოქვეყნებული კვლევის ავტორები ამტკიცებენ, რომ ხელოვნური ინტელექტის სისტემების შესაფასებლად გამოყენებული ტესტები ხშირად AI-ის რეალურ შესაძლებლობებს გადაჭარბებით აფასებს და მათ მეცნიერული სიზუსტე აკლია.

კვლევა ოქსფორდის ინტერნეტის ინსტიტუტმა (OII) სხვა ინსტიტუტების 30-ზე მეტ მკვლევართან პარტნიორობით ჩაატარა. გუნდმა ხელოვნური ინტელექტის უნარების შესაფასებელი 445 წამყვანი ტესტი გააანალიზა, რომლებიც ფართოდ გამოიყენება AI-მოდელების შესაძლებლობების შესაფასებლად სხვადასხვა მიმართულებით, მათ შორის პროგრამული ინჟინერიის, აბსტრაქტული აზროვნებისა და ენობრივი უნარების განსასაზღვრად.

კვლევის მიხედვით, ამ ტესტების დიდი ნაწილი არ განასაზღვრავს ზუსტად, რა არის შემოწმების მიზანი; ხშირად იყენებს უკვე არსებულ მონაცემებსა და მეთოდოლოგიებს; და იშვიათად მიმართავს მოდელებს შორის სტატისტიკურად სანდო შედარებით ანალიზს.

„როდესაც ხელოვნური ინტელექტის მოდელებს გარკვეული დავალებების შესრულებას ვთხოვთ, ჩვენ ხშირად სრულიად განსხვავებულ კონცეფციებს ან კონსტრუქტებს ვზომავთ, ვიდრე იმას, რისი გაზომვაც გვსურს“, – აცხადებს კვლევის წამყვანი ავტორი, ოქსფორდის უნივერსიტეტის მკვლევარი ადამ მაჰდი, NBC News-თან ინტერვიუში.

მისი კოლეგა, ენდრიუ ბინი აღნიშნავს, რომ საზოგადოება და მედია ტესტების შედეგებს ზედმეტად ენდობა. „როდესაც ვისმენთ ფრაზებს, რომ „მოდელი დოქტორის დონის ინტელექტს“ აღწევს, არ ვართ დარწმუნებულნი, რომ ეს შეფასებები სწორად არის გაკეთებული,“ – ამბობს ბინი.

კვლევაში მოყვანილია მაგალითებიც. მაგალითად, ერთ-ერთი ფართოდ გამოყენებული ტესტი Grade School Math 8K (GSM8K) ამოწმებს მოდელის უნარს, როგორ პასუხობს ის საბაზო მათემატიკურ შეკითხვებს. თუმცა მაჰდის თქმით, სწორი პასუხები აუცილებად არ ნიშნავს, რომ მოდელი მათემატიკურ ლოგიკას რეალურად იაზრებს.

„თუ პირველკლასელს ეკითხები, რამდენია ორს პლუს ხუთი და გიპასუხებს შვიდი, ეს სწორი პასუხია. მაგრამ ნიშნავს თუ არა ეს, რომ მას მათემატიკური მსჯელობის უნარი აქვს? ალბათ – არა.“

კვლევის ავტორები ხაზს უსვამენ „კონსტრუქციული სიზუსტის“ აუცილებლობას, თუ რამდენად სწორად ზომავს ტესტი იმ რეალურ ფენომენს, რომლის შეფასებასაც ცდილობს. მათი განცხადებით, ტესტების დაახლოებით ნახევარი ვერ განსაზღვრას, კონკრეტულად რას აფასებს, რაც მათ სანდოობას ეჭვქვეშ აყენებს.

მეცნიერებმა რვაპუნქტიანი რეკომენდაციაც მოამზადეს, რომელიც ტესტების გამჭვირვალობისა და მეცნიერული ანალიზის საფუძვლიანობის გაუმჯობესებას ისახავს მიზნად. მათ შორისაა: შეფასების ზუსტი მიზნის განსაზღვრა; დავალებების ისეთი კომპლექტის შექმნა, რომელიც უკეთ ავლენს რეალურ უნარებს; მოდელების შედარებისას სტატისტიკური მეთოდების გამოყენება და ა.შ.

კვლევას დადებითი გამოხმაურება მოჰყვა სხვა ექსპერტების მხრიდანაც. „თუ გვსურს, რომ ტესტების შედეგები რეალურად გასაგები იყოს, მეტი მეცნიერული სიზუსტეა საჭირო. ეს საკონტროლო სია მკვლევრებისთვის საწყისი წერტილია იმის შესამოწმებლად, იქნება თუ არა მათი საორიენტაციო ტესტის შედეგები გამჭრიახი“, – აცხადებს METR AI-ის მკვლევარი ნიკოლა იურკოვიჩი.

AI-ტესტების სანდოობის საკითხი დღის წესრიგში აქამდეც დადგა. გასულ წელს კომპანია Anthropic-ის მკვლევრებმა ორგანიზაციებს ტესტების უფრო მკაცრი სტატისტიკური გადამოწმებისკენ მოუწოდეს, რათა დადგინდეს, მოდელის შედეგი რეალური შესაძლებლობების გამოხატულებაა თუ უბრალოდ „იღბლიანი დამთხვევა“.

ზოგიერთი კვლევითი ცენტრი უკვე მუშაობს ახალი ტიპის ტესტებზე, რომლებიც AI-მოდელების რეალურ სამყაროში ეკონომიკურად მნიშვნელოვან ამოცანებზე მუშაობას უკეთ აფასებს.

მაგალითად, OpenAI-მ სექტემბერში წარადგინა ტესტების ახალი სერია, რომელიც ხელოვნური ინტელექტის მუშაობას 44 სხვადასხვა პროფესიისთვის საჭირო ამოცანებზე დაყრდნობით აფასებს, რათა AI-ის შესაძლებლობები უკეთ დაასაბუთოს. მათ შორის, შეძლებს თუ არა AI გაყიდვების ანალიტიკოსის როლში Excel-ში შეცდომების გასწორებას, ან ვიდეოპროდიუსერის ამპლუაში 60-წამიანი ვიდეოს წარმოების გეგმის შედგენას.

ხელოვნური ინტელექტის უსაფრთხოების ცენტრის დირექტორმა, დენ ჰენდრიკსმა, მკვლევართა გუნდთან ერთად, შეიმუშავა ტესტების კომპლექტი, რომელიც AI-მოდელების უნარებს დისტანციური სამუშაოს ავტომატიზაციისთვის საჭირო ამოცანების შესრულების კუთხით აფასებს.

საბოლოოდ, კვლევის ავტორები ასკვნიან, რომ AI-ის მეცნიერული შეფასების მხოლოდ საწყის ეტაპზე ვართ და აღნიშნული კუთხით წინ რთული და საინტერესო გზა გველის.