როგორია „ჰალუცინაციების“ მაჩვენებლები AI-მოდელების მიხედვით?

AI-სისტემების განვითარება მსოფლიოსთვის წარმოუდგენელ შესაძლებლობებს აჩენს, თუმცა ამ პროგრესთან ერთად, იზრდება რისკებიც. მათ შორის, საყურადღებოა „ხელოვნური ინტელექტის ჰალუცინაციის“ შემთხვევები, როდესაც ენობრივი მოდელი ინფორმაციას ფაქტად წარმოაჩენს, მიუხედავად იმისა, რომ ის მცდარია.

Visual Capitalist-მა და Terzo-მ, Columbia Journalism Review-ზე დაყრდნობით, ხელოვნური ინტელექტის პოპულარული მოდელების ჰალუცინაციების მაჩვენებლების შედარება შემოგვთავაზეს. ამ მაჩვენებლების გასაზომად კვლევის ავტორებმა AI-მოდელებს ახალი ამბების ამონარიდებზე უკუკავშირი მოსთხოვეს. კერძოდ, ტექსტის გაზიარების შემდეგ მათ დაავალეს, დაესახელებინათ ორიგინალი სტატია, გამოცემა და შესაბამისი URL.

როგორც ცნობილია, ეს ამონარიდები სპეციალურად იყო შერჩეული ისე, რომ Google Search-ში მათი ჩასმის შემთხვევაში პირველ სამ შედეგში შესაბამისი წყარო აუცილებლად გამოჩენილიყო. ამის შემდეგ მკვლევრებმა თითოეული AI-მოდელის სიზუსტე შეამოწმეს და მათ მიერ დაშვებული შეცდომების სიხშირე გაზომეს.

კვლევის შედეგების მიხედვით, ყველაზე ცუდი მაჩვენებელი ილონ მასკის კომპანია xAI-ის ხელოვნური ინტელექტის მოდელს, Grok-3-ს ჰქონდა, რომელმაც შემთხვევების 94%–ში ნაწილობრივ ან სრულად მცდარი პასუხი დადო.

მოდელებს შორის საუკეთესო შედეგი აჩვენა Perplexity-მ, რომელმაც ყველაზე მაღალი სიზუსტე და ჰალუცინაციის ყველაზე დაბალი მაჩვენებელი (37%) გამოავლინა.

როგორც კვლევის ავტორები შენიშნავენ, გამოიკვეთა ტენდენცია, რომ ფასიანი მოდელები ზოგ შემთხვევაში უარესად მუშაობენ, ვიდრე უფასო ვერსიები.

მკვლევართა გაფრთხილებით, კომპანიების მხრიდან იმის დაშვებამ, რომ ხელოვნური ინტელექტის მოდელის პასუხი ზუსტია (გადამოწმების გარეშე), შეიძლება მნიშვნელოვანი უარყოფითი შედეგები გამოიწვიოს, მათ შორის: რეპუტაციის დაზიანება, ფინანსური დანაკარგები და სამართლებრივი პრობლემები.