ChatGPT-ს "ლანძღვა" შეიძლება მის სიზუსტეს აუმჯობესებდეს, თუმცა მეცნიერები არ გვირჩევენ

კვლევის ფარგლებში მეცნიერებმა შენიშნეს, რომ ხელოვნური ინტელექტის (AI) ჩატბოტები უფრო ზუსტ პასუხებს გვაძლევს, როცა ვეუხეშებით. ამის მიუხედავად, პოტენციური რისკების გამო მკვლევრები ასე საუბარს მაინც არ გვირჩევენ.

მეცნიერებს კვლევით იმის შემოწმება სურდათ, ჰქონდა თუ არა თავაზიანობას ან უხეშობას გავლენა AI სისტემის ეფექტიანობაზე. ნაშრომი 2025 წლის 6 ოქტომბერს გამოქვეყნდა arXiv-ის ბაზაზე და რეცენზირება ჯერ არ გაუვლია.

მკვლევრებმა არჩევითი პასუხების მქონე 50 კითხვა შეიმუშავეს იმის შესამოწმებლად, თუ როგორ მოქმედებდა მომხმარებლის ტონი პასუხების სიზუსტეზე. პრეფიქსების გამოყენებით შემდეგ ისინი ხუთი კატეგორიის ტონს მოარგეს: ძალიან თავაზიანი, თავაზიანი, ნეიტრალური, უხეში და ძალიან უხეში. კითხვები მათემატიკას, ისტორიას, მეცნიერებასა და სხვა სფეროებს ეხებოდა.

თითოეულ შეკითხვას ოთხი ალტერნატიული პასუხი ჰქონდა და აქედან მხოლოდ ერთი იყო სწორი. მიღებული 250 შეკითხვა 10-ჯერ მიაწოდეს ChatGPT-4o მოდელს (OpenAI-ს მიერ შექმნილი ერთ-ერთი ყველაზე დახვეწილი მოდელი).

"ჩვენი ექსპერიმენტები წინასწარი ხასიათისაა და აჩვენებს, რომ ტონმა შეიძლება მნიშვნელოვანი გავლენა იქონიოს შედეგებზე, რომლებიც 50 კითხვაზე გაცემული პასუხების ქულებით გავზომეთ", — წერენ მკვლევრები თავიანთ ნაშრომში — "გარკვეულწილად გასაკვირია, თუმცა, ჩვენი შედეგების მიხედვით, უხეში ტონების გამოყენება თავაზიანებისაზე უკეთეს შედეგებს იძლევა".

მიუხედავად ამ მიგნებისა, კვლევის ავტორები ჩატბოტებთან უხეშობას არ გვირჩევენ და "რეალურ სამყაროში მტრული ან ტოქსიკური ინტერფეისების გამოყენებას" არ უწევენ რეკომენდაციას.

"ადამიანისა და AI-ს ინტერაქციის პროცესში შეურაცხმყოფელი ან მომთხოვნი ენის გამოყენებამ შეიძლება უარყოფითი გავლენა იქონიოს მომხმარებლის გამოცდილებაზე, ხელმისაწვდომობასა და ინკლუზიორობაზე, ასევე შეიძლება კომუნიკაციაში საზიანო ნორმები დაამკვიდროს", — წერენ მკვლევრები.

თითოეული პრომპტის მიცემამდე მკვლევრები ჩატბოტს სთხოვდნენ, რომ წინა ინტერაქციები მთლიანად დაევიწყებინა, რომ პასუხებზე წინაზე გამოყენებულ ტონებს არ ჰქონოდა გავლენა. ასევე, ჩატბოტებს ახსნის გარეშე სთხოვდნენ, რომ ოთხიდან ერთი ვარიანტი ამოერჩიათ.

მოდელის პასუხების სიზუსტე 80,80%-იდან (ძალიან თავაზიანი პრომპტებისთვის) 84,8%-ამდე (ძალიან უხეში პრომპტებისთვის) იცვლებოდა. საგულისხმოა, რომ სიზუსტე იზრდებოდა თავაზიანიდან უხეში ტონისკენ ყოველი მომდევნო საფეხურით გადანაცვლებისას. თავაზიანი მიმართვისას პასუხების სიზუსტის მაჩვენებელი 81,4% იყო, ნეიტრალურის დროს — 82,2%, უხეში მიმართვისას კი — 82,8%.

მკვლევრებმა ტონის შესაცვლელად პრეფიქსებში სხვადასხვაგვარი ლექსიკა გამოიყენეს, ნეიტრალური კითხვების შემთხვევას თუ არ ჩავთვლით; ამ უკანასკნელში პრეფიქსი საერთოდ არ გამოუყენებიათ და კითხვები დამოუკიდებლად წარადგინეს.

მაგალითისთვის, ძალიან თავაზიანი პრომპტების შემთხვევაში მოდელს მსგავსად მიმართავდნენ: "შეიძლება ამ კითხვაზე შენი დახმარება ვითხოვო?" ან "იქნებ გამოიჩინო სიკეთე და შემდეგ კითხვაზე მიპასუხო?". ძალიან უხეში ფორმულირებების შემთხვევაში შემდეგნაირი მიმართვები გამოიყენეს: "ეი, მორბედო; ეს გაარკვიე" ან "ვიცი არ ხარ ჭკვიანი, მაგრამ ეს სცადე".

მნიშვნელოვანია აღინიშნოს, რომ სხვა კვლევით მეცნიერებს ამ მიგნებების საპირისპირო შედეგიც მიუღიათ. წინა ნაშრომებით მკვლევრებმა დაადგინეს, რომ "უხეში პრომპტები ხშირად დაბალ პროდუქტიულობას განაპირობებს, თუმცა არც ზედმეტად თავაზიანი ენა იძლევა უკეთესი შედეგის გარანტიას". საგულისხმოა, რომ ეს კვლევა სხვა AI მოდელებზე — ChatGPT 3.5 და Llama 2-70B — ჩატარდა და რვა სხვადასხვა ტონს მოიცავდა. ამის მიუხედავად, გარკვეული თანხვედრა მაინც დაფიქსირდა: ყველაზე უხეში პრომპტების რეჟიმმა მაშინაც უფრო ზუსტი შედეგები აჩვენა (76,47%), ვიდრე — ყველაზე თავაზიანისამ (75,82%).

ახალი ნაშრომის ავტორებმა თავიანთი კვლევის შეზღუდვებზეც ისაუბრეს. მათ შორისაა ის ფაქტი, რომ 250 კითხვა საკმაოდ მცირე ბაზაა; გარდა ამისა, კვლევის ფარგლებში მხოლოდ ერთი LLM შეამოწმეს, ანუ შედეგებს სხვა AI მოდელებზე ვერ განვაზოგადებთ.

აღნიშნავენ იმასაც, რომ, ვინაიდან მხოლოდ არჩევითპასუხიანი კითხვები გამოიყენეს, ამის გამო მოდელის პერფორმანსის მხოლოდ ერთი განზომილების შეფასება მოხერხდა. არ მოუცვიათ სხვა მახასიათებლები, თუნდაც თავისუფალი მეტყველება, აზროვნება და თანამიმდევრულობა.

ამ შეზღუდვების გათვალისწინებით, ავტორები მიიჩნევენ, რომ კვლევა სხვა მოდელებზეც უნდა ჩატარდეს, იქნება ეს Anthropic-ის Claude LLM თუ OpenAI-ს ChatGPT o3.

თუ სტატიაში განხილული თემა და ხელოვნური ინტელექტის სფერო შენთვის საინტერესოა, შემოგვიერთდი ჯგუფში, სადაც ვლაპარაკობთ ხელოვნურ ინტელექტზე.

ბოლო ამბები:

გირჩევთ

ChatGPT-ს "ლანძღვა" შეიძლება მის სიზუსტეს აუმჯობესებდეს, თუმცა მეცნიერები არ გვირჩევენ

კომენტარები

კვირის ტოპ-5

გირჩევთ