З усім тим, це питання може бути дуже важливим для роботи LLM.

Korea Data Forum Fosters Collaboration and Growth
Post Reply
baby
Posts: 55
Joined: Tue Jan 07, 2025 4:34 am

З усім тим, це питання може бути дуже важливим для роботи LLM.

Post by baby »

«‎Я використовую ChatGPT, виходячи з того, що якийсь час галюцинації залишаться обмеженням на рівні базової моделі, — говорить Терлі, — але ми можемо багато зробити на рівні продукту, щоб пом’якшити проблему».

Виміряти можливість галюцинацій непросто. Індекс Vectara — не єдиний у своєму роді; стартап Galileo використовує іншу методологію, але його рейтинг також показує, що ChatGPT-4 найменше схильний до галюцинацій.

Великі мовні моделі — потужні інструменти, але, зрештою, вони засновані на прогнозуванні — вони використовують ймовірнісні обчислення, щоб передбачити слово, фразу або абзац, які йдуть після заданого запиту. На відміну від традиційного програмного забезпечення, яке завжди робить те, що йому кажуть, LLM «недетерміновані». Це машини, які призначені не давати відповіді, а вгадувати їх.

Мовні моделі не міркують самостійно, і їм важко розрізняти високо- і низькоякісні джерела інформації. Оскільки вони навчалися на величезному зрізі інтернету, вони часто містять величезну кількість сміттєвої інформації.

Щоб виміряти схильність до галюцинацій, у Vectara просили моделі проверка номера венгрия виконати дуже вузьке завдання: підготувати короткий виклад сюжету новин. Потім вони аналізували, як часто системи вигадували факти.

Такий спосіб не ідеальний і підійде не для кожного варіанту використання, але Vectara вважають, що він дає приблизне уявлення про те, як моделі можуть сприймати інформацію і наскільки надійно вони здатні її переформатувати.

«Перший крок до усвідомлення – це кількісна оцінка», – каже Амін Ахмад, CTO та співзасновник Vectara, який провів роки, працюючи в Google над розумінням мови та глибоких нейромереж.

Якщо говорити про пом’якшення наслідків галюцинацій, існує дві основні школи думки. По-перше, можна точно налаштувати модель, але це часто дорого і вимагає часу. Найпоширеніший метод — RAG (Retrieval Augmented Generation, пошукова розширена генерація). Vectara — одна з багатьох компаній, які зараз пропонують цю версію клієнтам.

У дуже спрощеному значенні RAG працює як засіб перевірки фактів для штучного інтелекту. Метод порівнює відповідь моделі з даними компанії, наприклад, внутрішньою політикою або набором фактів. Потім об’єднана система LLM та RAG скоригує відповідь моделі, щоб переконатися, що вона відповідає даному набору обмежень.
Post Reply