Google și inexactitatea IA: milioane de răspunsuri greșite pe oră
Un experiment recent cu funcția AI Overviews din motorul de căutare Google a relevat că inteligența artificială oferă răspunsuri corecte în doar 90% din cazuri. Aceasta înseamnă că cel puțin 1 din 10 răspunsuri generate este fals. Având în vedere volumul uriaș de căutări efectuate, se estimează că milioane de „răspunsuri false” apar pe oră, conform unui studiu realizat de The New York Times și startup-ul Oumi.
AI Overviews este o caracteristică a motorului de căutare Google care utilizează inteligența artificială (Gemini) pentru a genera răspunsuri automate și concise la solicitările utilizatorilor. Aceasta a fost lansată pentru prima dată în 2024 și a câștigat popularitate semnificativă începând cu luna mai a anului trecut.
Experimentul efectuat de The New York Times a avut ca scop evaluarea acurateței răspunsurilor oferite de IA. Rezultatul a arătat o corectitudine de 90%, ceea ce înseamnă că cel puțin 1 din 10 răspunsuri este eronat. Colaborarea cu startup-ul de IA Oumi a implicat utilizarea SimpleQA, un test standard pentru modele, care a inclus 4.000 de întrebări, creat de OpenAI în 2024. Primele teste au fost realizate anul trecut, când modelul Gemini 2.5 avea o precizie de 85%. După actualizarea la Gemini 3, precizia a crescut la 91%.
Dacă extrapolăm nivelul de erori la toate căutările efectuate pe Google, se poate ajunge la milioane de răspunsuri eronate pe oră și sute de mii pe minut. Google a contestat metodologia studiului, purtătorul de cuvânt Ned Adrians afirmând că SimpleQA poate conține inexactități. Compania utilizează propriul text SimpleQA Verified, care se bazează pe un eșantion mai mic, dar verificat mai atent.
„Acest studiu are lacune serioase”, a declarat Adrians. „Nu reflectă ceea ce caută oamenii cu adevărat pe Google.” Evaluarea inteligenței artificiale rămâne o provocare, deoarece fiecare companie are propria modalitate de a demonstra capacitățile, iar verificarea este complicată de faptul că modelele pot oferi răspunsuri diferite la aceeași întrebare.
De asemenea, AI Overviews nu este singurul model disponibil. Google a anunțat că sistemul selectează „cel mai relevant” răspuns pentru fiecare interogare. Cele mai precise răspunsuri ar putea fi oferite de Gemini 3.1 Pro, care este însă lent și costisitor, motiv pentru care sunt utilizate mai frecvent modelele Gemini Flash.
În ciuda acestor aspecte, un indicator de acuratețe de 9 din 10 pentru inteligența artificială reprezintă un rezultat relativ bun pentru industrie. Anterior, Google a publicat teste ale noilor modele cu o precizie de 60–80% fără acces la date externe. Utilizarea surselor de pe internet îmbunătățește rezultatele, dar generează o altă problemă: utilizatorii au tendința să aibă încredere în IA și nu verifică informațiile la sursele originale.
Chiar dacă Google contestă rezultatele experimentului realizat de The New York Times, compania continuă să advocați la sfârșitul fiecărui răspuns: „IA poate greși, așa că verificați încă o dată”.
