När pekaren blir AI: Gemini gör markören intelligent

När pekaren blir AI: Gemini gör markören intelligent

Emilia Berg Emilia Berg . Kommentarer

4 Minuter

Den mest irriterande delen av att använda AI på en dator är inte själva AI:n. Det är det ständiga avbrottet. Du stoppar mitt i en uppgift, hoppar in i en chattbot, förklarar vad som finns på skärmen, kopierar svaret och återvänder sedan till arbetet. Google DeepMind vill nu ta bort den friktionen med en enkel idé som känns överraskande radikal: gör markören intelligent.

I en ny serie demos och forskningsförhandsvisningar visar DeepMind hur en Gemini-driven pekare skulle kunna förstå både vart du siktar och vad som finns under den. Det förändrar interaktionen helt. Istället för att skriva en lång prompt, pekar du på något och ber om det resultat du vill ha. Systemet läser den omgivande visuella och semantiska kontexten av sig självt.

Denna förändring kan verka liten. Det är den inte. Den förvandlar muspekaren från ett passivt navigationsverktyg till ett aktivt lager av AI-hjälp, som lever exakt där din uppmärksamhet redan är.

Tänk dig att hovra över en datatabell och be om ett cirkeldiagram. Eller peka på ett recept och säga «fördubbla dessa ingredienser». En PDF kan omvandlas till prydliga punktlistor redo för ett mejl. Pausa en resevideo på en scen från en restaurang och systemet kan plocka fram en bokningslänk. I varje fall är löftet detsamma: mindre förklarande, färre appbyten och mindre manuellt städarbete.

DeepMind beskriver detta som ett steg mot «naturligt kortfattat». Den formuleringen är viktig. I åratal har AI-verktyg krävt att användare blir skickliga promptförfattare. Detta tillvägagångssätt vänder på bördan. Datorn gör mer av den tolkningsmässiga jobbet, och användaren gestikulerar och frågar.

Markören blir mer än bara en pekare

Det här är inte helt i laboratoriefasen. Google har redan två levande experiment i AI Studio, med fokus på bildredigering och kartsökning, som ger en tidig inblick i hur denna interaktionsmodell skulle kunna fungera i verkligheten. Den bredare planen sträcker sig längre.

Google säger att tekniken är på väg till Chrome, där användare kommer att kunna markera eller peka på innehåll på en webbsida och fråga Gemini om det utan att skriva en full förklaring i ett separat fönster. Det är en naturlig förlängning av de AI-funktioner Google redan har vävt in i sin webbläsare. Auto Browse kan till exempel redan låta Gemini hantera uppgifter i flera steg på webben.

Det finns också ett operativsystemsperspektiv. En version kallad Magic Pointer väntas komma till Googlebook, företagets nyligen tillkännagivna bärbara datorlinje inriktad på Gemini. Om den utrullningen sker som presenterat kommer konceptet att gå bortom webbläsarflikar och in i en bredare skrivbordsupplevelse.

Där börjar detta se större ut än en snygg demo. Sidopaneler och chattbotrutor ber fortfarande användare att lämna det de håller på med. En AI-pekare gör tvärtom. Den håller hjälpen inbäddad precis där frågan uppstår.

Datormusen har knappt förändrats i någon meningsfull riktning på mer än ett halvt sekel. Den klickar, drar, markerar och pekar i stort sett som tidigare. DeepMinds idé är övertygande eftersom den inte försöker ersätta det välbekanta beteendet. Den lägger förståelse ovanpå det.

Om detta blir en standardfunktion i modern datormiljö beror på genomförandet. Kontextmedveten AI låter kraftfullt, men väcker också välbekanta frågor om noggrannhet, integritet och hur mycket användare kommer att lita på ett system som ständigt tolkar vad som finns på skärmen. Ändå är riktningen svår att ignorera. Om chattbotar var det första stora gränssnittet för generativ AI, kan pekaren bli det nästa som faktiskt känns inbyggt i själva datorn.

"Jag bevakar de senaste tekniknyheterna – från nya produkter till digitala trender. Mitt mål är att hjälpa läsarna förstå vad som händer just nu och varför det spelar roll."

Lämna en kommentar

Kommentarer