L'IA peut-elle vraiment remplacer votre clavier et votre souris?

« Hey Chatgpt, cliquez sur le champ Entrée du mot de passe dans la fenêtre contextuelle apparaissant dans le quadrant inférieur gauche de l'écran et remplissez XUS & (# ($ J, et appuyez sur Entrée. »

Amusant, hein? Non merci. Je vais simplement déplacer ma souris bon marché et taper les 12 caractères sur mon clavier inutilement clické, au lieu de parler à haute voix le mot de passe dans mon espace de co-travail.

C'est assez cool de voir Chatgpt comprendre votre commande vocale, réserver un billet bon marché pour huit personnes pour regarder un match de Liverpool à Anfield et vous atterrir à l'écran de paiement. Mais bon, allez-vous lui faire confiance avec le mot de passe? Ou, ne tapez-vous pas simplement le mot de passe avec un clavier physique?

Imaginez aller tout-in sur l'IA, seulement pour réaliser que l'étape du dernier mile, où vous avez vraiment besoin d'un clavier ou d'une souris, n'est pas possible, et vous êtes maintenant coincé. Mais c'est exactement la question que beaucoup ont posée après avoir vu des agents IA flashy et des vidéos d'automatisation de Google, Openai et Anthropic.

C'est une question légitime

https://www.youtube.com/watch?v=jcdbfam9ppi

L'IA était le thème primordial de l'événement d'E / S de Google plus tôt cette année. À la fin du discours, j'étais convaincu que les smartphones Android ne seront plus les mêmes. Et par cette extension, toute plate-forme où Gemini va atterrir – à partir d'applications d'espace de travail telles que Gmail pour naviguer sur Google Maps tout en étant assis dans une voiture.

La démo la plus impressionnante était Project Mariner, et le prochain prototype de recherche du projet Astra. Considérez-le comme un assistant conversationnel de nouvelle génération qui vous fera parler et faire de vraies choses, sans jamais taper sur l'écran ni tirer le clavier. Vous pouvez déplacer vos requêtes d'un manuel d'utilisation hébergé sur le site Web d'une marque vers des vidéos YouTube pédagogiques, sans jamais répéter le contexte.

C'est presque comme si le vrai concept de mémoire était arrivé pour l'IA. Dans un navigateur Web, il va vous réserver des billets, vous atterrir sur la dernière page où vous devez simplement confirmer si tous les détails sont demandés et vous procédez avec le paiement. Cela conduit à se demander si le clavier et la souris sont des concepts morts pour les entrées numériques à mesure que les interactions vocales viennent au premier plan de l'IA.

Le fardeau de l'erreur

Maintenant, aussi étrange que cela puisse paraître, votre ordinateur est déjà livré avec un contrôle vocal pour naviguer dans le système d'exploitation. Sur Windows PCS et MacOS, vous pouvez trouver les outils d'accès vocal dans le cadre de la suite d'accessibilité. Il existe une poignée de raccourcis disponibles pour accélérer le processus, et vous pouvez également créer le vôtre.

Avec l'avènement des modèles d'IA de nouvelle génération, nous parlons d'abandonner le clavier et la souris pour tout le monde, et pas seulement le pousser comme une technologie d'assistance.

Imaginez une combinaison d'utilisation de l'ordinateur Claude et l'entrée suivie par les yeux du casque Vision Pro d'Apple. Dans le cas où vous n'êtes pas familier, l'utilisation de l'ordinateur d'Anthropic est un agent d'utilisation de l'ordinateur. Anthropic dit qu'il permet à l'AI «utilise les ordinateurs comme les gens, en regardant un écran, en déplaçant un curseur, en cliquant sur des boutons et en tapant du texte».

Maintenant, pensez à un scénario où votre intention est donnée comme une voix à Claude, ramassée par les micros à bord, et la tâche est exécutée. Pour que la dernière étape soit exigée de vous, les gestes comblent l'écart. Le Vision Pro a démontré que les contrôles suivis par les yeux sont possibles et fonctionnent avec un degré élevé de précision.

Loin des casques, l'IA contrôlée par la voix peut toujours fonctionner sur un ordinateur moyen. Hume AI, en partenariat avec Anthropic, construit un système appelé Empathetic Voice Interface 2 (Evi 2) qui transforme les commandes vocales en entrée informatique. C'est presque comme parler à Alexa, mais au lieu de commander du brocoli, l'assistant AI comprend ce que nous disons et le transforme en entrée de clavier ou de souris.

Tout cela semble formidable, mais pensons à quelques scénarios réalistes. Vous aurez besoin d'un clavier pour les modifications médiatiques affinées. Apporter des modifications mineures à une toile de codage. Remplir les cellules dans une feuille. Imaginez dire: «Hé Gemini, mettez quatre mille huit cent quatre-vingt-quinze dollars dans la cellule D5 et étiquetez-le comme des frais de voyage en avion?» Ouais, je sais. Je le taperais aussi.

Le dernier mile, pas la fin

Si vous passez par des démos de mode AI dans la recherche, l'agent Mariner Project et Gemini Live, vous aurez un aperçu de l'informatique vocale. Toutes ces avancées d'IA semblent incroyablement pratiques, jusqu'à ce qu'elles ne le soient pas. Par exemple, à quelle heure est-il trop irritant pour dire des choses comme «Passez à la boîte de dialogue dans le coin supérieur gauche et cliquez gauche sur le bouton bleu qui indique Confirmer.  »

C'est trop lourd, même si toutes les étapes avant leur exécution sont effectuées de manière autonome par une IA.

Et n'oublions pas l'éléphant dans la pièce. L'IA a l'habitude de se détraquer de foin. «À ce stade, il est toujours expérimental – à des moments lourds et sujets aux erreurs», prévient anthropic sur l'utilisation de Claude Computer. La situation n'est pas trop différente de l'agent opérateur d'Openai, ni d'un outil similaire du même nom actuellement en développement chez Opera, les gens derrière un navigateur Web assez cool.

La suppression du clavier et de la souris d'un ordinateur Boosted AI, c'est comme conduire une Tesla avec une autonomie complète (FSD) activée, mais vous n'avez plus la direction et les commandes disponibles sont les pédales de frein et d'accélérateur. La voiture va certainement vous emmener quelque part, mais vous devez prendre le relais si un événement inattendu se transpire.

Dans le contexte informatique, pensez au dépanneur, où vous devez être dans le siège de conduite. Mais supposons qu'un modèle d'IA, entraîné principalement par la voix (et capturé par le micro sur votre machine informatique préférée), vous décroche à la dernière étape où vous devez fermer le workflow, comme effectuer un paiement.

Même avec PassKeys, vous devrez au moins confirmer votre identité en entrant le mot de passe, en ouvrant une application Authenticatrice ou en touchant un capteur d'empreintes digitales? Aucun fabricant de systèmes d'exploitation ou de développeur d'applications (en particulier sur la vérification de l'identité) ne permettrait à un modèle d'IA un contrôle ouvert sur la gestion de cette tâche critique.

Il est tout simplement trop risqué d'automatiser avec un agent d'IA, même avec des commodités comme Passkeys qui entrent en scène. Google dit souvent que les Gémeaux apprendront de la mémoire et de vos propres interactions. Mais tout commence par le laisser surveiller votre utilisation de votre ordinateur, ce qui dépend fondamentalement des entrées de clavier et de souris. Alors oui, nous sommes de retour à la case départ.

Aller virtuel? C'est une longue attente

Lorsque nous parlons de remplacer la souris et le clavier informatiques par l'IA (ou toute autre avancement), nous parlons simplement de les substituer par un proxy. Puis atterrir à un remplacement familier. Il y a beaucoup de matériel de recherche qui parle de souris virtuelles et de clavier, datant d'au moins une décennie, bien avant la sortie du papier «Transformers» séminal et a poussé l'industrie de l'IA dans la prochaine équipement.

En 2013, DexType a publié une application qui a exploité le tiny Leap Motion Hardware pour permettre une expérience de dactylographie virtuelle dans l'air. Aucun écran tactile requis, ni aucun projecteur laser fantaisie comme la broche AI ​​humaine. Leap Motion est décédé en 2019, mais l'idée ne l'a pas fait. Meta est sans doute la seule entreprise qui possède une pile de logiciels et de matériel réaliste prête pour une autre forme de sortie d'entrée sur l'informatique, ce qu'elle appelle l'interaction humaine-ordinateur (HCI).

L'entreprise a travaillé sur des appareils portables portés au poignet qui permettent une forme entièrement différente de contrôle des gestes. Au lieu de suivre le mouvement spatial des doigts et des membres, Meta utilise une technique appelée électromyographie (EMG). Il transforme les signaux nerveux du moteur électrique générés au poignet en entrée numérique pour contrôler les appareils. Et oui, l'entrée du curseur et du clavier fait partie du package.

Dans le même temps, Meta affirme également que ces gestes seront plus rapides qu'une presse typique de la clé, car nous parlons de signaux électriques voyageant de la main directement à un ordinateur, au lieu du mouvement des doigts. «C'est un moyen beaucoup plus rapide d'agir sur les instructions que vous envoyez déjà à votre appareil lorsque vous appuyez pour sélectionner une chanson sur votre téléphone, cliquez sur une souris ou tapez sur un clavier aujourd'hui», explique Meta.

Moins de remplacements, plus de reconditionnement

Il y a deux problèmes avec l'approche de Meta, avec ou sans l'IA qui arrive dans l'image. Le concept de curseur est toujours là, tout comme le clavier, même si dans un format numérique. Nous passons simplement du physique au virtuel. Le remplacement est poussé par des méta sons très futuristes, en particulier avec les modèles multimodal de méta-modale AI dans la photo.

Ensuite, il y a le dilemme existentiel. Ces appareils portables sont toujours dans le domaine des laboratoires de recherche. Et quand ils sortent, ils ne seront pas bon marché, du moins pendant les premières années. Même les applications tierces Barebones comme Wowmouse sont liées aux abonnements et retenues par les limitations du système d'exploitation.

https://www.youtube.com/watch?v=uf57_xi8gto

Je ne peux pas imaginer abandonner mon clavier bon marché de 100 $ avec un appareil expérimental pour une entrée vocale ou basée sur les gestes, et imaginez qu'il remplaçant le clavier complet et l'entrée de la souris pour mon flux de travail quotidien. Plus important encore, il faudra un certain temps avant que les développeurs n'embrassent des entrées axées sur le langage naturel dans leurs applications. Ce sera un processus long et réalisé.

Et les alternatives? Eh bien, nous avons déjà des applications telles que WowMouse, qui transforme votre smartwatch en un centre de reconnaissance des gestes pour les mouvements des doigts et des palmiers. Cependant, il remplace uniquement les gestes du curseur et du robinet, et pas vraiment une expérience de clavier à part entière. Mais encore une fois, laisser les applications accéder à votre clavier est un risque que les suzerains du système d'exploitation protestent. Rappelez-vous les KeyLoggers?

En fin de compte, nous sommes à un point où les capacités conversationnelles des modèles d'IA et de leurs côtelettes agentiques font un énorme bond. Mais ils vous obligeraient toujours à passer devant la ligne d'arrivée avec un clic de souris ou quelques pressions de touches, au lieu de les remplacer complètement. De plus, ils sont tout simplement trop encombrants lorsque vous pouvez frapper un raccourci ou une souris clavier au lieu de raconter une longue chaîne de commandes vocales.

En un mot, l'IA réduira notre dépendance à l'entrée physique, mais ne la remplacera pas. Du moins, pas pour les masses.







Thomas
Les derniers articles par Thomas (tout voir)

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Retour en haut