La veu de GPT-4: democratització del ‘deepfake’, humanització de la IA i afecte emocional a l’assistent virtual
OpenAI, Google i Meta no descansen en la cursa de la IA i la seva festa major són els nous llançaments d’aquest juliol i agost. Apple i Musk, discrets aquesta setmana
Una usuaria de GPT-4o escucha a su asistente virtual en el móvil, en una imagen generada con Midjourney por Saül Gordillo.
L'estiu té alguna cosa especial que ens permet assaborir millor els moments i aprofundir reflexivament en aspectes que durant l'any passem per alt. Aquest punt de pausa, de relax, de no anar corrent per tot arreu, ens acosta a un estat més íntim i autèntic. Aquest estiu de 2024 tindrà especial importància perquè per a molts serà el primer per poder valorar en tota la seva magnitud l'impacte de la Intel·ligència Artificial en les nostres vides. Per a molts —en el meu cas va ser l'estiu passat, tampoc tinc tant mèrit— aquestes vacances seran idònies per pensar fins a quin punt la IA ens canviarà per sempre, i transformarà la societat.
Aquest mateix dimecres alguns afortunats usuaris de ChatGPT Plus han tingut accés a les primeres alphas del sistema de veu de GPT-4 (omni), i de la mateixa manera que en els meus records quedaran per sempre alguns directes de Carlos Santana i els primers tutorials de Xavier Mitjana, aquest dimecres, en condicions adverses perquè es trobava de vacances familiars a Àsia, el divulgador Jon Hernández ha protagonitzat un dels directes que recordarem, el de la prova de les alphes de veu de GPT-4, que efectivament han correspost amb la demostració que en el seu dia va realitzar Mira Murati, la CTO d'OpenAI. Han passat setmanes i alguns afortunats ja tenen a les seves mans un chatbot revolucionari, perquè crec que la veu li confereix a aquestes IAs una textura d'assistent personal, una ‘humanitat’ de la màquina, que ho canvia tot. És molt fort el que és capaç de fer.
Han passat setmanes i, a jutjar pel directe de Jon Hernández, les polítiques d'OpenAI potser són més exhaustives amb la veu que amb el text, fins i tot més estrictes respecte a la generació d'imatges. L'episodi confús i polèmic de la suposada veu de ‘Her’ en GPT-4, la veu Sky que semblava recordar la de l'actriu de la pel·lícula, Scarlett Johansson, potser ha posat a OpenAI en una posició excessivament prudent, i per això a l'assistent que ens ha mostrat Jon Hernández segons quines coses no se les podia demanar, per inofensives o infantils que semblessin. Succeeix una cosa semblant amb Midjourney, que en any electoral et rebutja un missatge de rebuig quan li demanes que generi una imatge realista de Donald Trump i Joe Biden, argumentant que podria donar peu a la propagació de ‘deepfakes’ amb vista a les urnes. I si li ho tornes a demanar, amb Kamala Harris o J.D. Vance, et treu targeta groga.
En poc temps, tots els usuaris de ChatGPT Plus tindrem a la butxaca un chatbot que parlarà com un humà, gairebé superant el test de Turing. De fet, hi ha humans més lluny dels coneixements i de la manera de conversar amb veu de GPT-4, de manera que per a una immensa majoria ja hauríem superat el test de Turing i estaríem davant d'una etapa tan apassionant com incerta: la democratització del ‘deepfake’, la humanització de la IA, l'afecció emocional a l'assistent virtual, les tres grans coses a parts iguals. Aprofitem el ritme tranquil dels dies i nits d'aquest estiu de 2024 per reflexionar sobre el que tot això suposa per a la humanitat i per als anys que ens venen amb aquesta IA conversacional tan realísticament humana.
Aquest dimecres, mentre Jon feia el seu oportú directe d'urgència des d'un despatxet a Indonèsia, se'm va acudir interactuar amb la veu del meu GPT amb la funcionalitat que el 100% d'usuaris tenim des de fa mesos. Doncs bé, per un moment la veu actual del GPT em va semblar una Alexa, una Siri, qualsevol. Llenta, maldestra... robòtica! Aquella mateixa funcionalitat que fins feia poques hores em semblava un salt espectacular respecte a les Alexes d'Amazon i les Siris d'Apple, amb les quals ja ens havíem resignat a mantenir una relació limitada, d'una practicitat gairebé ridícula, quedava superada, i de quina manera, per la sensació d'estar parlant amb un humà que desprèn la nova veu de l'assistent de GPT-4, i que tots tindrem democràticament passat l'estiu, a la tardor.
Un podcaster, en una imatge generada amb Midjourney per Saül Gordillo.
OpenAI llança GPTSearch i va a per Google, que trepitja l'accelerador amb la seva IA Gemini
Repassem altres temes de la setmana, que ja sabeu que a Algoritmo Transparente us trobeu amb el més rellevant de l'actualitat de la IA:
OpenAI va a la jugular de Google i, finalment, llança GPTSearch per competir amb el cercador global d'Internet. Com provar abans que ningú SearchGPT, el nou cercador d'OpenAI. Em sembla interessant que OpenAI prioritzi mitjans de comunicació i imposi una certa jerarquia després del caos de SEM, SEO i ‘clickbait’ que impacta a les primeres pàgines de cerca de Google. L'amenaça d'OpenAI per a Google ha de ser un pessic, perquè la pròpia companyia del gran cercador ja està disposada a reinventar les cerques a Internet tal com les hem entès els darrers anys. Van començar amb AI Overview, després de matar Bard van posar Gemini a tots els seus productes i aquesta setmana anuncien que la seva IA serà més ràpida: Gemini es torna més ràpid amb la seva nova actualització. Es diu Gemini 1.5 Flash.
Elon Musk no pot evitar ser protagonista cada setmana. Elon Musk està usant les teves publicacions de X (Twitter) per entrenar Grok: així pots impedir-ho. L'estupendisme mediàtic de la setmana ha consistit a publicar peces amb el típic titular ‘com evitar que Musk entreni la seva IA amb els teus tuits’. Tant de bo s'entrenés amb fils de Twitter (X) brillants, i esperem que no ho faci amb l'odi predominant en tants comptes!
Apple Intelligence ja és oficial: Apple llança la beta 1 d'iOS 18.1 per a desenvolupadors. Objectiu: tenir Apple Intelligence com més aviat millor. Gurman avança un pla inaudit d'Apple per fer-ho possible des d'aquest mateix estiu.
Segueixo amb interès la cobertura que Jordi Alonso està fent per a Paréntesis MEDia de SIGGRAPH 2024: Jensen Huang defensa la IA empresarial basada en models oberts. La IA generativa és la protagonista de l'edició. El futur que ve a Emergent Technologies.
A més, vull estendre el meu agraïment a Javier Guallar de Content Curators per la menció en el seu darrer article 'IA i periodisme, Factor X, Esprint IA abans de vacances'. Saber que referents com ells segueixen i llegeixen Algoritmo Transparente és un gran estímul per seguir endavant.
Aquesta setmana, Algoritmo Transparente arribarà als 5.500 subscriptors. Tant d'interès per la IA i la tecnologia anima a seguir amb més força compartint l'actualitat de la IA. Gràcies per ser aquí!
[Article originàriament publicat a Algoritmo Transparente.]
Bill Gates pronostica el declivi de la IA actual i augura el futur d’una IA “metacognitiva”. Pols sense precedents entre Europa i les grans tecnològiques que ens margina davant Meta i Apple
Celebració de 20 anys com a bloguer amb un Algoritme Transparent especial. OpenAI treballa en una nova tecnologia de raonament anomenada ara Strawberry, que al novembre va desencadenar la crisi interna
Continua el bany de Runway a xarxes amb Gen-3 Alpha. Elon Musk anuncia per a l’agost Grok 2, la nova IA de xAI i X. Algoritme Transparent dedica una cançó amb Suno al futbolista Lamine Yamal
La startup francesa Kyutai llança el seu assistent d’IA multimodal Moshi, que funciona amb la veu que GPT-4o acaba de posposar a octubre. Apple segueix els passos de Microsoft i també vigilarà a Sam Altman