Runway eclipsa OpenAI amb el vídeo mentre ElevenLabs, Suno i Character.ai reforcen l’àudio al mòbil

La startup francesa Kyutai llança el seu assistent d’IA multimodal Moshi, que funciona amb la veu que GPT-4o acaba de posposar a octubre. Apple segueix els passos de Microsoft i també vigilarà a Sam Altman

5 de juliol de 2024

Runway eclipsa OpenAI amb el vídeo mentre ElevenLabs, Suno i Character.ai reforcen l’àudio al mòbil — Imatge generada per Saül Gordillo amb Midjourney.

Hem estat 15 dies a la Costa Oest i tornem de Califòrnia i Silicon Valley amb les piles carregades. No vam poder deixar constància de la presentació d'Apple Intelligence, però alguns dels anuncis s'han anat desdibuixant. Apple segueix els passos de Google i OpenAI, que després dels seus últims llançaments no van trigar a rectificar o matisar alguns detalls. OpenAI ens acaba de treure de la boca el caramel de la veu de GPT-4o, i el llançament de mitjans de febrer de Sora forma part d'un record i il·lusió eclipsats pels competidors xinesos i nord-americans que han sorgit per a la IA de vídeo que havia de revolucionar Hollywood. Aquesta mateixa setmana el GEN-3 Alpha de Runway suposa un envit en tota regla al Sora d'una OpenAI que ajorna llançaments anunciats (la veu multimodal de GPT-4omni) i utilitza altres com globus sonda per posar tiretes a les ferides abans de temps (Sora i els contactes de l'organització d'IA amb la indústria del cinema i els creadors). Amb aquest butlletí, doncs, recuperem el format de recopilació de la millor actualitat d'IA de la setmana i ens comprometem a deixar escrita la crònica del viatge a San Francisco, Silicon Valley, Las Vegas i Los Angeles per a una entrega més pausada i desenganxada dels impactes noticiables ja a l'agost.

Abans d'entrar de nou en matèria, agrair als nous subscriptors que han anat arribant els últims dies i setmanes a Algoritme Transparent, i a tots els que comparteixen el nostre contingut i ens ajuden a fer més gran la comunitat d'IA. A San Francisco vam tenir l'oportunitat de provar les Apple Vision Pro (ja compartirem la nostra experiència aquí) i ara llegim que Mark Gurman de Bloomberg apunta a dues novetats interessants: li posaran Apple Intelligence a les ulleres i comercialitzaran una versió més econòmica, unes Apple Vision sense 'Pro'. Anem bé.

Aquesta setmana, com deia, hem viscut una experiència tipus Sora d'OpenAI a Twitter però amb els vídeos i demos que ha llançat Runway de GEN-3 Alpha. Ens quedarà a la memòria una associació d'idees entre els spaghetti i la IA Generativa de vídeo en el salt brutal que estem veient (res semblant a aquells primers de Will Smith). Si la indústria del cinema i els creadors audiovisuals pretenien frenar o controlar els danys de l'impacte de Sora —que ja té el seu primer anunci comercial amb la seva tecnologia—, amb el nou de Runway i el model de vídeo xinès Kling això agafa velocitat i no sembla que tingui marxa enrere. També ha sortit Hedra, que transforma imatges estàtiques en personatges animats. I si el vídeo va, l'àudio no es queda pas curt perquè ElevenLabs acaba d'estrenar una app per a iOS amb veus de Hollywood. ElevenLabs incorpora veus icòniques a la seva aplicació Reader: ara la IA Judy Garland pot llegir-te El Mag d'Oz. Suno, l'eina més nova i popular per generar cançons amb lletres i estils musicals a cop de 'prompt', acaba de llançar una app als Estats Units per a iPhone. I Character.ai, l'aplicació d'IA més usada al món després de ChatGPT, amb 250 milions d'usuaris mensuals, presenta una nova funció de trucades als nostres xatbots preferits.

Pols geoestratègic interessant. A la francesa Mistral AI que competeix amb OpenAI ara s'uneix la parisenca Kyutai per eclipsar amb Moshi, encara que sigui modestament, la multimodalitat de GPT-4o. França, en solitari i testimonialment, plantant cara a Silicon Valley.

Per acabar de rematar els fantasmes que li apareixen a OpenAI, Kyutai, una startup francesa ha llançat el seu assistent d'IA multimodal amb una latència extremadament baixa (200 mil·lisegons) que fa les funcions de veu que GPT-4o postposa a octubre-novembre. La IA de veu del multimilionari Xavier Niel s'enfronta a ChatGPT amb accent francès. Aquí veiem un pols geoestratègic interessant, ja que a la francesa Mistral AI que s'alinea amb Microsoft per competir amb OpenAI ara s'uneix la parisenca Kyutai per eclipsar amb Moshi encara que sigui modestament la multimodalitat de GPT-4o. França, en solitari i testimonialment, plantant cara a Silicon Valley. La França que aquest diumenge s'acosta a l'abisme polític de les urnes és l'excepció tecnològica d'una Europa que precisament aquests dies manté a Microsoft i Google sota la lupa i que acusa Meta de violar la Llei de Mercats Digitals (DMA) amb el seu 'consenteix o paga'. Brussel·les intensifica la seva croada perquè les grans tecnològiques compleixin amb la regulació.

Imatge generada per Saül Gordillo amb Midjourney.

Espanya s’embolica amb el ‘pajaporte’ i els ‘pseudomitjans’

Mentre Europa apreta les tecnològiques i França s'envalentona amb les seves 'startups', el govern d'Espanya s'embolica amb el que ja s'ha denominat periodísticament com el 'pajaporte'. Un embolic que enterboleix abans de les vacances la bona gestió en IA del ministre José Luis Escrivá. I a aquest embolic s'hi podria afegir aquest mateix mes de juliol el de l'ofensiva de l'Executiu contra el que el president Pedro Sánchez ha anomenat 'pseudomitjans'. Sembla estrany intentar evitar que les administracions governades per PP i Vox tinguin menys marge de maniobra que la pròpia Moncloa per ajudar els seus mitjans afins. Per molt d'acord que poguéssim estar en el fons, i sense caure en ingenuïtats, les formes preocupen perquè indiquen nerviosisme davant el cas de Begoña Gómez i un tic poc compatible amb la llibertat, la pluralitat i la democràcia. Qui controlarà el controlador de la publicitat o subvencions institucionals als suposats mitjans digitals? En quin àmbit institucional, territorial o polític posarem el límit? Ni la pornografia sexual ni la política es poden combatre amb 'pajaportes' ni lleis concebudes contra artefactes digitals ideològics i partidistes concrets.

Els dies del viatge a Califòrnia a Algoritme Transparent no vam poder deixar constància d'un parell de decisions del govern d'Espanya en matèria d'IA. L'elecció d'Ignasi Belda com a nou director de l'Agència de Supervisió d'Intel·ligència Artificial, amb seu a A Coruña. I un altre nomenament: l'exministre d'Universitats Manuel Castells presidirà el consell assessor en IA d'Espanya. Manuel Castells, que va ser ministre després del seu suport als Comuns d'Ada Colau, va aparèixer fa unes setmanes durant la nit electoral catalana al despatx del candidat socialista Salvador Illa seguint el recompte dels comicis i celebrant la seva victòria. A veure què aconsella l'acadèmic Castells al pròxim president de la Generalitat, qui sigui, en relació a l'algoritme qüestionat que decideix el destí dels presos a Catalunya. Hem sabut que l'algoritme que avalua la perillositat dels presos catalans funciona de manera “atzarosa”.

Apple entra a la nova junta directiva d’OpenAI com a observadora i vigilarà Sam Altman com va fer Microsoft

Torno a la IA i vaig acabant. L'aplicació de ChatGPT per a Mac (Apple) té una vulnerabilitat important. La seguretat és una de les grans mancances actuals de la IA. I això que ara OpenAI ha tret una IA que "critica" els errors de GPT-4. Per evitar nous ensurts com els de novembre passat amb l'acomiadament fallit de Sam Altman, i seguint els passos de Microsoft, Apple tindrà un lloc equivalent al de Microsoft al consell d'administració d'OpenAI. Phil Schiller, d'Apple, ocuparà una cadira d'observador sense vot a la nova junta directiva d'OpenAI a l'estil de la incorporació de Dee Templeton, vicepresidenta de Microsoft. L'acceleracionisme d'aquesta OpenAI post-Ilya Sutskever —Sam Altman diu que GPT-5 ridiculitzarà a GPT-4— compta amb la vigilància dels grans aliats de la companyia, la Microsoft de Satya Nadella i l'Apple de Tim Cook amb qui acaba de pactar la integració de ChatGPT a l'iPhone per ressuscitar Siri i reforçar Apple Intelligence.

OpenAI i TIME s'associen per expandir l'accés a informació fiable. La revista també incorpora àudio als seus articles de la mà d'ElevenLabs. Ben jugat. Un parell d'apunts finals de la setmana. Les declaracions de l'home fort de Microsoft AI, Mustafa Suleyman, que defensa que qualsevol pot usar el contingut obert a Internet —també per entrenar els models d'IA—, i Google contamina un 48% més que fa cinc anys.

Gràcies per arribar fins aquí i per compartir. Fins la setmana que ve amb les últimes novetats!

[Article publicat originàriament a Algoritmo Transparente.]

Articles relacionats

Xavier Mitjana, Antonio Ortiz, Matías S. Zavía i Carlos Santana, d'esquerra a dreta, en la presentació de Paréntesis MEDia, a Barcelona. Foto: Saül Gordillo

Runway eclipsa OpenAI amb el vídeo mentre ElevenLabs, Suno i Character.ai reforcen l’àudio al mòbil

Espanya s’embolica amb el ‘pajaporte’ i els ‘pseudomitjans’

Apple entra a la nova junta directiva d’OpenAI com a observadora i vigilarà Sam Altman com va fer Microsoft

Articles relacionats

Homenatge als divulgadors d’Intel·ligència Artificial

MareNostrum 5: Supercomputació europea amb 314.000 bilions de càlculs per segon

La IA generativa, en el punt de mira dels grans actors tecnològics

Europa es refugia en l’ètica d’una IA que ve dels Estats Units i la Xina

OpenAI forma un comitè de seguretat per rebatre els retrets de Helen Toner a Sam Altman

Ensopegada de Sam Altman davant l’avenç imparable de Microsoft amb la seva IA Copilot

Estigues al dia. Subscriu-te al butlletí