Baidu desafia OpenAI i DeepSeek amb Ernie X1
Nvidia aposta per la IA en robots humanoides i superordinadors
ChatGPT ara pot generar imatges realistes i Google estrena la recerca amb IA a Espanya. Meta llança el seu assistent a WhatsApp, i Monica desafia OpenAI amb la nova IA xinesa Manus
El ritme d'innovació en intel·ligència artificial no s'atura. Aquesta setmana, cinc grans notícies han tornat a agitar el sector i han mostrat que la batalla per dominar el futur digital s'intensifica. OpenAI, Google, Meta i Baidu han anunciat avanços significatius en imatge, veu, cerca, interfícies conversacionals i models de raonament. L'acceleració tecnològica és evident.
OpenAI: imatges realistes dins de ChatGPT
OpenAI ha incorporat una de les funcions més esperades dins del seu producte estrella: la generació d'imatges realistes amb GPT-4o directament a ChatGPT. Fins ara, aquesta funció depenia de DALL·E, però ara s'ha integrat dins l'experiència conversacional, millorant-ne la coherència i la precisió.
Aquest nou sistema pot representar fins a 20 objectes diferents amb una relació correcta entre colors, formes i atributs. També millora notablement la capacitat de generar text dins les imatges, una assignatura pendent per als generadors visuals fins ara. Els usuaris poden afinar les imatges mitjançant diverses iteracions conversacionals, i l'enfoc autoregressiu (generar la imatge pas a pas) ofereix un resultat més detallat i controlat.
OpenAI assegura que totes les imatges inclouen metadades C2PA per garantir-ne la traçabilitat i evitar l'ús indegut. Està disponible per a usuaris de ChatGPT Plus, Pro i Team, i de manera limitada per a usuaris gratuïts.
Google: nova recerca amb IA i Gemini 2.5
El gegant de Mountain View ha llançat a Espanya les anomenades "Vistes amb IA" dins del seu motor de cerca. Aquesta nova funció, ja operativa als Estats Units, ofereix un resum generat amb intel·ligència artificial a la part superior dels resultats de cerca quan es formula una pregunta complexa. Aquestes respostes síntetitzen a partir de fonts fiables, i cada fragment inclou un enllaç directe a la web d'origen.
Aquesta nova experiència es desplega de manera progressiva i només per a usuaris majors de 18 anys amb sessió iniciada. Espanya és un dels nou països europeus on ja és activa. Encara que alguns editors web han expressat preocupació pel descens de visibilitat, Google defensa que millora la qualitat del trànsit i facilita l'accés a informació rellevant.
En paral·lel, Google també ha presentat Gemini 2.5 Pro, la seva IA més avançada fins ara. Aquest model, que ja està disponible per als subscriptors de Gemini Advanced, supera amb claredat GPT-4.5 i o3-mini en diverses proves de benchmark, com ara el Humanity’s Last Exam o tests de matemàtiques i ciències.
Gemini 2.5 Pro pot gestionar textos de fins a un milió de tokens (unes 750.000 paraules), i està dissenyat per a tasques multimodals com l'anàlisi de dades, la comprensió de codis i la resolució de problemes complexes amb imatges, àudio i vídeos. Google preveu ampliar el context fins a dos milions de tokens properament.
Meta: l'assistent d'IA ja parla en espanyol
Meta també s'ha sumat a les novetats d'aquesta setmana amb el llançament de Meta AI a Espanya. Després d'un llarg retard per motius regulatoris, l'assistent d'IA de la companyia de Mark Zuckerberg ja està disponible a WhatsApp, Messenger, Instagram i Facebook.
Aquest assistent, identificable per un cercle blau dins les aplicacions, permet fer consultes, obtenir informació de la web i generar contingut sense sortir de les apps. Entre les seves funcionalitats hi ha la possibilitat d'interaccionar en grups de WhatsApp amb "@MetaAI" i accedir a respostes contextualitzades, suggeriments de contingut o tendències personalitzades.
Meta AI està disponible en sis idiomes europeus i més de 60 països, i ha estat utilitzat per més de 700 milions de persones des del seu llançament als EUA. Meta preveu incorporar noves funcions creatives i millores de personalització en els propers mesos.
Manus: la IA xinesa que fa ombra a OpenAI
Des de la Xina arriba una altra sorpresa que ha sacsejat la comunitat tecnològica. La startup Monica ha presentat Manus, un agent d'intel·ligència artificial general que promet executar tasques complexes de manera autònoma i amb una eficiència que, segons les seves proves internes, supera Deep Research d'OpenAI.
Manus és capaç de programar, analitzar finances, planificar viatges i fins i tot fer compres immobiliaràries sense supervisió humana. Els seus creadors asseguren que "pensa i actua", i que connecta idees amb accions. L'agent s'ha convertit en un fenomen viral a la Xina, tot i que només està disponible amb invitació. S'han arribat a vendre codis d'accés per més de 12.000 euros.
Tot i això, Manus també ha aixecat dubtes. Diversos experts assenyalen que encara comet errors en processos llargs i complexos, i hi ha preocupació per la seva manca de transparència i la possible col·laboració amb les autoritats xineses per a la recollida de dades.
Malgrat les crítiques, Manus simbolitza una nova generació d'agents d'IA que busquen la veritable autonomia. El seu creixement recorda al de DeepSeek fa uns mesos, i ha posat en alerta OpenAI i altres grans actors occidentals.
Conclusió: el futur s'escriu a gran velocitat
En menys d'una setmana, cinc grans avenços han redefinit el panorama de la intel·ligència artificial. Des de les imatges realistes generades per GPT-4o fins a les cerques intel·ligents de Google, passant per l'assistent de Meta i l'agent autònom xínès Manus, tot indica que el 2025 estarà marcat per l'acceleració, la convergència de formats i la lluita per oferir més per menys.
La intel·ligència artificial ja no és una promesa futura. És una realitat en plena expansió, i les eines que avui es llancen al mercat poden canviar radicalment com treballem, aprenem, ens comuniquem i consumim contingut. La revolució s'està escrivint en temps real.
Podcastle presenta Asyncflow v1.0, un model de veu per convertir text en àudio amb més de 450 veus disponibles i un preu molt competitiu. Tot i que destaca en anglès, té dificultats amb altres idiomes com el castellà. L’API oberta i les eines integrades per a pódcast i vídeo el fan atractiu.
Snapchat ha estrenat nous filtres de vídeo amb IA per als subscriptors del seu servei premium. Lents com «Zorro» o «Flores de Primavera» combinen realitat augmentada i generació d’imatge en temps real. L’objectiu és diferenciar-se d’Instagram i TikTok amb experiències creatives i immersives.
Roblox llança Cube 3D, un model de codi obert que genera objectes 3D a partir de descripcions de text. Inspirat en els models de llenguatge, pot crear figures detallades en minuts. És un pas per fer més fàcil i ràpida la creació dins la plataforma, afavorint la creativitat dels usuaris.
Endless és una plataforma tot-en-un que reuneix eines d’IA per transcriure àudio, generar text, crear imatges, traduir idiomes i més. Té una interfície intuïtiva, molt personalitzable i amb preu assequible. No és ideal per automatitzacions avançades, però simplifica molt la feina creativa.
[Aquest article d’Algoritme Transparent #77 està publicat originàriament en espanyol i traduït a l’anglès, francès i italià.]
Nvidia aposta per la IA en robots humanoides i superordinadors
OpenAI signa un acord d’11.000 milions de dòlars amb CoreWeave, mentre Microsoft contraataca amb MAI i Mustafa Suleyman
La IA predomina en un congrés que ja supera els 100.000 assistents i atrau talent jove. Xiaomi i Samsung llancen nous mòbils mentre la gamma mitjana lidera les novetats
Apple porta Apple Intelligence a Vision Pro i Google ofereix Gemini Code Assist gratis per a desenvolupadors