La plataforma de vídeo curta xinesa Kuaishou ha afegit una funció de generació d’àudio a Kling 2.1, la seva eina de creació de vídeo amb II, que permet als usuaris produir clips amb efectes de so sincronitzats com ara passos, precipitacions i soroll ambient.
La funció, que es va llançar tranquil·lament la setmana passada, està disponible en el mode Image a Video de Kling, on els usuaris pengen una imatge fixa i la plataforma la anima tant amb moviment com amb àudio generat per la intel·ligència artificial.
El moment de la sincronització de Kling contra el veo 3 de Google, que es va llançar amb capacitats d’àudio integrades des del primer dia.
Els primers usuaris de X elogiaven la sincronització audiovisual perfecta de Kling, amb el creador Roberto Nickson anomenant-lo “un dels models més útils del mercat” per produir contingut de vídeo generatiu.
La funció és gratuïta durant el llançament inicial, accessible a través del lloc web de Kling i de l’aplicació mòbil.
Kling 2.1 Un dels models més útils del mercat
– Roberto Nickson (@rpnickson) 12 de juny de 2025
Kling 2.1 genera clips de 5 a 10 segons a una resolució de fins a 1080p, utilitzant el que la companyia descriu com a “mecanismes d’atenció espatiotemporal 3D” per sincronitzar els sons amb visuals.
L’eina d’àudio actualment genera efectes de so només —no diàleg ni música— i produeix una cosa similar a l’àudio del llenguatge del sud -est asiàtic quan hi ha text, molt tonal i completament inintel·ligible. Però això no és suficient per coronar Google com el rei indiscutible del vídeo generatiu.
Hem provat les noves funcions d’àudio de Kling 2.1 contra el veo 3 de Google per veure com s’acumula l’avantguarda.
El preu de la creació
La bretxa de preus entre les dues plataformes resulta massiu.
La funció d’àudio de Kling 2.1 només és compatible amb la versió estàndard, no la màxima edició de gamma alta. Tanmateix, a les tarifes actuals, els usuaris poden generar més de 20 vídeos a Kling per a cada creació de Veo 3.
Per exemple, mitjançant el sistema de crèdit de FreePik, una generació amb Google Veo 3 està actualment a la venda per 4.000 crèdits (amb el preu normal de 8.000 crèdits per vídeo), mentre que Kling 2,1 costa 300 crèdits per vídeo.

El model de Google s’executa exclusivament a través de la seva subscripció Ultra de 250 dòlars per mes. Kling està disponible al seu lloc oficial, oferint algunes generacions gratuïtes, amb subscripcions a partir d’uns 9 dòlars al mes.
Fins i tot amb els preus promocionals actuals de Google, Veo 3 continua sent deu vegades més car que Kling.
Per als creadors que coneixen la generació de vídeo implica una gran quantitat d’assaigs i errors, amb taxes de fracàs que frustren fins i tot els usuaris dels pacients, l’economia de Kling fa que l’experimentació sigui factible.
El pla premium de Kling desbloqueja la resolució 1080p, millorant la qualitat global del vídeo mantenint l’avantatge de costos.
Capacitats d’àudio
Però obteniu el que pagueu. Veo 3 ofereix una generació de so sofisticada, sintetitzant amb precisió la parla i coincideix amb elements d’àudio complexos a escenes visuals.
La seva comprensió de l’àudio espacial i els sons contextuals va superar les ofertes de Kling per un ampli marge.
Si bé Kling 2.1 no pot competir, en equitat, tenia com a objectiu alguna cosa diferent: sons ambientals i efectes de fons: no hi ha diàleg, ni música. Així que oblideu -vos de les entrevistes virals del carrer AI per ara. Intents de generar l’àudio produeixen discursos.
No obstant això, per a escenes o vídeos que requereixen àudio atmosfèric, els seus resultats eren útils.
2. Un SUV tot terreny es dirigeix a través del terreny forestal rocós, fangós i humit.
Sentiu la crisi, el splash, el gruix del motor. Se sentia com un autèntic rodatge. pic.twitter.com/s0gvhcaqjk
– Zoya ✪ (@zoya_ai) 12 de juny de 2025
La nova capacitat de la plataforma per afegir efectes als vídeos silenciosos existents li dóna un avantatge que Veo 3 no va poder coincidir.
Els usuaris poden penjar vídeos acabats i restablir -los amb paisatges sonors adequats, un flux de treball que el model de Google no admet. Estranyament, Veo pot crear vídeos, però no els pot editar.
A més de la possibilitat de crear sons per a vídeos silenciosos, Kling també ofereix una funció de sincronització de llavis.
Els usuaris poden penjar una foto i un discurs o un diàleg per separat, i el model farà un vídeo en què els subjectes interactuin de manera natural, com si es parlessin entre ells segons l’àudio penjat.
[Kling ai (@kling_ai)]actualització de sincronització de llavis !! 📢
S’ha afegit una funció d’edició de sincronització de llavis que us permet seleccionar els caràcters que apareixen al vídeo, seleccioneu quina persona parla i ajusta el calendari de l’àudio. … pic.twitter.com/brvguoglks– Seiiiru😈video
La proporció de vint-i-un generació va significar que els creadors poden experimentar amb diferents enfocaments d’àudio a Kling, mentre que els usuaris de Veo 3 han de clavar el seu disseny de so en menys intents.
Per als aficionats i aquells que aprenen vídeo generatiu, l’enfocament de Kling ofereix més espai per a proves i errors.
Però els creadors professionals que necessiten una sincronització i un diàleg audiovisuals precisos trobaran el sofisticat motor de so de Veo 3 que val la pena.
Qualitat de generació de vídeo
Les proves de qualitat del vídeo van produir resultats inesperats. En una escena de proves amb una dona que fugia d’una aranya gegant, la versió estàndard de Kling 2.1 va superar tant Veo 3 com la seva pròpia edició mestra.
El model estàndard representava amb precisió la dinàmica de l’escena, que presentava moviment fluid i moviment direccional adequat. Veo 3 va generar inexplicablement la dona que es dirigia cap a l’aranya en lloc d’allunyar -la.
L’edició mestra generalment produeix visuals més nítids i més nítids, però la versió estàndard va demostrar una comprensió de l’escena superior i un moviment més fluid.
Això és estrany, ja que una resolució més elevada s’ha de traduir sempre en millors resultats, però potser el problema es va reduir a problemes de tècnica ràpida o simplement mala sort en la generació.
Dit això, la norma Kling 2.1 amb generacions de 1080p és un model fantàstic que es manté el seu propi contra Google Veo 3 aquí.
Fluxos de treball i limitacions de la plataforma
Les limitacions de la plataforma configuren el flux de treball de cada eina de manera diferent. La funció d’àudio de Kling 2.1 només funciona amb la generació d’imatge a vídeo, no de text a vídeo, que continua sent exclusiu de l’edició mestra sense suport d’àudio, sí, això és estrany, però és el que és.
La millor solució és utilitzar Kolors, el generador d’imatges de Kuaishou, per crear fotogrames inicials abans de convertir -los en vídeo amb àudio sincronitzat. Kolors produeix imatges altament realistes que serveixen de punts de partida excel·lents per a la generació de vídeo.
Tanmateix, podríeu trobar que els models com Reve, Midjourney, recaptació, Flux i fins i tot ChatGPT són més fàcils d’indicar.

Veo 3 va adoptar l’enfocament contrari, oferint només la generació de text a vídeo sense cap opció d’imatge a vídeo.
Això obliga els usuaris a confiar completament en enginyeria ràpida, sense cap manera de controlar la visualització inicial.
La decisió de Google també sembla especialment estranya, ja que l’anterior VEO 2 admet en realitat la imatge a vídeo a través de la seva plataforma de flux separada.

La manca de control visual significa que els usuaris han de generar vídeos a cegues, amb l’esperança que les seves indicacions de text produeixin els marcs inicials desitjats.
Enfocaments de moderació de contingut
La moderació del contingut va revelar filosofies contrastades. VEO 3 utilitza filtratge de paraules clau agressiu i controls de post-generació, bloquejant contingut que viola les polítiques de Google.
El sistema indica les indicacions potencialment problemàtiques abans que la generació i les anàlisis realitzessin vídeos per a violacions de polítiques.

Kling aplica més restriccions liberals, permetent contingut que Veo bloquejarà de forma directa.
Tanmateix, les dades de formació del model exclouen de forma natural el contingut explícit: el model genera xifres sense detalls anatòmics i violència sense gore.
Per tant, els usuaris poden generar determinats tipus de contingut que deixen de banda els filtres de paraules clau mantenint els límits de seguretat.

Les dues plataformes reemborsen els crèdits quan la censura de post-generació bloqueja un vídeo, però el toc més lleuger de Kling permet una llibertat més creativa dins dels límits.
Conclusions
Veo 3 podria ser encara el rei, però Kling 2.1 és definitivament a prop d’un populista en una missió d’enderrocar la monarquia.
La seva funció d’àudio és força revolucionària quan considereu que és una eina de 9 dòlars que competeix amb una subscripció de 250 dòlars.
Els sons atmosfèrics funcionen, la pluja sona com la pluja, els passos coincideixen amb el moviment la majoria de les vegades i podeu generar vint intents mentre els usuaris de Veo elaboren amb cura la seva sola oportunitat.
Aquesta funció de retrofit, on afegiu so als vídeos acabats, és una cosa que Google no ofereix, i és realment útil per salvar clips silenciosos.
Les coses semblaran completament diferents si el vostre objectiu principal és la parla. Gibberish de Kling no enganyarà ningú.
Per a aquest tipus de requisits específics, Google Veo 3 és l’opció òbvia i única. El rei està (gairebé) mort. Viu el Kling!
Editat per Josh Quittner i Sebastian Sinclair
