టెన్సెంట్ హునివాన్ వీడియో-ఫోలే AI వీడియోకు లైఫ్ లైక్ ఆడియోను తెస్తుంది

టెన్సెంట్ యొక్క హునివాన్ ల్యాబ్‌లోని ఒక బృందం కొత్త AI ని సృష్టించింది, ‘హునివాన్ వీడియో-ఫోలే,’ ఇది చివరకు జీవితకాల ఆడియోను ఉత్పత్తి చేసిన వీడియోకు తెస్తుంది. ఇది వీడియోలను వినడానికి మరియు తెరపై చర్యతో సమకాలీకరించే అధిక-నాణ్యత సౌండ్‌ట్రాక్‌ను రూపొందించడానికి రూపొందించబడింది.

ఎప్పుడైనా AI- సృష్టించిన వీడియోను చూశారు మరియు ఏదో తప్పిపోయినట్లు అనిపించింది? విజువల్స్ అద్భుతమైనవి కావచ్చు, కానీ అవి తరచూ వింత నిశ్శబ్దం కలిగి ఉంటాయి, అది స్పెల్‌ను విచ్ఛిన్నం చేస్తుంది. చిత్ర పరిశ్రమలో, ఆ నిశ్శబ్దం నింపే ధ్వని – ఆకుల రస్టల్, థండర్ యొక్క చప్పట్లు, ఒక గాజు యొక్క క్లింక్ – ఫోలే ఆర్ట్ అని పిలుస్తారు మరియు ఇది నిపుణులు చేసే శ్రమతో కూడిన క్రాఫ్ట్.

ఆ స్థాయి వివరాలతో సరిపోలడం AI కి భారీ సవాలు. కొన్నేళ్లుగా, స్వయంచాలక వ్యవస్థలు వీడియోల కోసం నమ్మదగిన శబ్దాలను సృష్టించడానికి చాలా కష్టపడ్డాయి.

వీడియో సమస్య కోసం టెన్సెంట్ AI- సృష్టించిన ఆడియోను ఎలా పరిష్కరిస్తుంది?

వీడియో-టు-ఆడియో (వి 2 ఎ) నమూనాలు తరచుగా సౌండ్ డిపార్ట్‌మెంట్‌లో తగ్గడానికి అతిపెద్ద కారణాలలో ఒకటి పరిశోధకులు “మోడలిటీ అసమతుల్యత” అని పిలుస్తారు. ముఖ్యంగా, AI అసలు వీడియోను చూడటం కంటే ఇచ్చిన టెక్స్ట్ ప్రాంప్ట్‌లను ఎక్కువగా వింటుంది.

ఉదాహరణకు, మీరు ఒక మోడల్ ఒక బిజీగా ఉన్న బీచ్ యొక్క వీడియోను ఇస్తే, ప్రజలు నడక మరియు సీగల్స్ ఎగురుతూ, కానీ టెక్స్ట్ ప్రాంప్ట్ “సముద్రపు తరంగాల శబ్దం” మాత్రమే చెప్పింది, మీరు తరంగాల శబ్దాన్ని పొందుతారు. AI ఇసుకలోని అడుగుజాడలను మరియు పక్షుల పిలుపులను పూర్తిగా విస్మరిస్తుంది, దృశ్యం ప్రాణములేనిదిగా అనిపిస్తుంది.

ఆ పైన, ఆడియో యొక్క నాణ్యత తరచుగా సబ్‌పార్, మరియు మోడళ్లకు సమర్థవంతంగా శిక్షణ ఇవ్వడానికి ధ్వనితో తగినంత అధిక-నాణ్యత వీడియో లేదు.

టెన్సెంట్ యొక్క హునివాన్ బృందం ఈ సమస్యలను మూడు వేర్వేరు కోణాల నుండి పరిష్కరించింది:

టెన్సెంట్ AI కి మెరుగైన విద్య అవసరమని గ్రహించింది, కాబట్టి వారు నేర్చుకోవటానికి వీడియో, ఆడియో మరియు వచన వివరణల యొక్క భారీ, 100,000 గంటల లైబ్రరీని నిర్మించారు. వారు స్వయంచాలక పైప్‌లైన్‌ను సృష్టించారు, ఇది ఇంటర్నెట్ నుండి తక్కువ-నాణ్యత కంటెంట్‌ను ఫిల్టర్ చేసింది, దీర్ఘ నిశ్శబ్దాలు లేదా సంపీడన, మసక ఆడియోతో క్లిప్‌లను వదిలించుకోవడం, సాధ్యమైనంత ఉత్తమమైన పదార్థం నుండి నేర్చుకున్న AI ని నిర్ధారిస్తుంది.

వారు AI కోసం తెలివిగల నిర్మాణాన్ని రూపొందించారు. సరిగ్గా మల్టీ టాస్క్ కోసం మోడల్‌ను బోధించడం వంటివి ఆలోచించండి. ఈ వ్యవస్థ మొదట విజువల్-ఆడియో లింక్‌పై చాలా శ్రద్ధ వహిస్తుంది, సమయాన్ని సరిగ్గా పొందడానికి-ఒక అడుగుజాడ యొక్క బొటనవేలుతో సరిపోలడం వంటిది, షూ పేవ్‌మెంట్‌ను తాకిన ఖచ్చితమైన క్షణం వరకు. ఆ టైమింగ్ లాక్ చేయబడిన తర్వాత, అది సన్నివేశం యొక్క మొత్తం మానసిక స్థితి మరియు సందర్భాన్ని అర్థం చేసుకోవడానికి టెక్స్ట్ ప్రాంప్ట్‌ను కలిగి ఉంటుంది. ఈ ద్వంద్వ విధానం వీడియో యొక్క నిర్దిష్ట వివరాలను ఎప్పుడూ పట్టించుకోదని నిర్ధారిస్తుంది.

ధ్వని అధిక-నాణ్యత అని హామీ ఇవ్వడానికి, వారు ప్రాతినిధ్య అలైన్‌మెంట్ (REPA) అనే శిక్షణా వ్యూహాన్ని ఉపయోగించారు. ఇది నిపుణులైన ఆడియో ఇంజనీర్ దాని శిక్షణ సమయంలో AI భుజం వైపు నిరంతరం చూడటం లాంటిది. ఇది AI యొక్క పనిని ముందే శిక్షణ పొందిన, ప్రొఫెషనల్-గ్రేడ్ ఆడియో మోడల్ నుండి లక్షణాలతో పోల్చింది, క్లీనర్, ధనిక మరియు మరింత స్థిరమైన ధ్వనిని ఉత్పత్తి చేసే దిశగా మార్గనిర్దేశం చేస్తుంది.

ఈ రోజు మనం అధిక-విశ్వసనీయ ఆడియోను ఉత్పత్తి చేయడానికి మా కొత్త ఎండ్-టు-ఎండ్ టెక్స్ట్-వీడియో-టు-ఆడియో (టీవీ 2 ఎ) ఫ్రేమ్‌వర్క్ అయిన హునియున్విడియో-ఫోలే యొక్క ఓపెన్ సోర్స్ విడుదలను ప్రకటిస్తున్నాము.

ఈ సాధనం ప్రొఫెషనల్-గ్రేడ్‌ను ఉత్పత్తి చేయడానికి వీడియో ప్రొడక్షన్, ఫిల్మ్ మేకింగ్ మరియు గేమ్ డెవలప్‌మెంట్‌లో సృష్టికర్తలకు అధికారం ఇస్తుంది… pic.twitter.com/mff2m5xfvc

– హునివాన్ (intencenthunyuan) ఆగస్టు 28, 2025

ఫలితాలు మాట్లాడండి తమ కోసం ధ్వని

టెన్సెంట్ ఇతర ప్రముఖ AI మోడళ్లకు వ్యతిరేకంగా హునివాన్ వీడియో-ఫోలీని పరీక్షించినప్పుడు, ఆడియో ఫలితాలు స్పష్టంగా ఉన్నాయి. కంప్యూటర్ ఆధారిత కొలమానాలు మెరుగ్గా ఉన్నాయని కాదు; మానవ శ్రోతలు దాని అవుట్‌పుట్‌ను అధిక నాణ్యతగా, వీడియోతో సరిపోలడం మరియు మరింత ఖచ్చితంగా సమయం ముగిసినట్లు స్థిరంగా రేట్ చేశారు.

బోర్డు అంతటా, కంటెంట్ మరియు టైమింగ్ పరంగా, ఆన్-స్క్రీన్ చర్యతో ధ్వనిని సరిపోల్చడంలో AI మెరుగుదలలను అందించింది. బహుళ మూల్యాంకన డేటాసెట్లలోని ఫలితాలు దీనికి మద్దతు ఇస్తాయి:

ఇతర ప్రముఖ AI మోడళ్లకు వ్యతిరేకంగా టెన్సెంట్ హునివాన్ వీడియో-ఫోలే యొక్క మూల్యాంకనం ఫలితాలు.

టెన్సెంట్ యొక్క పని నిశ్శబ్ద AI వీడియోలు మరియు నాణ్యమైన ఆడియోతో లీనమయ్యే వీక్షణ అనుభవాన్ని మూసివేయడానికి సహాయపడుతుంది. ఇది ఫోలే ఆర్ట్ యొక్క మాయాజాలం స్వయంచాలక కంటెంట్ సృష్టి ప్రపంచానికి తీసుకువస్తోంది, ఇది ప్రతిచోటా చిత్రనిర్మాతలు, యానిమేటర్లు మరియు సృష్టికర్తలకు శక్తివంతమైన సామర్ధ్యం కావచ్చు.

ఇవి కూడా చూడండి: Google vids కి AI అవతారాలు మరియు ఇమేజ్-టు-వీడియో సాధనాలు

AI & బిగ్ డేటా ఎక్స్‌పో ఈవెంట్ సిరీస్ కోసం బ్యానర్.

పరిశ్రమ నాయకుల నుండి AI మరియు పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? తనిఖీ చేయండి AI & పెద్ద డేటా ఎక్స్‌పో ఆమ్స్టర్డామ్, కాలిఫోర్నియా మరియు లండన్లలో జరుగుతోంది. సమగ్ర సంఘటన భాగం టెక్ఎక్స్ మరియు ఇతర ప్రముఖ సాంకేతిక సంఘటనలతో సహ-ఉంచబడింది, క్లిక్ చేయండి ఇక్కడ మరింత సమాచారం కోసం.

AI న్యూస్ ద్వారా ఆధారితం టెక్ఫోర్జ్ మీడియా. రాబోయే ఇతర ఎంటర్ప్రైజ్ టెక్నాలజీ ఈవెంట్‌లు మరియు వెబ్‌నార్లను అన్వేషించండి ఇక్కడ.

Source link

Useful _Links

AI యొక్క పేలవమైన అమలు శ్రామిక శక్తి తగ్గింపు వెనుక ఉండవచ్చు

ఫైనాన్స్ వర్క్‌ఫ్లోల కోసం ఏజెంట్ AIని అప్‌గ్రేడ్ చేస్తోంది

గోల్డ్‌మన్ సాచ్స్ మరియు డ్యుయిష్ బ్యాంక్ ట్రేడింగ్‌లో ఏజెంట్ AIని పరీక్షించాయి

ASML యొక్క అధిక-NA EUV సాధనాలు తదుపరి తరం AI చిప్‌ల కోసం రన్‌వేని క్లియర్ చేస్తాయి

రియల్ టైమ్ 5G నెట్‌వర్క్ స్లైసింగ్ కోసం Nokia మరియు AWS పైలట్ AI ఆటోమేషన్

క్లాడ్ ‘పారిశ్రామిక స్థాయి’ AI మోడల్ స్వేదనం ఎదుర్కొంటుంది

డిస్‌కనెక్ట్ చేయబడిన క్లౌడ్‌లు AI డేటా గవర్నెన్స్‌ని ఎలా మెరుగుపరుస్తాయి

తక్షణ వ్యాపారం ROI కోసం ఏజెంట్ ఫైనాన్స్ AIని అమలు చేస్తోంది

Basware నుండి Agentic AI ప్రారంభం మాత్రమే

మీ బ్యాంక్‌ను నడుపుతున్న 60 ఏళ్ల నాటి కోడ్ దాని AI సరిపోలికను అందుకుంది

టెన్సెంట్ హునివాన్ వీడియో-ఫోలే AI వీడియోకు లైఫ్ లైక్ ఆడియోను తెస్తుంది

వీడియో సమస్య కోసం టెన్సెంట్ AI- సృష్టించిన ఆడియోను ఎలా పరిష్కరిస్తుంది?

ఫలితాలు మాట్లాడండి తమ కోసం ధ్వని

Leave a Reply Cancel reply

Useful Links

వీడియో సమస్య కోసం టెన్సెంట్ AI- సృష్టించిన ఆడియోను ఎలా పరిష్కరిస్తుంది?

ఫలితాలు మాట్లాడండి తమ కోసం ధ్వని

Leave a Reply Cancel reply

Related News

Useful _Links