AI స్పీచ్ ట్రాన్స్క్రిప్షన్ సాధనాలు అలీబాబాతో చాలా ఎక్కువ పోటీపడతాయి Qwen QWEN3-ASR-ఫ్లాష్ మోడల్ను ఆవిష్కరించే జట్టు లాగడం.
శక్తివంతమైన Qwen3-omni ఇంటెలిజెన్స్పై నిర్మించబడింది మరియు పదిలక్షల గంటల ప్రసంగ డేటాతో భారీ డేటాసెట్ను ఉపయోగించి శిక్షణ పొందింది, ఇది మరొక AI స్పీచ్ రికగ్నిషన్ మోడల్ కాదు. గమ్మత్తైన శబ్ద వాతావరణాలు లేదా సంక్లిష్టమైన భాషా నమూనాలను ఎదుర్కొన్నప్పుడు కూడా ఇది చాలా ఖచ్చితమైన పనితీరును అందించడానికి రూపొందించబడింది.
కాబట్టి, ఇది పోటీకి వ్యతిరేకంగా ఎలా దొరుకుతుంది? పనితీరు డేటా, ఆగస్టు 2025 లో నిర్వహించిన పరీక్షల నుండి, ఇది చాలా బాగుంది అని సూచిస్తుంది.
ప్రామాణిక చైనీస్ కోసం బహిరంగ పరీక్షలో, QWEN3-ASR-ఫ్లాష్ కేవలం 3.97 శాతం లోపం రేటును సాధించింది, జెమిని -2.5-ప్రో (8.98%) మరియు జిపిటి 4-ట్రాన్స్క్రిబ్ (15.72%) వంటి పోటీదారులను దాని మేల్కొలుపులో వెనుకంజలో ఉంది మరియు మరింత పోటీ AI స్పీచ్ ట్రాన్స్క్రిప్షన్ సాధనాల కోసం వాగ్దానం చూపిస్తుంది.
QWEN3-ASR-ఫ్లాష్ చైనీస్ స్వరాలు నిర్వహించడంలో కూడా ప్రవీణుడు, లోపం రేటు 3.48 శాతం. ఆంగ్లంలో, ఇది పోటీ 3.81 శాతం సాధించింది, మళ్ళీ జెమిని యొక్క 7.63 శాతం మరియు జిపిటి 4 ఓ యొక్క 8.45 శాతం హాయిగా ఓడించింది.
కానీ అది నిజంగా తలలు తిరిగే చోట అపఖ్యాతి పాలైన గమ్మత్తైన ప్రాంతంలో ఉంది: సంగీతాన్ని లిప్యంతరీకరించడం.
పాటల నుండి సాహిత్యాన్ని గుర్తించే పనిలో ఉన్నప్పుడు, QWEN3-ASR-FLASH కేవలం 4.51 శాతం లోపం రేటును పోస్ట్ చేసింది, ఇది దాని ప్రత్యర్థుల కంటే చాలా మంచిది. సంగీతాన్ని అర్థం చేసుకోగల ఈ సామర్థ్యం పూర్తి పాటలపై అంతర్గత పరీక్షలలో ధృవీకరించబడింది, ఇక్కడ ఇది 9.96 శాతం లోపం రేటును సాధించింది; జెమిని -2.5-ప్రో నుండి 32.79 శాతం మరియు జిపిటి 4-ట్రాన్స్క్రిబ్ నుండి 58.59 శాతం కంటే భారీ మెరుగుదల.

దాని ఆకట్టుకునే ఖచ్చితత్వానికి మించి, మోడల్ తరువాతి తరం AI ట్రాన్స్క్రిప్షన్ సాధనాల కోసం కొన్ని వినూత్న లక్షణాలను పట్టికలోకి తెస్తుంది. అతిపెద్ద ఆట-మారేవారిలో ఒకటి దాని సౌకర్యవంతమైన సందర్భోచిత పక్షపాతం.
కీవర్డ్ జాబితాలను శ్రమతో కూడిన ఫార్మాట్ చేసే రోజులను మర్చిపో, ఈ సిస్టమ్ అనుకూలీకరించిన ఫలితాలను పొందడానికి మోడల్ నేపథ్య వచనాన్ని వాస్తవంగా ఏదైనా ఫార్మాట్లో పోషించడానికి వినియోగదారులను అనుమతిస్తుంది. మీరు కీలకపదాలు, మొత్తం పత్రాలు లేదా రెండింటి యొక్క గజిబిజి మిశ్రమాన్ని కూడా అందించవచ్చు.
ఈ ప్రక్రియ సందర్భోచిత సమాచారం యొక్క సంక్లిష్ట ప్రిప్రాసెసింగ్ యొక్క ఏవైనా అవసరాన్ని తొలగిస్తుంది. మోడల్ దాని ఖచ్చితత్వాన్ని పదును పెట్టడానికి సందర్భాన్ని ఉపయోగించుకునేంత స్మార్ట్; ఇంకా మీరు అందించే వచనం పూర్తిగా అసంబద్ధం అయినప్పటికీ దాని సాధారణ పనితీరు ప్రభావితం కాదు.
ఈ AI మోడల్ కోసం అలీబాబా యొక్క ఆశయం గ్లోబల్ స్పీచ్ ట్రాన్స్క్రిప్షన్ సాధనంగా మారడం. ఈ సేవ 11 భాషలను కవర్ చేసే ఒకే మోడల్ నుండి ఖచ్చితమైన ట్రాన్స్క్రిప్షన్ను అందిస్తుంది, ఇది అనేక మాండలికాలు మరియు స్వరాలు తో పూర్తి చేస్తుంది.
చైనీయులకు మద్దతు ముఖ్యంగా లోతైనది, కాంటోనీస్, సిచువానీస్, మిన్నన్ (హోకియన్) మరియు వు వంటి ప్రధాన మాండలికాలతో పాటు మాండరిన్ కవర్ చేస్తుంది.
ఇంగ్లీష్ మాట్లాడేవారి కోసం, ఇది బ్రిటిష్, అమెరికన్ మరియు ఇతర ప్రాంతీయ స్వరాలు నిర్వహిస్తుంది. ఇతర మద్దతు ఉన్న భాషల యొక్క ఆకట్టుకునే జాబితాలో ఫ్రెంచ్, జర్మన్, స్పానిష్, ఇటాలియన్, పోర్చుగీస్, రష్యన్, జపనీస్, కొరియన్ మరియు అరబిక్ ఉన్నాయి.
ఇవన్నీ చుట్టుముట్టడానికి, మోడల్ 11 భాషలలో ఏది మాట్లాడుతుందో ఖచ్చితంగా గుర్తించగలదు మరియు నిశ్శబ్దం లేదా నేపథ్య శబ్దం వంటి ప్రసంగేతర విభాగాలను తిరస్కరించడంలో ప్రవీణుడు, గత AI స్పీచ్ ట్రాన్స్క్రిప్షన్ సాధనాల కంటే క్లీనర్ అవుట్పుట్ను నిర్ధారిస్తుంది.
ఇవి కూడా చూడండి: సిద్ధార్థ చౌదరి, బుకింగ్.కామ్: AI తో ఆన్లైన్ మోసంతో పోరాడుతోంది

పరిశ్రమ నాయకుల నుండి AI మరియు పెద్ద డేటా గురించి మరింత తెలుసుకోవాలనుకుంటున్నారా? తనిఖీ చేయండి AI & పెద్ద డేటా ఎక్స్పో ఆమ్స్టర్డామ్, కాలిఫోర్నియా మరియు లండన్లలో జరుగుతోంది. సమగ్ర సంఘటన భాగం టెక్ఎక్స్ మరియు ఇతర ప్రముఖ సాంకేతిక సంఘటనలతో సహ-ఉంచబడింది, క్లిక్ చేయండి ఇక్కడ మరింత సమాచారం కోసం.
AI న్యూస్ ద్వారా ఆధారితం టెక్ఫోర్జ్ మీడియా. రాబోయే ఇతర ఎంటర్ప్రైజ్ టెక్నాలజీ ఈవెంట్లు మరియు వెబ్నార్లను అన్వేషించండి ఇక్కడ.
.