News India Live, Digital Desk: Google ने हाल ही में अपना VEO 3 मॉडल लॉन्च किया है, और अब बारी है चीनी दिग्गज Tencent की। आज, कंपनी ने आधिकारिक तौर पर अपने नए AI मॉडल, HunyuanVideo-Avatar को ओपन-सोर्स किया है, जो उपयोगकर्ताओं को केवल एक फोटो और एक ऑडियो क्लिप के साथ स्थिर छवियों को गतिशील वीडियो में बदलने की सुविधा देता है। इस टूल को Tencent Hunyuan और Tencent Music Entertainment Group ने मिलकर विकसित किया है।
है: यह सिर्फ़ साउंडट्रैक पर सिर हिलाने वाला एक और एनिमेटेड शो नहीं है। हुनयुआनवीडियो-अवतार टोन, भावना और यहां तक कि स्टेज प्रेजेंस को भी समझता है, जो इसे शॉर्ट वीडियो, ई-कॉमर्स कंटेंट, विज्ञापन और कैरेक्टर-आधारित कहानी कहने के लिए आदर्श बनाता है।
यह कैसे काम करता है: अपनी तस्वीर से बात करेंप्रक्रिया सरल है। उपयोगकर्ता एक फोटो और एक वॉयस क्लिप (14 सेकंड तक) अपलोड करते हैं। हुनयुआनवीडियो-अवतार फिर ऑडियो से भावनात्मक स्वर और दृश्य संदर्भ का स्वतः पता लगाता है, और प्रतिक्रिया में एक जीवंत अवतार वीडियो बनाता है।
वर्तमान संस्करण एकल-चरित्र मोड का समर्थन करता है, लेकिन Tencent ने पुष्टि की है कि जल्द ही मल्टी-कैरेक्टर जनरेशन उपलब्ध होगा। यह मॉडल फोटोरियलिस्टिक, कार्टून, 3D और यहां तक कि मानवरूपी पात्रों जैसी विभिन्न शैलियों में काम करता है।
डेवलपर्स ने बताया, “यह सिस्टम किसी भी इनपुट अवतार छवि को सरल ऑडियो स्थितियों के साथ उच्च-गतिशील और भावना-नियंत्रण योग्य वीडियो में एनिमेट करने का समर्थन करता है।” इसमें चेहरे की अभिव्यक्ति, हाव-भाव और यहां तक कि सिंक किए गए होंठ आंदोलन में परिवर्तन भी शामिल हैं।
जहां इसका पहले से उपयोग हो रहा हैTencent Music के अनुसार, यह मॉडल पहले से ही उनके कई मनोरंजन ऐप में चल रहा है। हालाँकि कंपनी ने उन सभी का नाम नहीं बताया, लेकिन मॉडल की आवाज़ के साथ पात्रों को सिंक करने की क्षमता इसे कराओके प्लेटफ़ॉर्म, लाइवस्ट्रीम ऐप और डिजिटल इन्फ़्लुएंसर के लिए स्वाभाविक रूप से उपयुक्त बनाती है।
यह तकनीक भविष्य के अपडेट में मल्टी-कैरेक्टर संवादों का समर्थन करने के लिए भी बनाई गई है, जो कई अभिनेताओं की आवश्यकता के बिना लघु वीडियो स्किट या शैक्षिक सामग्री बनाने के इच्छुक रचनाकारों के लिए एक गेम-चेंजर हो सकता है।
डेवलपर्स के लिए खुला, लेकिन GPU-भूखाहुनयुआनवीडियो-अवतार का सिंगल-कैरेक्टर संस्करण अब आधिकारिक हुनयुआन साइट पर सैंपल वेट और इंफ़रेंस कोड के साथ उपलब्ध है। ओपन-सोर्स प्लान में क्लाउड-नेटिव बिल्ड, लिनक्स सिस्टम, डॉकर कंटेनर और सिंगल और मल्टी-जीपीयू सेटअप दोनों के लिए समर्थन शामिल है।
ऐसा कहा जाता है कि इसे चलाने के लिए आपको एक गंभीर GPU की आवश्यकता होगी। Tencent बेसिक जेनरेशन के लिए कम से कम 24GB VRAM की सलाह देता है, लेकिन सबसे अच्छे परिणाम 80GB GPU के साथ आते हैं। यह CUDA 11.8 और 12.4 दोनों सेटअप को सपोर्ट करता है।
आगे क्या होगा?टीम जल्द ही मल्टी-कैरेक्टर मोड को ओपन-सोर्स करने की योजना बना रही है, जिससे उपयोगकर्ता कई बात करने वाले अवतारों के साथ पूरे दृश्य बना सकेंगे। Tencent ने संकेत दिया है कि इस संस्करण में ऑडियो संकेतों का उपयोग करके पात्रों के बीच फेस-अवेयर मास्किंग और उन्नत भावनात्मक नियंत्रण शामिल होंगे।
You may also like
PM Modi: पीएम मोदी का आज पटना में पांच किमी. लंबा रोड शो, जगह जगह होगा प्रधानमंत्री का स्वागत, तैयारियां पूरी
iPhone 16 Pro Max को टक्कर देने वाले धांसू Android स्मार्टफोन्स: कम कीमत में दमदार फीचर्स
Elon Musk Separated From Donald Trump's Team : डोनाल्ड ट्रंप की टीम से एलन मस्क के अलग होने की आखिर क्या है वजह? क्या दोनों के बीच आ गई दरार?
पेरीफेरी इलाकों में बढ़ी जंगली जानवरों की चहलकदमी! छाण गांव में तेंदुआ दिखने से दहशत, हर पल मौत के साए में जी रहे ग्रामीण
2025 में उद्यम परिवर्तन की अगली लहर को 'एआई एजेंट' बढ़ाएंगे आगे : नैसकॉम