भारतीय स्टार्टअप Sarvam AI दुनिया के बड़े टेक नामों को मात देता दिख रहा है। Vision और Bulbul नाम के इसके दो नए AI टूल्स ने OCR और टेक्स्ट-टू-स्पीच जैसे क्षेत्रों में ऐसी परफॉर्मेंस दिखाई है कि गूगल जेमिनी, चैटजीपीटी और क्लाउड जैसे मॉडल्स से इसकी तुलना होने लगी है।
बता दें कि Sarvam AI के को-फाउंडर प्रत्यूष कुमार ने 5 फरवरी को जानकारी दी थी कि Sarvam Vision ने olmOCR-Bench नाम के अंतरराष्ट्रीय बेंचमार्क में सभी प्रमुख AI मॉडल्स को पीछे छोड़ दिया है। यह बेंचमार्क किसी AI की ऑप्टिकल कैरेक्टर रिकग्निशन क्षमता को परखता है, यानी स्कैन डॉक्यूमेंट, हैंडराइटिंग, जटिल फॉन्ट और लेआउट को समझने की योग्यता।
मौजूद जानकारी के अनुसार, Sarvam Vision ने olmOCR-Bench में 84.3 प्रतिशत सटीकता दर्ज की, जबकि OmniDocBench v1.5 में इसका स्कोर 93.28 प्रतिशत रहा। इस दौरान इस मॉडल ने तकनीकी टेबल, गणितीय फॉर्मूले और जटिल दस्तावेज़ संरचनाओं में खास तौर पर बेहतर प्रदर्शन किया है। गौरतलब है कि यह मॉडल खासतौर पर भारतीय भाषाओं और लिपियों पर प्रशिक्षित है, जिसकी वजह से देवनागरी और अन्य क्षेत्रीय स्क्रिप्ट्स में इसकी पकड़ अधिक मज़बूत है।
यही वजह है कि Sarvam Vision भारतीय दस्तावेज़ों, फॉर्म्स और मिश्रित भाषा वाले कंटेंट को बेहतर ढंग से प्रोसेस कर पा रहा है। यह भारतीय कंपनियों के लिए एक किफायती और देशी विकल्प भी बन सकता है, खासकर डॉक्यूमेंट प्रोसेसिंग जैसे कामों में।
इसी तरह Bulbul V3 टेक्स्ट-टू-स्पीच मॉडल ने भी ध्यान खींचा है। बताया जा रहा है कि भारतीय आवाज़ों और उच्चारण के मामले में Bulbul V3 ने ElevenLabs जैसे वैश्विक लीडर को भी बेंचमार्क्स में पीछे छोड़ा है।
हालांकि यहां एक अहम बात समझना ज़रूरी है। Sarvam AI ने चैटजीपीटी और जेमिनी को हर मामले में नहीं पछाड़ा है। यह बढ़त खास और सीमित उपयोगों तक है। चैटजीपीटी और जेमिनी जैसे मॉडल जनरल-पर्पज़ हैं, जो कोडिंग, पढ़ाई, मेडिकल इमेज एनालिसिस या जटिल बातचीत जैसे कई काम कर सकते हैं। Sarvam AI फिलहाल इन क्षेत्रों में प्रतिस्पर्धा नहीं करता।
दरअसल Sarvam Vision जैसे मॉडल आकार में भी छोटे हैं। इसके लगभग 3 बिलियन पैरामीटर्स हैं, जबकि गूगल जेमिनी जैसे मॉडल्स के पैरामीटर्स की संख्या ट्रिलियन में मानी जाती है। बड़े मॉडल्स के लिए भारी कंप्यूटिंग पावर और हजारों GPUs की जरूरत होती है, जो अभी भारत में सीमित है।
इसके बावजूद Sarvam AI की यह उपलब्धि अहम मानी जा रही है। यह दिखाता है कि भारतीय स्टार्टअप्स में तकनीकी क्षमता की कोई कमी नहीं है। चुनौती मुख्य रूप से इंफ्रास्ट्रक्चर और कंप्यूट संसाधनों की है। Vision और Bulbul इस बात का प्रमाण हैं कि सही फोकस और स्थानीय जरूरतों की समझ के साथ भारत भी विश्वस्तरीय AI समाधान विकसित कर सकता है।


