شرکت متا در پست وبلاگ خود نوشته است SeamlessM۴T که مخفف عبارت Massively Multilingual and Multimodal Machine Translation و به معنی « ترجمه ماشینی انبوه چندزبانه و چندوجهی » است، میتواند برای عملکردهای گفتار به گفتار و متن به گفتار، ۱۰۰ زبان ورودی را تشخیص دهد و آنها را به ۳۵ زبان خروجی تبدیل کند.
تیم تحقیقاتی متا در این پست تاکید میکند که SeamlessM۴T «بهطور قابلتوجهی عملکردهای مربوط به زبانهای دارای منابع کم و متوسط تحت پشتیبانی را بهبود میبخشد» درحالیکه «برای زبانهای با منابع بالا مانند انگلیسی، اسپانیایی و آلمانی عملکرد فوقالعادهای از خود ارائه می کند.»
فعلا کاربران می توانند بهطور رایگان از نسخه دمو این هوش مصنوعی استفاده کنند. مدل متا ابتدا از شما میخواهد صدای خود را ضبط کنید تا سپس بتوانید آن را در لحظه به حداکثر ۳ زبان، ازجمله فارسی ترجمه کنید.
کاربران طی چند بار آزمایش متوجه شدند که ترجمه گفتارهای فارسی به انگلیسی در SeamlessM4T می تواند قابل قبول باشد، اما در عین حال در ترجمه عبارت های انگلیسی به فارسی دقت کمتری دارد.
با این حال، متا توضیح میدهد که SeamlessM4T پیشرفت قابلتوجهی محسوب می شود، زیرا این مدل هوش مصنوعی جدید میتواند کل کار ترجمه را در یک لحظه انجام دهد. این در حالی است که عموما مدلهای ترجمه بزرگ دیگر این کار را با بخش بندی در سیستمهای مختلفی انجام میدهند.
یکی از ویژگیهای جالب SeamlessM4T، توانایی آن در تشخیص زبانهای مختلف است. درواقع، مدل متا هنگامی که کاربر در جمله خود از چند زبان مختلف استفاده میکند، میتواند آنها را تشخیص دهد.
همچنین SeamlessM4T در آزمایشهای خود بهترتیب ۳۷ و ۴۸ درصد نسبت به نویزهای پسزمینه و تغییرات بلندگو بهتر از نسل قبلی خود عمل کرده است. همچنین مانند بسیاری از تلاشهای قبلی این شرکت درزمینه ترجمه مانند Llama 2، این مدل نیز کاملاً منبعباز است.
پیش از این، یک مدل هوش مصنوعی از سوی گوگل ارائه شده بود که گفتار به گفتار بود. ویژگی این مدل این بود که ترجمه را با صدای خود شخص ارائه می کرد.