گروهی از پژوهشگران چینی با استفاده از نشانههایی از فعالیت مغزی عصبی، راهی برای تولید مصنوعی گفتار که به عنوان «ترکیب گفتار» نیز شناخته میشود، ابداع کردهاند.
به گزارش رسانه دولتی ساوث چاینا مورنینگ پست، این پژوهشگران چینی ادعا میکنند که یک دستگاه ذهنخوان دارند که قادر است افکار انسان را به گفتار تبدیل کند.
آنها برای رسیدن به این هدف از روشی به نام الکتروکورتیکوگرافی (ECoG) استفاده کردند که برای اندازهگیری سیگنالهای مستقیم مغز از قشر مغز با استفاده از الکترودهایی که در حین جراحی در مغز کاشته میشوند، استفاده میشود.
چالشهای لحن
زبانهای آهنگین از لحن و تلفظ همراه با هم برای انتقال معنا استفاده میکنند. در زبانهایی مانند ماندارین، ویتنامی، پنجابی، تایلندی، لائوسی و کانتونی، کلمهها علاوه بر حروف صدادار و صامت، میتوانند از نظر لحن نیز متفاوت باشند.
پژوهشگران در مقاله خود توضیح دادند: با توجه به اینکه یک هجای آهنگی را میتوان به هجای لحن و پایه که مستقل از یکدیگر هستند، تقسیم کرد، ما یک چارچوب تقسیم و تحلیل را پیشنهاد کردیم. فرض کردیم که لحن و هجای پایه را میتوان جدا از فعالیت عصبی رمزگشایی کرد و سپس گفتار آهنگین را میتوان با استفاده از ترکیب لحن رمزگشایی شده و هجای پایه ترکیب کرد.
نقشهبرداری زبان
این پژوهش شامل پنج شرکت کننده بود که طی عمل جراحی تومور مغزی در چین تحت نقشهبرداری زبان بیدار قرار گرفتند. در طول عمل جراحی، دو الکترود روی سطح جانبی مغز آنها قرار داده شد تا فعالیت عصبی مز آنها را در طول جراحی ثبت کنند.
به شرکتکننده گفته شد که هجای ma را با هشت لحن مختلف پس از شنیدن یک نشانه صوتی بیان کند. هر شرکت کننده 160 آزمایش انجام داد. هجای ma در زبان ماندارین دارای چهار لحن مختلف است که میتواند به ترتیب به معنای مادر، حشیش، اسب و سرزنش باشد.
پژوهشگران برای تولید و شناسایی دقیق لحن و آهنگها در زبانهای آهنگین، الگوریتمهایی را که فعالیتهای عصبی را مشاهده میکنند، تقویت کردند.
ضبط صداها در هماهنگی با ضبطهای ECoG از طریق یک میکروفون نصب شده انجام شد.
طبق این مطالعه، پژوهشگران یک مدل شبکه عصبی ماژولار چند جریانی طراحی کردند که میتواند لحن و هجای پایه را به صورت موازی رمزگشایی کند و سپس با ترکیب خروجیهای ماژولهای لحن و هجا، گفتار را ترکیب کند.
چندین مطالعه اخیر امکان ترکیب جملات کوتاه و چند کلمه خاص در زبانهای غیر آهنگین مانند انگلیسی و ژاپنی را از ضبط عصبی نشان دادهاند. این پیشرفتها نه تنها روشهایی را برای درمان آنارتری(از دست دادن کامل گفتار) ارائه میکنند، بلکه کارایی ارتباطی رابطهای گفتاری مغز و رایانه را نیز افزایش میدهند.
به گفته پژوهشگران، مدل ما برای سایر لهجههای چینی مانند «کانتونی» و «چینی وو» نیز قابل استفاده است.
نتایج این مطالعه در مجله Science Advances منتشر شده است.