متا مدل هوش مصنوعی LLaMA را معرفی کرد تا به پیشرفت چت‌بات‌ها کمک کند

- 7 اسفند 1401

عکس : متا مدل هوش مصنوعی LLaMA را معرفی کرد تا به پیشرفت چت‌بات‌ها کمک کند

بارانی از چت‌بات می‌بارد! در این هفته‌ها پس از اینکه ChatGPT چت‌بات شرکت OpenAI انقلابی به پا کرد، گوگل از BARD رونمایی کرد و چندین شرکت دیگر نیز از آن پیروی کردند. اکنون به نظر می‌رسد که غول رسانه‌های اجتماعی متا نیز در حال آماده شدن برای معرفی محصولی حتی قوی‌تر نسبت به همتایان خود است. متا ابزار تحقیقاتی جدیدی را معرفی کرده است که در اصل به ساخت چت‌بات‌های مبتنی بر هوش مصنوعی کمک شایانی می‌کند. این شرکت به صورت عمومی مدل زبان بزرگ خود با نام LLaMA را منتشر کرده است. طبق انتشار رسمی، LLaMA یک مدل زبان پایه پیشرفته است که برای کمک به محققان هوش مصنوعی توسعه یافته است. این شرکت اخیراً تا حد زیادی از صحبت‌های پیرامون چت‌بات‌های هوش مصنوعی غایب بود. در حالی که متا یکی از اولین شرکت‌هایی بود که چت‌بات‌های خود را منتشر کرد و به دلیل نتایج نادرست و پاسخ‌های کوتاه، آن‌ها را کنار گذاشت. با LLaMa، متا به نظر می‌رسد خود را به رقابت بازگردانده است. این سومین مدل زبان بزرگ متا پس از Glactica و Blender Bot 3 است که به خاطر ارائه نتایج نادرست متوقف شدند.

مدل زبان بزرگ (LLM) چیست؟

مدل‌های زبان بزرگ یا LLM سیستم‌های هوش مصنوعی هستند که حجم عظیمی از متون دیجیتالی را از منابع اینترنتی مانند مقاله‌ها، گزارش‌های خبری و پست‌های رسانه‌های اجتماعی مصرف می‌کنند. از این متون دیجیتالی برای آموزش نرم افزاری استفاده می‌شود که بر اساس درخواست‌ها و پرس‌وجوها، محتوا را پیش‌بینی و تولید می‌کند. این مدل‌ها می‌توانند در کارهایی مانند نوشتن مقاله، نوشتن پست‌های رسانه‌های اجتماعی، پیشنهاد کد برنامه‌نویسی و ایجاد مکالمات چت بات کمک کنند.

LLaMA چیست؟

LLaMA اساساً یک چت‌بات نیست. این یک ابزار تحقیقاتی است که به گفته متا، احتمالاً مشکلات مربوط به مدل‌های زبان هوش مصنوعی را حل خواهد کرد. متا در وبلاگ رسمی خود گفت: «مدل‌های کارآمدتر مانند LLaMA جامعه تحقیقات هوش مصنوعی را که به زیرساخت قدرتمند دسترسی ندارند، قادر می‌سازد تا مدل‌ها را آموزش دهندو دسترسی بیشتر به این حوزه مهم را مردمی‌تر کنند.» متا گفته است که مدل‌های خود را با تریلیون‌ها توکن آموزش می‌دهد و ادعا می‌کند که آموزش مدل‌های پیشرفته آن با استفاده از مجموعه داده‌های عمومی امکان پذیر است و بر مجموعه داده‌های اختصاصی و غیرقابل دسترسی این شرکت تکیه نمی‌کند.

چرا LLaMA متفاوت است؟

به گفته متا، آموزش مدل‌های بنیادی مانند LLaMA ایده‌آل است زیرا به قدرت محاسباتی و منابع بسیار پایینی برای آزمایش، اعتبارسنجی و کشف موارد استفاده جدید نیاز دارند. مدل‌های زبان بنیادی برای آموزش حجم بزرگی از داده‌ها که بدون برچسب هستند، شناخته شده‌اند و این باعث می‌شود آن‌ها را برای سفارشی‌سازی بر اساس وظایف مختلف ایده‌آل کنند. متا گفته است که LLaMA را در مقیاس‌های 7B، 13B، 33B و 65B ارائه خواهد کرد. متا در مقاله تحقیقاتی خود اشاره کرد که LLaMA-13B از GPT-3 OpenAI (175B) در بیشتر بنچمارک‌ها بهتر عمل کرده است و LLaMA-65B با بهترین مدل‌ها، Chinchilla70B DeepMind و PaLM-540B Google رقابت می‌کند. LLaMA-13B می‌تواند برای کسب‌وکارهای کوچکی که مشتاق اجرای آزمایش‌ها بر روی این سیستم‌ها هستند، موهبتی باشد، با این حال، ممکن است هنوز از پژوهشگرانی که به تنهایی کار می‌کنند دور باشد. LLaMA در حال حاضر در هیچ یک از محصولات متا استفاده نمی‌شود، با این حال، این شرکت برنامه هایی برای در دسترس قرار دادن آن در اختیار محققان دارد. این شرکت قبلا LLM OPT-175B خود را راه اندازی کرده بود اما LLaMA سیستم پیشرفته‌تر آن است. متا همچنین کد سورس مدل LLaMA را در دسترس افراد دیگر قرار داده است تا نحوه عملکرد سیستم را ببینند. این به آن‌ها امکان سفارشی‌سازی و همکاری در پروژه‌های مرتبط را می‌دهد.