به گزارش مخاطب 24 به نقل از روابط عمومی همراه اول:گروه MCINext همراه اول در سومین روز برگزاری نمایشگاه بین المللی الکامپ ۱۴۰۳، ضمن رونمایی تعدادی از مدلهای زبانی توسعه یافته خود شامل سیلک (با ۱.۳ میلیارد پارامتر)، آهوران (با ۸ میلیارد پارامتر) و آوا (با ۱۳ میلیارد پارامتر) را با حضور آرش امینی، سرپرست تحقیق و توسعه هوش مصنوعی MCINEXT و حامد تهمورسی، مدیر ارشد فناوری MCINEXT در سالن خلیج فارس نمایشگاه بین المللی تهران، در نشستی تخصصی کارکردها و ویژگیهای هر یک از آنها را ارائه کرد.
در این نشست، علاوه بر تاکید روی توسعه محصولات مبتنی بر هوش مصنوعی، دستاوردهای این مجموعه از جمله ربات پاسخگو همراه اول و چند مدل زبانی که برای استفاده همگانی در دسترس قرار گرفته اند نیز معرفی شدند.
مدلهای زبانی بزرگ (LLM)، سیستمهای هوش مصنوعی هستند که با تحلیل و یادگیری از حجم زیادی از دادههای متنی، قادر به تولید متن، ترجمه، پاسخ به سوالات و انجام وظایف مختلف زبانی هستند و در حال حاضر نیز با حمایت مرکز تحقیق و توسعه همراه اول توسعه یافته اند.
در ادامه به صورت اجمالی هر یک از مدلهای زبانی بزرگ گروه MCINEXT همراه اول معرفی و ارائه شدند.
*مدل زبانی سیلک (Sialk)
مدل زبانی سیلک که از پایه (from scratch) با مجموعه دادگان فارسی در این شرکت آموزش داده شده است، با وجود تعداد پارامتر نسبتا کم، قابلیت زبانی خوبی را به نمایش میگذارد که با ادامه فرآیند آموزش در آینده، از لحاظ دانش نیز بهتر خواهد شد.
*مدل زبانی آهوران (Ahoran)
مدل آهوران بر پایه مدل چند زبانه Llama۳ شرکت Meta و به صورت آموزش ادامه دار (continual pretraining) بر روی یک مجموعه دادگان فارسی توسعه داده شده است. با توجه به قابلیتهای زیاد مدل پایه، ادامه آموزش، باعث تقویت تولید متن به زبان فارسی شده در حالیکه قابلیتهای دیگر مدل تا حد زیادی حفظ شده است.
کاربردهای تجاری این مدلها بسیار گسترده و نظیر تولید محتوای متنی خودکار، پشتیبانی مشتریان از طریق چت بات ها، تحلیل احساسات و نظرات کاربران در شبکههای اجتماعی و ایجاد ابزارهای کمکی برای نویسندگان و مترجمان است. این مدلها میتوانند به شرکتها در افزایش بهره وری، کاهش هزینهها و بهبود تجربه مشتری کمک کنند.
*مدل زبانی آوا (Ava)
مدل آوا به منظور پاسخگویی از داخل یک متن داده شده (context) و بر پایه مدل aya از شرکت cohere توسعه داده شده است.
بر خلاف دو مدل قبلی که جوابگوی سوالات کلی هستند، این مدل نیازمند ارائه اطلاعات اولیه برای پاسخگویی است (RAG) و تا حد امکان از ارائه اطلاعات استفاده شده در حین آموزش پرهیز میکند؛ استفاده اصلی این مدل در رباتهای پاسخگوی خاص منظوره است.
علاوه بر آموزش این مدل ها، تلاش شده است تا به کمک روشهای همترازسازی (RLHF و DPO) از تولید محتوای آسیب زا جلوگیری شود.