به گزارش مخاطب۲۴ به نقل از اداره کل ارتباطات و امور بین الملل شرکت مخابرات ایران:مطالعهای که اخیرا توسط موسسه تحقیقاتی Epoch AI در این زمینه انجام شده است، این موضوع را تایید میکند. بر این اساس، پیشبینی میشود که این کمبود داده در فاصله سالهای ۲۰۲۶ تا ۲۰۳۲ اتفاق میافتد و در واقع انعکاسی از یک چالش مهم در حفظ روند سریع پیشرفت و توسعه هوش مصنوعی است. رشد هوش مصنوعی به میزان بسیار وسیع به دادههای متنی تولید شده توسط انسان وابسته بوده است، اما این منبع محدود و متناهی به تدریج در حال کاهش است. در حال حاضر شرکتهایی از جمله اوپن ایآی و گوگل منابع داده با کیفیت بالا مانند محتوای Reddit و رسانههای خبری را خریداری میکنند تا بتوانند روند آموزش الگوهای هوش مصنوعی خود را حفظ کنند. با این حال کمبود دادههای جدید ممکن است به زودی این شرکتها را مجبور به استفاده از دادههای خصوصی حساس یا دادههای ساختگی کند که کمتر قابل اعتماد خواهند بود.
در حقیقت بررسی اخیر موسسه Epoch AI تاکید میکند که ممکن است مقیاس و درجهبندی الگوهای هوش مصنوعی که به قدرت محاسباتی بسیار زیاد و مجموعه دادههای بزرگ نیاز دارند، با کاهش منابع داده غیرممکن شود. در حالی که روشهای جدید تا حدودی این مشکل را کمتر کردهاند، اما نیاز اساسی به دادههای با کیفیت تولید شده توسط انسان همچنان وجود دارد. برخی از کارشناسان و متخصصان پیشنهاد میکنند که برای رفع این معضل به جای الگوهای هوش مصنوعی بزرگتر، تمرکز روی الگوهای تخصصی باشد. توسعهدهندگان هوش مصنوعی در واکنش به این چالشها، در حال بررسی روشهای جایگزینی از جمله تولید دادههای مصنوعی و ساختگی هستند. با این حال، اما نگرانیها در مورد کیفیت و کارآیی چنین دادههایی همچنان ادامه خواهد داشت و پیچیدگی روند حفظ پیشرفتهای هوش مصنوعی، در مواجهه با منابع زبانی طبیعی و محدود را برجسته میکند.
این بررسیها نشان میدهد که کل موجودی موثر دادههای متنی عمومی تولید شده توسط انسان چیزی در حدود ۳۰۰ تریلیون توکن است که با فاصله اطمینان ۹۰ درصدی از ۱۰۰ تا هزار توکن تخمین زده میشود. البته این تخمین فقط شامل دادههایی است که به اندازه کافی کیفیت بالایی دارند تا برای آموزش الگوهای هوش مصنوعی مورد استفاده قرار بگیرند و امکان بهکارگیری در مدلهای آموزشی در دورههای مختلف را فراهم میآورند.
با توجه به برآوردهای انجام شده در این تحقیقات، پیشبینی میشود که چه زمانی این دادهها بهطور کامل مورد استفاده قرار میگیرند. به این ترتیب مشخص شد با فاصله اطمینان ۸۰درصدی، میتوان به سادگی گفت که ذخیره دادههای باکیفیت در دسترس عموم و تولید شده توسط انسان، در مقطع زمانی بین سالهای ۲۰۲۶ تا ۲۰۳۲ بهطور کامل مورد استفاده قرار میگیرد و به پایان میرسد. با این حال، اما زمان دقیقی که این دادهها بهطور کامل مورد استفاده قرار میگیرند، تا حد زیادی به نحوه و شکل مقیاسبندی الگوهای هوش مصنوعی و روند رشد آنها بستگی دارد. اگر این الگوهای هوش مصنوعی بهطور بهینهای آموزش داده شوند، احتمال آن وجود دارد که تا سال ۲۰۲۸ دادههای کافی برای آموزش آنها وجود داشته باشد. اما واقعیت انکارناپذیری که وجود دارد، آن است که الگوهای هوش مصنوعی اخیر مانند Llama ۳ متعلق به شرکت متا، اغلب با پارامترهای کمتر و در مقابل، دادههای بیشتر آن هم بیش از حد آموزش داده میشوند تا در هنگام انجام فرآیند نتیجهگیری بتوانند کارآیی بیشتر از نظر محاسباتی داشته باشند.