با وجود هیاهوی فراوان، عوامل هوش مصنوعی (AI Agents) هنوز برای جایگزینی کامل مشاغل دانشمحور آماده نیستند. یک معیار جدید و واقعگرایانه نشان میدهد بهترین مدلهای هوش مصنوعی در انجام وظایف واقعی شغلی، عملکردی ضعیفتر از ۲۵٪ دارند. این یافته، پیشبینی دو سال پیش ساتیا نادلا، مدیرعامل مایکروسافت، را با چالشی جدی مواجه میکند.

چرا بهترین مدلهای AI شکست خوردند؟
تقریباً دو سال پیش، جهان با پیشبینی جسورانه ساتیا نادلا مبنی بر جایگزینی مشاغل یقه سفید توسط هوش مصنوعی به لرزه درآمد.اما اکنون، تحقیقات جدید از شرکت Mercor با ارائه معیاری به نام Apex-Agents، تصویری متفاوت و واقعبینانهتر را به نمایش میگذارد. این معیار، برخلاف آزمونهای قبلی، هوش مصنوعی را در محیطی شبیهسازیشده و کاملاً واقعی قرار میدهد؛ جایی که عامل هوش مصنوعی باید وظایفی پیچیده در حوزههای حقوق، مشاوره و بانکداری سرمایهگذاری را با استفاده از ابزارهای روزمره مانند Slack، گوگل درایو و پایگاههای داده مختلف انجام دهد.
نتیجه تکاندهنده بود: حتی پیشرفتهترین مدلها نیز در بیش از ۷۵٪ موارد شکست خوردند.
به گفته برندن فودی، مدیرعامل Mercor: «شغل واقعی ما اینگونه نیست که یک نفر تمام اطلاعات را در یک جا به ما بدهد. در زندگی واقعی، شما همزمان در Slack، گوگل درایو و ابزارهای دیگر کار میکنید.»
این دقیقاً پاشنه آشیل هوش مصنوعی فعلی است: ضعف در استدلال چند دامنهای (Multi-domain reasoning). مدلها در ردیابی، ترکیب و تحلیل اطلاعات از منابع پراکنده ناتوان هستند.

تجربه ما در هوش روز: از دستیار تا جایگزین، فاصلهای طولانی
بهعنوان خبرنگار فناوری در سایت خبری هوش روز، ما روزانه ابزارهای هوش مصنوعی مختلفی را تست میکنیم. طبق تجربه من، این ابزارها برای وظایف منفرد و مشخص (مانند خلاصهسازی یک متن یا نوشتن یک ایمیل ساده) عالی هستند. اما وقتی کار نیاز به ترکیب اطلاعات از چند منبع (مثلاً تحلیل یک گزارش مالی بر اساس دادههای موجود در چند فایل اکسل و ایمیلهای دریافتی) دارد، دچار سردرگمی میشوند. این دقیقاً همان مشکلی است که معیار Apex-Agents به آن اشاره دارد.

جدول عملکرد مدلهای پیشرو در معیار Apex-Agents
| مدل هوش مصنوعی (مثال) | دقت در معیار Apex-Agents | علت اصلی ضعف |
|---|---|---|
| Gemini 3 Flash (پیشبینی شده) | کمتر از ۲۵٪ | ناتوانی در ترکیب اطلاعات از چند پلتفرم |
| GPT-5.2 (پیشبینی شده) | حدود ۲۵٪
|
ضعف در درک زمینه پیچیده و چندوجهی |
| سایر مدلهای Agentic AI | کمتر از ۲۰٪
|
شکست در وظایف چندمرحلهای و طولانی |

آینده هوش مصنوعی در محیط کار چگونه خواهد بود؟
شکست در معیار Apex-Agents به معنای بیفایده بودن هوش مصنوعی نیست؛ بلکه نشاندهنده مسیر پیش روی این فناوری است. نظر شخصی من این است که ما در حال حاضر در عصر «هوش مصنوعی دستیار» (AI Assistant) هستیم، نه «هوش مصنوعی جایگزین» (AI Replacement).
این عوامل میتوانند بهرهوری را به شدت افزایش دهند، کارهای تکراری را حذف کنند و به متخصصان کمک کنند تا روی بخشهای خلاقانه و استراتژیک کار خود تمرکز کنند. اما رؤیای یک کارمند دیجیتال کاملاً مستقل که بتواند وظایف یک وکیل یا بانکدار را بدون نقص انجام دهد، هنوز یک هدف دور از دسترس است.
سایت اخبار هوش مصنوعی هوش روز به رصد دقیق این تحولات ادامه خواهد داد تا شما را در جریان آخرین اخبار جدید هوش مصنوعی قرار دهد. این یک ماراتن است، نه یک دوی سرعت.
سوالات متداول
آنها در “استدلال چند دامنهای” ضعف دارند؛ یعنی نمیتوانند اطلاعات را از ابزارهای مختلف مانند Slack و گوگل درایو بهطور همزمان ترکیب و تحلیل کنند.
خیر. طبق معیار جدید Apex-Agents، بهترین مدلها نیز دقت زیر ۲۵٪ دارند. هوش مصنوعی در حال حاضر یک دستیار قدرتمند است، نه یک جایگزین کامل.
این یک آزمون شبیهساز واقعگرایانه است که توانایی هوش مصنوعی برای انجام وظایف پیچیده شغلی با استفاده همزمان از چندین ابزار نرمافزاری را میسنجد.
از نگاه ما در هوش روز، ما در عصر «هوش مصنوعی دستیار» هستیم. این ابزارها بهرهوری را متحول میکنند اما تا جایگزینی کامل نیروی انسانی فاصله زیادی دارند.