تنها در یک سال، اتخاذ هوش مصنوعی مولد سازم، انجام شده است تقریبا دو برابر شد، از 33 درصد به 65 درصد. و این فقط به ،وان یک آزمایش جانبی مورد استفاده قرار نمی گیرد: طبق یک مطالعه اخیر مک کینزی، ا،ریت 1400 ،ب و کار مورد بررسی حداقل در یک عملکرد تجاری از هوش مصنوعی (AI) استفاده کرده اند و به طور مرتب از هوش مصنوعی مولد حداقل در یک عملکرد استفاده می کنند. . اما تقریبا نیمی از این مشاغل تجربیات منفی با هوش مصنوعی داشته اند، از دقت و نقض مالکیت م،وی تا مسائل مربوط به حریم خصوصی.
واضح است که استفاده از هوش مصنوعی مولد در حال ش،تن رکوردها است، با این حال سازمان ها در تلاش هستند تا از مسائل تجاری تبعی خود جلوگیری کنند. به هر حال، این مسائل می توانند باعث تاخیر یا بدتر از آن آسیب به پرونده ،ب و کار شما شوند.
برای اتخاذ موفقیت آمیز هوش مصنوعی، دو مرحله وجود دارد:
- یک مورد استفاده را اولویت بندی کنید. بسیاری از مشتریان ROI را اولویت بندی می کنند که می تواند بر اساس کارایی و تولید ارزش باشد. در حالی که این کلید است، شروع ساده برای اثبات سریع موفقیت، با اجتناب از پیچیدگی و اطمینان از دسترسی آسان داده ها، کلیدی است.
- LLM من، برای نیازهای خود را انتخاب کنید. هنگامی که یک مدل زبان بزرگ (LLM) را برای مورد استفاده خود انتخاب می کنید که دقیق، سریع، قابل اعتماد و به اندازه کافی ارزان باشد تا ROI را فعال کند، برای موفقیت آماده شده اید. برخی از LLM ها 100 برابر گران تر از بقیه هستند، که می تواند مورد ،ب و کار شما را به خطر بیندازد.
انتخاب مورد استفاده من، و LLM
در حالی که این دو مرحله ساده به نظر می رسند، ارزیابی LLM های مختلف می تواند دشوار باشد. به همین دلیل است که راه اندازی کردیم معیار LLM برای CRM. این ابزار جامع اما با کاربری آسان به شما کمک می کند تا پذیرش هوش مصنوعی خود را بهینه کنید و به شما امکان می دهد موارد استفاده بی شماری از مدیریت ارتباط با مشتری (CRM) را بررسی کنید و نحوه عملکرد LLM ها را از نظر دقت، هزینه، سرعت و اعتماد مقایسه کنید. با مشارکت ارائه شده است تحقیقات هوش مصنوعی Salesforce و دهها مشتری، این منبع رایگان بر اساس دادههای واقعی ،بوکار، موارد استفاده واقعی، و ارزیابیهای واقعی توسط کارشناسان موضوع (معروف به ارزیابیهای دستی) است. اگر از Agentforce استفاده می کنید، هر یک از موارد استفاده در بنچمارک را می توان با LLM های مختلف فعال کرد.
در اینجا نحوه استفاده از معیار آورده شده است:
- گزینه Summarization، Generation یا Agent را در گوشه سمت چپ بالای داشبورد انتخاب کنید. خلاصه ، ساده ترین مکان برای شروع است. در ستون دقت، مدلها را میبینید که حداقل سه امتیاز میگیرند (که برابر با خوب است). تفکیک دقت به شما امکان می دهد معیارهای مربوط به دنبال ، دستورالعمل، کامل بودن، مختصر بودن و واقعی بودن را مشاهده کنید.
- یک مورد استفاده را از منوی کشویی انتخاب کنید، مانند Service: Call Summary.
- به دنبال مدل هایی باشید که حداقل نمره سه را برای دقت دارند. اگر امتیاز کمتر از سه است، به دنبال گزینه دیگری باشید یا ،مت Accu، Breakdown را دوباره بررسی کنید. برای روش دقت میتو،د بین حالتهای خودکار و دستی جابجا شوید. کتابچه راهنمای کاربر قابل اعتماد تر است.
- از لیست مدلهای دقیق، هزینهها را بررسی کنید تا مطمئن شوید که بازگشت سرمایه خوبی دارید.
- برخی موارد استفاده نیاز به پاسخ سریع دارند، بنابراین به دنبال مدلی باشید که متن، با نیاز شما به سرعت باشد.
- اعتماد و ایمنی را برای موارد استفاده خود ارزیابی کنید. صنعت شما ممکن است در اینجا حساس تر باشد. همچنین می تو،د LLM هایی را که در Salesforce Virtual Private Cloud هستند برای امنیت بیشتر در نظر بگیرید.
همانطور که با مشتریان روی معیار کار میکردیم، آنها به طور مداوم گفتند که باید ROI آینده موارد استفاده از هوش مصنوعی را ،ن بزنند. برای انجام این کار، آنها به دنبال مدلهایی میگردند که امتیاز بالاتر از سه را برای دقت، اما همچنین با هزینههای بسیار پایینتر دارند. به ،وان مثال، اگر نیم میلیون تماس مشتری برای خلاصه ، در هر سه ماهه داشته باشید، تفاوت هزینه 50 برابری بین مدلها احتمالاً ROI و مورد تجاری شما را ،اب میکند. ابزار معیار شما را به موارد استفاده من، و LLMهای من، برای نیازهای فردی شما از نظر هزینه، دقت، سرعت و اعتماد راهنمایی می کند.
با دنبال ، این شش مرحله، می تو،د یک مورد استفاده را تعیین کنید و یک مدل یا شاید چندین مدل را انتخاب کنید که نیازهای شما را برآورده کند. اکنون، شما آماده هستید تا به سرعت مورد استفاده خود را در Agentforce پیکربندی کنید، یا پروژهای را که خودتان انجام دهید آغاز کنید.
ایجاد اولین معیار LLM برای CRM
درباره جزئیات فنی پیرامون معیارها و رویکرد منحصر به فرد معیار بیشتر بد،د.
همانطور که موارد استفاده از هوش مصنوعی مولد خود را اولویت بندی می کنید، این داشبورد می تواند هفته ها یا حتی ماه ها از کاوش و آزمایش پذیرش کاربر صرفه جویی کند. این به شما کمک می کند تا مورد استفاده من، و LLM های من، را با طیف وسیعی از قابلیت ها انتخاب کنید. همچنین شما را از تجربه منفی پذیرش ضعیف هوش مصنوعی نجات می دهد.
تصویر مشتری
بیایید نگاهی به یک مورد استفاده از مشتری بیندازیم که اخیراً در معیار شرکت کرده است. آنها با یک مورد استفاده کم خطر و با ارزش شروع ،د: خلاصه تماس ها (به سرویس: خلاصه تماس II در معیار مراجعه کنید). آنها یک ارزیابی دستی انجام دادند، که در آن کارشناسان موضوع همه مدلها را درجهبندی ،د (با استفاده از دادههای واقعی مکالمات بین عوامل خدمات و مشتریان. بیشتر مدلها دقت خوبی داشتند؛ با این حال، تنها یکی از آنها کمهزینه بود: Mistral NeMo. با این بینش و موارد مشابه. نتایج برای ارزیابی خودکار، مشتری مورد استفاده را با دقت بالا تأیید کرد و حتی مدلهای بهینه را برای توجیه بازگشت سرمایه در عرض چند ساعت پیدا کرد.
معیارهای جایگزین ممکن است گمراه کننده باشند
هدف دیگر معیارها این است که به شما کمک کنند تا درک کنید که LLM چقدر توانا و ایمن هستند و کدام موارد استفاده را باید در اولویت قرار دهید. وسوسه انگیز است که از میان مواردی مانند ارزیابی کل نگر از مدل های زبان (HELM) به ،وان مثال. با این حال، این معیارها بیشتر آکادمیک هستند تا عملی. آنها بیشتر از داده های مصنوعی به جای داده های تجاری واقعی استفاده می کنند. و به جای ارزیابی دستی، آنها بر ارزیابی خودکار تکیه می کنند، جایی که LLM ها LLM ها را ارزیابی می کنند، که منجر به نتایج مغرضانه می شود. به علاوه، آنها تمام معیارهای تجاری مورد نیاز شما را شامل نمی شوند (مثلاً برای درک هزینه ها)، و استفاده از آنها سخت است. بنابراین، این معیارها برای راهنمایی شما به موفقیت در پذیرش کمک چند، نخواهند کرد و بر اساس داده های واقعی CRM نیستند.
پیمایش راه اندازی عوامل هوش مصنوعی
با ظهور عوامل هوش مصنوعی، که به راحتی پیادهسازی میشوند و با دادههای CRM با Agentforce پایهگذاری میشوند، یک مورد استفاده از عامل را به معیار اضافه کردیم (گزینه Agent را در گوشه سمت چپ بالای داشبورد انتخاب کنید). به خاطر داشته باشید که یک عامل با موتور استدلال خود می تواند هر یک از موارد استفاده را در معیار فعال کند (مانند خلاصه تماس خدمات). این معیار جدید و متمایز Agent از دادههای واقعی استفاده میکند، معیارهای تجاری لازم (دقت، هزینه، سرعت و اعتماد) را در نظر میگیرد، شامل دهها هزار امتیاز ارزیابی توسط متخصصان دامنه است، و در همان داشبورد Tableau با استفاده آسان ارائه میشود. به ،وان منبعی برای استفاده هر ،ی.
از آنجایی که ا،ر LLM ها برای انجام وظایف استدلالی طراحی نشده اند، آنها به ،وان “مغز” پشت عامل ها زمان سخت تری دارند و ا،ر آنها این کار را انجام نمی دهند (برای مثال، رتبه دقت آنها کمتر از سه است). معیار دقت برای عامل ها بر اساس سه زیرمتریک است:
- طبقه بندی موضوع: نماینده چقدر سؤال را در موضوع یا زمینه به درستی چارچوب بندی می کند.
- نماینده با چه دقتی عملکرد فنی من، را برای تکمیل یک عمل فراخو، می کند (مانند “به روز رس، وضعیت بلیط پشتیب،”).
- کیفیت پاسخ داده شده به کاربر که می تواند شامل پاسخ به یک سوال یا سوالاتی برای درک بهتر نیازهای کاربر باشد.
علاوه بر دقت، هزینه دوباره یک عامل مهم برای بازگشت سرمایه است و در حال حاضر، تنها یک مدل دقیق وجود دارد که هزینه آن کم است: xLAM، توسعه یافته توسط Salesforce AI Research. اعتماد و ایمنی برای نمایندگان از 60 تا 90 درصد متغیر است که یک معامله مهم دیگر را ارائه می دهد.
چه چیزی برای معیار بعدی است
برای تقویت بیشتر ارزش منحصر به فرد معیار، موارد استفاده با تولید افزوده بازیابی (RAG) را گنجانده ایم، روشی حتی پیچیده تر برای ارائه LLMها با زمینه داده واقعی (به ،وان مثال، از طریق اسناد). معیار یک ابزار زنده است که به طور مداوم با موارد استفاده بیشتر در ابرهای بیشتر به روز می شود. ارزیابی های دستی بیشتر، LLM های بیشتر، از جمله LLM های تنظیم شده و LLM های کوچک (زیر 4 میلیارد پارامتر). و پنجره های زمینه، که تعیین می کنند یک مدل چقدر اطلاعات می تواند دریافت کند.
برای کمک به پذیرش هوش مصنوعی خود، به دنبال معیارهای خاص صنعت (به ،وان مثال، خدمات مالی و علوم زیستی)، به روز رس، های بیشتر (مانند جزئیات دقیق تر در معیار عامل)، ابرهای اضافی، و گنجاندن جدیدترین LLM ها و موارد استفاده بیشتر باشید. . همچنین قرار است این معیار به طور مستقیم در Salesforce در زمینه ای که مدل هایی را برای موارد استفاده خود انتخاب می کنید اضافه شود.
از آنجایی که سازمانها به استفاده از هوش مصنوعی با سرعت سرسامآور ادامه میدهند، معیار LLM برای CRM راهنمای بسیار مورد نیاز را برای سرعت بخشیدن به ارزش زمان تا ،ب و کار و جلوگیری از تجربههای تلخ ارائه میدهد. این منبع اینجاست تا به کاربران کمک کند موارد استفاده من، و LLM های ایده آل را ارزیابی و انتخاب کنند – حتی زم، که مدل های هوش مصنوعی به سرعت در حال تکامل هستند. با استفاده من، و بهترین تطابق LLM، پذیرش هوش مصنوعی می تواند تجربه مثبتی باشد که به رشد و موفقیت ،ب و کارها کمک می کند.
Agentforce را کشف کنید
Agentforce پشتیب، دائمی را برای کارمندان یا مشتریان فراهم می کند. بیاموزید که چگونه می تواند امروز به شرکت شما کمک کند.
منبع: https://www.salesforce.com/blog/llm-benchmark-ai-use-case/