چگونه برای اعتماد تست کنیم
انتشار: شهریور 13، 1403
بروزرسانی: 18 تیر 1404

چگونه برای اعتماد تست کنیم

هوش مصنوعی اکنون در تار و پود زندگی ما تنیده شده است. با این حال، پتانسیل آن برای فواید فوق العاده و همچنین آسیب م،ب بسیار زیاد است. همانطور که این سیستم ها به طور فزاینده ای در روال روزانه ما ادغام می شوند، خطرات ناشی از عدم دقت، ،وجی های مغرضانه، نشت داده ها، سمیت، نقض های امنیتی و حتی استفاده نادرست به طور تصاعدی افزایش می یابد. تصور کنید که به طور ناآگاهانه مطالب دارای حق چاپ تولید می کند، یک چت بات اطلاعات نادرست یا توهم به مشتریان ارائه می دهد، یا از یک مدل زبان بزرگ (LLM) استفاده می کند که بازخورد عملکرد مغرضانه یا نامن،ی را به کارمندان ارائه می دهد. برای محافظت در برابر این خطرات و اطمینان از توسعه مسئولانه فناوری هوش مصنوعی، سازمان هایی که راه حل های هوش مصنوعی می سازند باید مجموعه ای از استراتژی های فعال از جمله تیم سازی قرمز را بپذیرند.

علاوه بر تمام کارهایی که در داخل انجام داده ایم، کارشناس، را نیز برای انجام تست های نفوذ (از طریق برنامه Bug Bounty تیم امنیتی ما) و سایر حملات خلاقانه (مطابق با ما) استخدام کرده ایم. تعهدات داوطلبانه هوش مصنوعی کاخ سفید، اخیراً آزمایش دو محصول Einstein for Developers (E4D) و مدل چندوجهی تحقیقاتی خود، PixelPlayground را برون سپاری کردیم. استفاده از اشخاص ثالث می تواند مفید باشد زیرا آنها ممکن است به روشی کاملاً متفاوت با شما به محصول و مدل نزدیک شوند و طیف وسیع تری از خطرات را برای کاهش ارائه دهند. کارشناسان خارجی به طور خصمانه هر دو محصول را مورد حمله قرار دادند و تمرکز خود را بر روی ایجاد کد مغرضانه یا سمی در محصول ایجاد ،د و در عین حال حملات بدون ساختار را نیز ارائه ،د. ما دیگران را تشویق می کنیم که به طور مشابه با کارشناسان امنیت و موضوع هوش مصنوعی برای شبیه سازی های واقعی خصمانه سرتاسر شریک شوند. در وبلاگ بعدی بیشتر در مورد کار خود با کارشناسان خارجی توضیح خواهیم داد.

چالش ها و نگاه به جلو

انجام این آزمایش بسیار مهم است. در مورد استفاده مصرف کننده، می تو،د تصور کنید که تیم پشت یک وسیله نقلیه خودمختار هرگز برای موارد لبه مانند مسافری که در حال حرکت روی صندلی راننده حرکت می کند، یا عابر پیاده ای که از حاشیه پیاده روی خارج می شود، آزمایش نکنند. نرده های محافظ مانند نظارت بر تغییرات وزن در صندلی و تشخیص اشیا می توانند نتایج خطرناک را کاهش دهند. در سازمان، تیم قرمز آسیب پذیری های بالقوه ای را شناسایی می کند که می توانند تأثیرات ی،، داشته باشند، مانند نقض گسترده داده ها، اختلال در عملیات مهم تجاری، عدم انطباق با مقررات، یا از دست دادن اعتماد مصرف کننده. به این ترتیب، تیم قرمز، یا به سادگی بررسی مرزهای یک سیستم برای اینکه کجا ممکن است اشتباه کند، به پیش بینی و جلوگیری از خطرات احتمالی کمک می کند، و اطمینان حاصل می کند که فناوری در کاربردهای دنیای واقعی هم ایمن و هم مؤثر است.

تیم قرمز چیست؟

در نهایت، برای ما واضح است که ارزیابی های خودکار مقیاس پذیری دشواری دارند، اما همچنان حیاتی هستند. در نتیجه، یکی از رویکردهایی که ما برای خودکارسازی برخی از آزمایش های خود در پیش گرفته ایم، «فازی» نامیده می شود، که در آن موارد آزمایش تصادفی سازی شده را بر اساس حملات موفقیت آمیز انس، از آزمایش دستی تولید می کنیم (تأیید شده است که در آزمایش دستی ما موفق بوده است، یا از طریق سایر حملات شناخته شده عمومی)، این موارد آزمایشی را به مدل هدف تحویل دهید و ،وجی ها را جمع آوری کنید، و سپس ارزیابی کنید که آیا هر مورد آزمایشی موفق شده یا ش،ت خورده است.

توجه: کارکنان Salesforce که در معرض محتوای مضر قرار دارند می توانند از آنها پشتیب، بگیرند Lyra Health، یک مزیت رایگان برای کارکنان برای جستجوی خدمات بهداشت روان از آن پزشکان دارای مجوز وابسته به فعالیت های حرفه ای مستقل و دارای مالکیت مستقل. علاوه بر این، Warmline، یک برنامه حمایت از کارمندان برای ،ن (شامل همه نژادها و قومیت ها)، کارمندان سیاه پوست، بومی و لاتین تبار که نماینده همه هویت های ،تی هستند و اعضای جوامع LGBTQ+ به کارمندان مکالمات محرمانه 1:1 را با م،عان ارائه می دهد و ارتباط برقرار می کند. کارکنان به منابع برای ایجاد یک مسیر رو به جلو.



منبع: https://www.salesforce.com/blog/red-teaming-ai/

تیم قرمز فرآیندی برای بررسی سیستم ها و محصولات هوش مصنوعی برای شناسایی قابلیت ها، ،وجی ها یا تهدیدات زیرساختی مضر است.انجمن مدل مرزی). هدف از این فعالیت شناسایی مکان، زمان و چگونگی یک سیستم هوش مصنوعی است که می تواند ،وجی های نامطلوب ایجاد کند تا قبل از اینکه یک مدل یا محصول در دست کاربران باشد، این خطرات کاهش یابد.

هنگامی که در حال انجام آزمایش دستی هستیم، از هکرهای اخلاقی خود می خواهیم که از دو رویکرد استفاده کنند: (1) بدون ساختار و (2) ساختارمند. در حالت اول، به افراد آزادی داده می شود تا انواع خطراتی را که می خواهند آزمایش کنند (مثلاً سمیت، دقت، اطلاعات نادرست) و نحوه نوشتن آن اعلانات را انتخاب کنند. در دومی، دسته های خاصی از ریسک به ،وان اولویت شناسایی می شوند (مثلاً سوگیری سیاسی، تعصب کلیشه ای، سمیت) یا شخصیت های خاصی برای شرکت کنندگان ساخته می شوند تا از آنها تقلید کنند، و به تیم های قرمز دستور داده می شود که به طور سیستماتیک به مدل در یک دسته واحد در یک دسته حمله کنند. زمان این روش می تواند به تولید جفت های ورودی/،وجی کافی برای استفاده برای تنظیم دستورالعمل ها کمک کند یادگیری ن،.

تیم قرمز خودکار

رویکردهای خودکار، بهبود و نه جایگزینی برای آزمایش و ارزیابی انسان محور هستند. این نوع آزمایش شامل استفاده از اسکریپت ها، الگوریتم ها و ابزارهای نرم افزاری برای شبیه سازی تعداد زیادی از حملات یا سناریوهای متخاصم در یک دوره کوتاه است که به طور سیستماتیک سطح خطر سیستم را بررسی می کند. این رویکرد به ما اجازه می دهد تا سیستم های خود را در برابر هزاران یا حتی ده ها هزار بردار حمله مختلف آزمایش کنیم و ارزیابی گسترده ای از آسیب پذیری های احتمالی را ارائه کنیم. این آزمایش ها را می توان به طور مداوم تکرار کرد، و تکرارپذیری برای اعتبارسنجی اثربخشی اقدامات کاهش آسیب که در طول زمان یا پس از ایجاد تغییرات در سیستم اجرا می شوند، ارزشمند است. حداقل مداخله انس،، آنها را مقرون به صرفه تر می کند، به منابع انس، کمتری نیاز دارد و امکان آزمایش در مقیاس بزرگ را فراهم می کند.

کاری که در تیم قرمز انجام می شود دشوار است و به سرعت در حال تغییر است، زیرا حملات و دفاع های جدید مرتباً معرفی می شوند. تحمل ریسک ما برای ایمنی راه اندازی به طور مداوم مورد ارزیابی قرار می گیرد تا اطمینان حاصل شود که قابل اعتماد بودن محصول قبل از رسیدن به دست کاربران کافی است. شرکت ها باید تحمل ریسک خود را بر اساس ارزیابی خود از استحکام و جامعیت آزمایش خود، همراه با ارزش ها، شهرت برند، قول به مصرف کنندگان و شدت آسیب احتمالی ارزیابی کنند. همانطور که با عوامل مستقل وارد افق بعدی هوش مصنوعی می شویم، آزمایش پیش از استقرار متخاصم مهم تر از همیشه است. بیاموزید که چگونه عوامل هوش مصنوعی مستقل می آیند و چرا اعتماد و آموزش کلید موفقیت آنها است. در مورد نکاتی برای استقرار شیوه های هوش مصنوعی در بهترین شیوه های اخلاقی با نگه داشتن یک انسان در راس فعالیت های هوش مصنوعی خود، بیشتر بخو،د.

در Salesforce، تیم مسئولیت پذیر هوش مصنوعی و فناوری ما، شیوه های تیم سازی قرمز را برای بهبود ایمنی محصولات هوش مصنوعی با آزمایش برای استفاده م،ب یا حملات یکپارچگی عمدی (چیزهایی که امروزه نسبتاً شناخته شده اند، مانند تزریق سریع یا جیلبریک) پیاده سازی می کنند. به ،وان سوء استفاده خوش خیم (به دست آوردن ناخواسته نتایج مغرضانه، نادرست یا مضر توسط یک کاربر خوش فکر).

در Salesforce، در بیشتر موارد، کاربران ما کاربران قانونی و تایید شده Salesforce هستند که در سازمان خود پیمایش می کنند. وقتی کاربر چیزی مانند «به من درباره Acme Inc بگو» وارد می کند. اما به طور ناخواسته تایپ می کند «درباره Acme Kinc به من بگو»، چیزی که آنها به دست می آورند ممکن است آن چیزی نباشد که پیش بینی می ،د. یک خطا به سادگی یک اشتباه تایپی می تواند منجر به نتایج مشکل ساز شود، حتی اگر ورودی کاربر اصلاً خصمانه یا م،ب نباشد. به طور مشابه، یک درخواست خوش خیم برای ایجاد یک بخش بازاریابی، با استفاده از یک مدل زبان بزرگ (LLM) از مشتری، که احتمالاً کفش های کت، ،یداری می کنند، ممکن است به جای ویژگی های رفتاری، ویژگی های جمعیت شناختی را به آن مصرف کنندگان نسبت دهد (مثلاً اختصاص نامن، سن یا ،ت به آن ها مشتریان، به جای ایجاد فهرستی جامع تر از ،، که سابقه ،ید یا مشاهده مشابه دارند). مشکل از سیستم است نه کاربر. بنابراین هدف تیم قرمز ما اغلب می تواند به شکل شناسایی، و سپس به حداقل رساندن یا حذف بالقوه ،وجی های نادرست یا مغرضانه از طریق بینش های به دست آمده از آزمایش عملی باشد.

سپس ممکن است با استفاده از کارمندان یا کارشناسان حوزه، به سمت تیم های قرمز داخلی قوی تر برویم. انجام این کار در سازمان خودمان، کارمندان یا دیگر آزمایش کنندگان را تشویق و تشویق می کند تا مسائل اخلاقی، سوگیری ها، یا آسیب های احتمالی در محصولات و فرآیندهای ما را قبل از انتشار برای عموم شناسایی کرده و به طور انتقادی با آنها درگیر شوند. درگیر ، جوامع مختلف در فرآیند آزمایش خصمانه، طیفی از تجربیات زنده را به همراه دارد که می تواند به شناسایی سوگیری ها، نگر، های اخلاقی و آسیب های احتمالی کمک کند که ممکن است برای ،، که سیستم را طراحی کرده اند آشکار نباشد. کارمندان ما نشان داده اند که می خواهند در بهبود سیستم های هوش مصنوعی ما مشارکت بیشتری داشته باشند و آزمایش های داخلی به آنها فرصتی می دهد تا در عین استفاده از دیدگاه های متنوع در Salesforce برای کشف طیف گسترده تری از نگر، های اخلاقی، تفاوت ایجاد کنند. در نتیجه، ما آنها را در دو نوع فعالیت آزمایشی قرار داده ایم:

  • هکاتون ها: گروه بزرگی از افراد با طرز فکر خصمانه (مجازی یا حضوری) برای مدت زمان مشخصی گرد هم می آیند تا به مدل شما حمله کنند. کاخ سفید از چنین چیزی حمایت کرد هکاتون در DEF CON سال گذشته.
  • جایزه اشکال: اینها معمولاً به صورت ناهمزمان انجام می شوند و می توانند به یک دوره زم، محدود شوند یا به طور دائمی برای هر ،ی برای شرکت در آن باز باشد. افراد برای یافتن آسیب پذیری ها و گزارش آن ها برای دریافت جایزه تشویق می شوند. اینها پس از راه اندازی محصول بسیار عالی هستند تا آسیب های جدیدی را که در قبل از راه اندازی کشف نشده اند، دریافت کنند.

دو راه اصلی برای انجام تیم قرمز وجود دارد - دستی و خودکار. آزمایش انسان محور یا مشارکت عمیق جامعه به شناسایی طیفی از خطرات کمک می کند که ممکن است قبلاً توسط تیم سازنده مدل یا محصول شناسایی نشده باشد. با استفاده از خلاقیت و تجربیات زندگی شده آنها، می تو،م انواع ،وجی های مضر را که می تو،م تشخیص دهیم، تا حد زیادی افزایش دهیم. با آزمایش خودکار، می تو،م هزاران، اگر نه ده ها هزار، «حمله» تصادفی برای ارزیابی عملکرد ایجاد کنیم. ما آموخته ایم که هر دو رویکرد برای موفقیت لازم است.

گروه بندی دستی قرمز

آزمایش دستی از خلاقیت، تجربه و دانش تخصصی آزمایش کنندگان انس، که مانند دشمنان فکر می کنند، استفاده می کند و از تخصص آنها برای ایجاد استراتژی های حمله پیچیده و پیچیده استفاده می کند که سیستم های خودکار ممکن است نادیده بگیرند. آزمایش کنندگان انس، همچنین می توانند تفاوت های ظریف و زمینه سیستم هایی را که آزمایش می کنند بهتر درک کنند و می توانند رویکرد خود را بر اساس محیط، هدف و اه، خاص تطبیق دهند و حملات خود را واقعی تر و متن، تر کنند.

از آنجا که تیم قرمز دستی شامل افراد واقعی می شود، می تواند سطحی از غیرقابل پیش بینی بودن و خلاقیت را معرفی کند که سیستم های خودکار نمی توانند. این غیرقابل پیش بینی بودن برای شناسایی خطراتی که ممکن است از طریق تست های استاندارد آشکار نباشند، بسیار مهم است.

به طور کلی، اگرچه کاربران ما بعید است که مهاجمان م،ب سیستم باشند و تمایلی به تلاش برای "ش،تن" یک برنامه ندارند، ما هنوز هم گروه بندی قرمز هوش مصنوعی قوی را برای سمیت، سوگیری و امنیت انجام می دهیم تا مطمئن شویم که در صورت وجود استفاده م،ب یا سوء استفاده ناخوشایند رخ می دهد که سیستم های ما ایمن هستند.

انواع تیم قرمز

ما ممکن است آزمایش دستی خود را با یک "تست دود" آغاز کنیم، که نوعی آزمایش سطحی است که قرار است به سرعت قبل از سرمایه گذاری منابع برای انجام ارزیابی بسیار عمیق تر و وقت گیر انجام شود. در این نوع آزمایش سبک وزن، ما به دنبال میوه کم آویزان هستیم (به ،وان مثال، آیا محصول می تواند کاری را که قرار است انجام دهد به دقت انجام دهد؟) بنابراین می توان بلافاصله به آن مسائل رسیدگی کرد و سپس آزمایش های عمیق تری برای کشف موارد سخت تر انجام داد. -پیدا ، مسائل

در حالی که تیم قرمز دستی و خودکار هر کدام نقاط قوت خود را دارند، هیچ یک به تنهایی برای ایمن سازی کامل یا ارزیابی یک سیستم کافی نیست. با این حال، این رویکردها با هم یک استراتژی تیمی قرمز جامع ایجاد می کنند که شناسایی ریسک ها را به حدا،ر می رساند و امنیت کلی و انعطاف پذیری سیستم ها را افزایش می دهد. در مقاله ای در آینده، برخی از همکاران من به برخی از این روش های آزمایش و آنچه در این مسیر آموخته ایم عمیق تر خواهند پرداخت.

جذب کارشناسان خارجی