การวิจัยพบว่า AI chatbots ส่วนใหญ่ถูกหลอกได้ง่ายในการให้คำตอบที่เป็นอันตราย

นักวิจัยกล่าวว่า The Hacker AI-powered chatbots ขู่ว่าจะได้รับความรู้ที่เป็นอันตรายโดยการส่งเสริมข้อมูลที่ผิดกฎหมายที่โปรแกรมดูดซับในระหว่างการฝึกอบรมนักวิจัยกล่าว

ในเทรนด์ที่น่ารำคาญของ chatbots คำเตือนคือ “Jailbreak” เพื่อข้ามการควบคุมความปลอดภัยในตัว ข้อ จำกัด เหล่านี้ควรป้องกันไม่ให้โปรแกรมให้คำตอบที่เป็นอันตรายลำเอียงลำเอียงหรือไม่เหมาะสมสำหรับคำถามของผู้ใช้

เครื่องยนต์ของ chatbots เช่น Chatgpt, Gemini และ Claude (LLMs) เช่น Chatgpt, Gemini และ Claude สามารถป้อนเนื้อหาจำนวนมากจากอินเทอร์เน็ต

แม้จะมีความพยายามในการตัดข้อความที่เป็นอันตรายจากข้อมูลการฝึกอบรม LLMs ยังสามารถดูดซับข้อมูลเกี่ยวกับกิจกรรมที่ผิดกฎหมายเช่นการแฮ็คการฟอกเงินการซื้อขายหลักทรัพย์ภายในและการผลิตระเบิด การควบคุมความปลอดภัยได้รับการออกแบบมาเพื่อป้องกันไม่ให้พวกเขาใช้ข้อมูลนี้ในการตอบกลับ

นักวิจัยสรุปในรายงานเกี่ยวกับภัยคุกคามว่ามันง่ายที่จะหลอกแชทบอท AI ที่ขับเคลื่อนโดยส่วนใหญ่ในการผลิตข้อมูลที่เป็นอันตรายและผิดกฎหมายแนะนำว่าความเสี่ยงคือ“ ทันทีจับต้องได้ลึก”

“ สิ่งที่ครั้งหนึ่งเคยถูก จำกัด ให้กับนักแสดงของรัฐหรือกลุ่มอาชญากรรมที่จัดขึ้นในไม่ช้าอาจอยู่ในมือของใครก็ตามในโทรศัพท์หรือแม้แต่บนโทรศัพท์ของพวกเขา” ผู้เขียนเตือน

การศึกษานำโดยศาสตราจารย์ Lior Rokach และ Dr. Michael Fire จาก Ben Gurion University, Nelev University, Israel ระบุถึงภัยคุกคามที่เพิ่มขึ้นของ“ Dark LLMS” ซึ่งเป็นรูปแบบ AI ที่ได้รับการออกแบบอย่างจงใจโดยไม่มีการควบคุมความปลอดภัยหรือแก้ไขโดย Jailbreak บางคนส่งเสริมการประชาสัมพันธ์ออนไลน์“ ไม่มีรั้วทางศีลธรรม” และยินดีที่จะช่วยเหลือในกิจกรรมที่ผิดกฎหมายเช่นอาชญากรรมไซเบอร์และการฉ้อโกง

Jailbreak มีแนวโน้มที่จะใช้เคล็ดลับที่สร้างขึ้นมาอย่างดีเพื่อหลอกแชทบอทให้เกิดการตอบสนองที่ต้องห้ามตามปกติ พวกเขาทำตามคำแนะนำของผู้ใช้โดยใช้ประโยชน์จากความตึงเครียดระหว่างเป้าหมายหลักของโปรแกรมและหลีกเลี่ยงคำตอบที่เป็นอันตรายลำเอียงลำเอียงผิดศีลธรรมหรือผิดกฎหมาย เคล็ดลับมีแนวโน้มที่จะสร้างแผนที่แผนจัดลำดับความสำคัญของข้อ จำกัด ด้านความปลอดภัย

เพื่อพิสูจน์ปัญหานี้นักวิจัยได้พัฒนาการแหกคุกสากลที่บุกรุกแชทบอทชั้นนำหลายครั้งทำให้พวกเขาสามารถตอบคำถามที่พวกเขาปฏิเสธได้ตามปกติ รายงานระบุว่าครั้งหนึ่งเคยถูกบุกรุก LLM จะสร้างการตอบสนองต่อการสืบค้นเกือบทั้งหมด

“ มันน่าตกใจที่ได้เห็นองค์ประกอบของระบบความรู้นี้” ไฟกล่าว ตัวอย่างรวมถึงวิธีการถอดรหัสเครือข่ายคอมพิวเตอร์หรือทำยารวมถึงคำแนะนำทีละขั้นตอนสำหรับกิจกรรมทางอาญาอื่น ๆ

“ สิ่งที่ทำให้ภัยคุกคามนี้แตกต่างจากความเสี่ยงทางเทคนิคก่อนหน้านี้คือการผสมผสานระหว่างการเข้าถึงความสามารถในการปรับขนาดและการปรับตัวได้อย่างไม่เคยปรากฏมาก่อน” Rokach กล่าวเสริม

นักวิจัยได้ติดต่อผู้ให้บริการหลักของ LLM เพื่อเตือนพวกเขาถึงการแหกคุกสากล แต่กล่าวว่าการตอบสนองคือ “ไม่หยุดยั้ง” บริษัท หลายแห่งล้มเหลวในการตอบสนองในขณะที่คนอื่น ๆ กล่าวว่าการโจมตีของการแหกคุกอยู่นอกขอบเขตของโปรแกรมเงินรางวัลที่ให้รางวัลแฮ็กเกอร์จริยธรรมที่ปฏิบัติตามช่องโหว่ของซอฟต์แวร์

รายงานกล่าวว่า บริษัท เทคโนโลยีควรผ่านการฝึกอบรมอย่างระมัดระวังมากขึ้นเพิ่มไฟร์วอลล์ที่ทรงพลังเพื่อบล็อกการสืบค้นและการตอบสนองความเสี่ยงและพัฒนาเทคโนโลยี “เครื่องไม่เรียนรู้” เพื่อให้แชทบอทสามารถ “ลืม” ข้อมูลที่ผิดกฎหมายใด ๆ ที่พวกเขาดูดซับ มันเสริมว่า LLM ที่มืดควรถูกมองว่าเป็น “ความเสี่ยงด้านความปลอดภัยที่ร้ายแรง” ซึ่งเป็นคู่แข่งกับอาวุธและวัตถุระเบิดในขณะที่ผู้ให้บริการรับผิดชอบ

ดร. Ihsen Alouani ผู้ทำงานด้านความปลอดภัยของ AI ที่ Belfast ของ Queen กล่าวว่าการโจมตีของ Jailbreak ใน LLMs อาจก่อให้เกิดความเสี่ยงที่แท้จริงจากการให้คำแนะนำโดยละเอียดเกี่ยวกับการผลิตอาวุธเพื่อโน้มน้าวข้อมูลเท็จหรือวิศวกรรมสังคมและการหลอกลวงอัตโนมัติ“ ด้วยความซับซ้อนที่น่าทึ่ง”

“ ส่วนสำคัญของการแก้ปัญหาคือการให้ บริษัท ลงทุนอย่างจริงจังมากขึ้นในทีมสีแดงและเทคโนโลยีที่แข็งแกร่งระดับโมเดลแทนที่จะพึ่งพาการป้องกันส่วนหน้าเท่านั้น” เขากล่าว “ เราต้องการมาตรฐานที่ชัดเจนและการกำกับดูแลอิสระเพื่อให้ทันกับสภาพแวดล้อมการคุกคามที่พัฒนาขึ้น”

ศาสตราจารย์ Peter Garraghan ผู้เชี่ยวชาญด้านความปลอดภัยของ AI ที่ Lancaster University กล่าวว่า“ องค์กรต้องปฏิบัติต่อ LLM เช่นเดียวกับองค์ประกอบซอฟต์แวร์ที่สำคัญอื่น ๆ ซึ่งต้องมีการทดสอบความปลอดภัยอย่างเข้มงวดกลุ่มสีแดงอย่างต่อเนื่องและการสร้างแบบจำลองการคุกคามบริบท

เขากล่าวเสริมว่า: “ใช่การเจลเบรคเป็นปัญหา แต่ความรับผิดชอบจะยังคงเป็นเพียงผิวเผินโดยไม่เข้าใจสแต็ก AI เต็มรูปแบบข้อกำหนดด้านความปลอดภัยที่แท้จริงไม่เพียง แต่การเปิดเผยที่รับผิดชอบ แต่การออกแบบที่รับผิดชอบและการปฏิบัติงานการปรับใช้”

Openai บริษัท ที่จัดตั้ง CHATGPT กล่าวว่ารูปแบบ O1 ล่าสุดอาจให้เหตุผลเกี่ยวกับนโยบายความปลอดภัยของ บริษัท ซึ่งจะเป็นการเพิ่มความยืดหยุ่นในการแหกคุก บริษัท เสริมว่าได้ทำการตรวจสอบวิธีที่จะทำให้โปรแกรมมีประสิทธิภาพยิ่งขึ้น

Meta, Google, Microsoft และมานุษยวิทยาได้รับการติดต่อเพื่อแสดงความคิดเห็น Microsoft ตอบสนองต่อลิงค์ไปยังบล็อกเพื่อรักษางานเพื่อป้องกันการถูกคุกคาม

Source link