Exclusive: รุ่นใหม่ของ Claude จะแจ้งการป้องกันสำหรับมานุษยวิทยา

Tหัวหน้านักวิทยาศาสตร์ของ บริษัท AI Humane Humane กล่าวว่าแบบจำลอง AI ล่าสุดของ Oday สามารถช่วยผู้ก่อการร้ายที่เป็นไปได้สร้างอาวุธชีวภาพหรือวิศวกรในการระบาดใหญ่

มนุษย์ได้เตือนความเสี่ยงเหล่านี้มานานแล้ว – ในปี 2566 บริษัท สัญญาว่าจะไม่ปล่อยโมเดลบางรุ่นจนกว่าจะถึงมาตรการรักษาความปลอดภัยที่สามารถ จำกัด ได้

ปัจจุบันเรียกว่านโยบายการปรับขนาดที่รับผิดชอบ (RSP) ระบบเผชิญกับการทดสอบจริงครั้งแรก

Jared Kaplan หัวหน้านักมานุษยวิทยากล่าวเมื่อวันพฤหัสบดีที่มนุษย์ได้เปิดตัว Claude Opus 4 ซึ่งเป็นรูปแบบใหม่ที่ในการทดสอบภายในดำเนินการได้อย่างมีประสิทธิภาพมากกว่ารุ่นก่อนหน้าในการให้คำแนะนำใหม่เกี่ยวกับวิธีการผลิตอาวุธชีวภาพ “ คุณสามารถลองสังเคราะห์บางอย่างเช่น Covid หรือเป็นไข้หวัดใหญ่ที่อันตรายกว่าและโดยทั่วไปการสร้างแบบจำลองของเราแสดงให้เห็นว่าสิ่งนี้อาจเป็นไปได้” Kaplan กล่าว

ดังนั้น Claude Opus 4 จึงเปิดตัวมากกว่าแบบจำลองมนุษย์ก่อนหน้านี้ภายใต้มาตรการความปลอดภัยที่เข้มงวด จากข้อมูลของ บริษัท มาตรการเหล่านี้ (ภายในสำหรับ AI Security Level 3 หรือ “ASL-3”) มีความเหมาะสมอย่างยิ่งที่จะ จำกัด ระบบ AI ที่สามารถ “ปรับปรุงอย่างมีนัยสำคัญ” บุคคลที่มีภูมิหลังพื้นฐานพื้นฐานในการรับผลิตหรือปรับใช้สารเคมีชีวภาพหรืออาวุธนิวเคลียร์ สิ่งเหล่านี้รวมถึงมาตรการความปลอดภัยทางไซเบอร์ที่เพิ่มขึ้นการป้องกันการแหกคุกและระบบเสริมเพื่อตรวจจับและปฏิเสธพฤติกรรมที่เป็นอันตรายเฉพาะประเภท

เพื่อให้แน่ใจว่ามานุษยวิทยาไม่แน่ใจว่า Claude เวอร์ชันใหม่จะก่อให้เกิดความเสี่ยงต่ออาวุธชีวภาพที่ร้ายแรง Kaplan บอกเวลา แต่มนุษย์ยังไม่ได้ตัดความเป็นไปได้นี้

“ หากเรารู้สึกว่ามันไม่ชัดเจนและเราไม่แน่ใจว่ามีความเสี่ยงที่จะถูกตัดออกไป-ความเสี่ยงที่เฉพาะเจาะจงคือการยกระดับผู้ก่อการร้ายใหม่ผู้คนอย่างทิโมธีแมควีห์ซึ่งสามารถทำให้อาวุธทำลายล้างได้มากขึ้นเราต้องการคัดท้ายด้วยความระมัดระวังและทำงานภายใต้มาตรฐาน ASL-3” “ เราไม่ได้อ้างว่ารู้ว่าโมเดลนี้มีความเสี่ยง… แต่อย่างน้อยเราก็รู้สึกว่ามันใกล้พอที่จะออกกฎ”

เขากล่าวว่าหากการทดสอบเพิ่มเติมแสดงให้เห็นว่าแบบจำลองไม่จำเป็นต้องมีมาตรฐานความปลอดภัยที่เข้มงวดเช่นนั้นมนุษย์สามารถลดการป้องกันให้กับ ASL-2 ที่หลวมได้ก่อนที่จะมีการเปิดตัว Claude รุ่นก่อนหน้า

ลำโพงหลักของ Bloomberg Technology Summit — เมื่อวันอังคารที่ 24 ตุลาคม 2566 เจเร็ดแคปแลนผู้ร่วมก่อตั้งและหัวหน้าเจ้าหน้าที่วิทยาศาสตร์ของมนุษย์มานุษยวิทยา Chris J. Ratcliffe/Bloomberg โดย Getty Images

ช่วงเวลานี้เป็นการทดสอบที่สำคัญของมนุษย์ซึ่ง บริษัท อ้างว่าสามารถลดอันตรายของ AI ในขณะที่ยังคงแข่งขันในตลาด Claude เป็นคู่แข่งโดยตรงของ Chatgpt และได้รับรายได้มากกว่า 2 พันล้านเหรียญสหรัฐต่อปี มานุษยวิทยาเชื่อว่า RSP ของมันจึงสร้างแรงผลักดันทางเศรษฐกิจสำหรับการกำหนดมาตรการรักษาความปลอดภัยสำหรับตัวเองเพื่อหลีกเลี่ยงการสูญเสียลูกค้าเนื่องจากการป้องกันการเปิดตัวรุ่นใหม่ “ เราไม่ต้องการส่งผลกระทบต่อลูกค้าจริงๆ” Kaplan กำหนดเวลาก่อนหน้านี้ในเดือนพฤษภาคมเมื่อมนุษย์กำลังสรุปมาตรการรักษาความปลอดภัยของพวกเขา “ เรากำลังทำงานอย่างหนักเพื่อเตรียมความพร้อมอย่างแข็งขัน”

แต่ RSP ของมานุษยวิทยารวมถึงภาระผูกพันที่คล้ายกันที่ดำเนินการโดย บริษัท AI อื่น ๆ – เป็นนโยบายสมัครใจทั้งหมดที่สามารถเปลี่ยนแปลงหรือทิ้งได้ตามต้องการ บริษัท เองไม่ใช่หน่วยงานกำกับดูแลหรือสมาชิกสภานิติบัญญัติคือผู้พิพากษาปฏิบัติตาม RSP อย่างเต็มที่หรือไม่ ไม่มีค่าปรับภายนอกที่จะทำลายมันนอกเหนือจากความเสียหายชื่อเสียงที่เป็นไปได้ มนุษย์เชื่อว่านโยบายได้สร้าง “การแข่งขันให้สูงที่สุด” ระหว่าง บริษัท AI ทำให้พวกเขาสามารถแข่งขันเพื่อสร้างระบบความปลอดภัยที่ดีที่สุด แต่ด้วยการแข่งขันที่มีมูลค่าหลายพันล้านดอลลาร์ไปยัง Supreme AI นักวิจารณ์กลัวว่า RSP และความไร้เดียงสาของมันอาจจะอยู่เมื่อมันสำคัญที่สุด

อย่างไรก็ตาม RSP ของมนุษย์เป็นหนึ่งในข้อ จำกัด ที่มีอยู่ไม่กี่อย่างเกี่ยวกับพฤติกรรมของ บริษัท AI ใด ๆ ที่ไม่มีกฎระเบียบ AI ในสภาคองเกรส จนถึงตอนนี้มนุษย์ยังคงรักษาไว้ Kaplan กล่าวว่าหาก anthropomorphism แสดงให้เห็นว่ามันสามารถ จำกัด ตัวเองได้โดยไม่ต้องถูกโจมตีโดยเศรษฐกิจก็อาจส่งผลกระทบเชิงบวกต่อการปฏิบัติด้านความปลอดภัยในอุตสาหกรรมที่กว้างขึ้น

การป้องกันใหม่สำหรับมนุษยชาติ

มาตรการรักษาความปลอดภัย ASL-3 ของมานุษยวิทยาใช้สิ่งที่ บริษัท เรียกว่ากลยุทธ์ “การป้องกันในเชิงลึก” ซึ่งหมายความว่ามีการป้องกันที่ทับซ้อนกันหลายประการซึ่งอาจไม่สมบูรณ์เพียงอย่างเดียว แต่รวมกันเพื่อป้องกันภัยคุกคามส่วนใหญ่

หนึ่งในมาตรการเหล่านี้เรียกว่า “ตัวจําแนกตามรัฐธรรมนูญ:” ระบบ AI อื่น ๆ ที่สแกนผู้ใช้แจ้งและแบบจำลองสำหรับคำตอบสำหรับวัสดุอันตราย Claude รุ่นก่อนหน้ามีระบบที่คล้ายกันในระดับความปลอดภัยที่ต่ำกว่าของ ASL-2 แต่มานุษยวิทยากล่าวว่าได้ปรับปรุงพวกเขาดังนั้นพวกเขาจึงสามารถตรวจจับคนที่อาจพยายามใช้ Claude เพื่อสร้างอาวุธชีวภาพ การกำหนดเป้าหมายของตัวจําแนกเหล่านี้มีจุดมุ่งหมายที่โซ่ยาวที่ตรวจจับปัญหาเฉพาะที่ใครบางคนอาจถาม

มนุษย์พยายามที่จะไม่ปล่อยให้มาตรการเหล่านี้ขัดขวางการใช้งานโดยรวมของ Claude สำหรับผู้ใช้ที่ถูกกฎหมายเนื่องจากรุ่นดังกล่าวทำให้โมเดลมีประโยชน์น้อยกว่าคู่แข่ง “ อาวุธชีวภาพบางอย่างอาจทำให้เกิดความตายได้ แต่เราไม่คิดว่ามันจะนำไปสู่การระบาดใหญ่” Kaplan กล่าว “ เราไม่ได้พยายามหยุดการละเมิดทุกครั้ง

อีกองค์ประกอบหนึ่งของกลยุทธ์การป้องกันที่ลึกล้ำคือการป้องกันการเบรคหรือการแจ้งเตือนที่อาจทำให้แบบจำลองลืมการฝึกอบรมด้านความปลอดภัยเป็นหลักและให้คำตอบสำหรับการสอบถามที่อาจถูกปฏิเสธ Kaplan กล่าวว่า บริษัท ตรวจสอบการใช้งานของ Claude และผู้ใช้“ Off-Campus” ที่พยายามเจลเบรคแบบจำลองอย่างต่อเนื่อง ได้เปิดตัวโปรแกรมเงินรางวัลเพื่อให้รางวัลแก่ผู้ใช้ที่เรียกว่า “Universal” Jailbreak หรือพร้อมที่จะทำให้ระบบยกเลิกการป้องกันทั้งหมดทันที โฆษกคนหนึ่งกล่าวว่าจนถึงตอนนี้โปรแกรมได้เกิดการแหกคุกสากลที่ได้รับการแก้ไขมากขึ้นเรื่อย ๆ พบว่าได้รับรางวัล $ 25,000 สำหรับนักวิจัย

มนุษย์ได้เสริมสร้างความปลอดภัยให้กับไซเบอร์ดังนั้นเครือข่ายประสาทขั้นพื้นฐานของ Claude จึงได้รับการคุ้มครองเพื่อป้องกันความพยายามจากการโจรกรรมโดยนักแสดงที่ไม่ใช่รัฐ บริษัท ยังคงตัดสินตัวเองว่ามีความเสี่ยงต่อผู้โจมตีในระดับสถิติแห่งชาติ แต่มีจุดมุ่งหมายที่จะทำให้ตัวแทนเครือข่ายเพียงพอที่จะบล็อก พวกเขา เมื่อถึงเวลาที่เชื่อว่าจำเป็นต้องอัพเกรดเป็น ASL-4: ระดับความปลอดภัยต่อไปคาดว่าจะมีการมาถึงของแบบจำลองที่อาจก่อให้เกิดความเสี่ยงด้านความมั่นคงแห่งชาติที่สำคัญหรืออาจดำเนินการวิจัย AI โดยอัตโนมัติโดยไม่มีการป้อนข้อมูลของมนุษย์

ในที่สุด บริษัท ได้ดำเนินการสิ่งที่เรียกว่าการทดลอง “ยกระดับ” โดยมีวัตถุประสงค์เพื่อหาปริมาณความสำคัญของโมเดล AI เลขที่ ข้อ จำกัด ข้างต้นสามารถปรับปรุงความสามารถของมือใหม่ในการพยายามสร้างอาวุธชีวภาพเมื่อเทียบกับเครื่องมืออื่น ๆ เช่น Google หรือโมเดลขั้นสูง Sight Kaplan กล่าวในการทดลองที่ได้รับคะแนนจากผู้เชี่ยวชาญด้านความปลอดภัยทางชีวภาพมนุษย์พบว่าระดับประสิทธิภาพของ Claude Opus 4 นั้นสูงกว่าอย่างมีนัยสำคัญมากกว่าการค้นหาของ Google และรุ่นก่อนหน้า

ความหวังของมานุษยวิทยาคือระบบรักษาความปลอดภัยหลายระบบทั้งหมดซ้อนกันอยู่ด้านบนของโมเดล (ได้รับการฝึกฝนแยกต่างหากสำหรับการฝึกอบรมที่ “ช่วยเหลือซื่อสัตย์และไม่เป็นอันตราย” ซึ่งจะป้องกันไม่ให้กรณีการใช้งานที่ไม่ดีเกือบทั้งหมด “ฉันไม่อยากจะบอกว่านี่เป็นสิ่งที่สมบูรณ์แบบ” Kaplan กล่าว “แต่เราทำให้มันยากมาก”

ถึงกระนั้นด้วยการรับเข้าของ Kaplan เองนักแสดงที่ไม่ดีเพียงคนเดียวเท่านั้นที่ต้องหลบหนีไปทำให้เกิดความสับสนวุ่นวายมากมาย “ สิ่งที่อันตรายอื่น ๆ ส่วนใหญ่ผู้ก่อการร้ายสามารถทำได้ – บางทีพวกเขาอาจฆ่าคน 10 หรือ 100 คน” เขากล่าว “เราเพิ่งเห็น Covid ฆ่าคนนับล้าน”

Source link