
“เครื่องจักรคิดได้ไหม” นั่นคือคำถามหลักของนักคณิตศาสตร์ในตำนานและนักวิทยาศาสตร์คอมพิวเตอร์ อลันทัวริงโพสท่า ตุลาคม 2493 ทัวริงต้องการประเมินว่าเครื่องจักรสามารถเลียนแบบหรือแสดงพฤติกรรมอัจฉริยะในระดับมนุษย์ได้หรือไม่ดังนั้นเขาจึงมาทดสอบที่เรียกว่า “เกมเลียนแบบ” ต่อมาเรียกว่าการทดสอบทัวริงการทดสอบนี้มักจะใช้เพื่อประเมินผลกระทบของเครื่องจักรที่สามารถเลียนแบบพฤติกรรมของมนุษย์ได้
ที่มาของการทดสอบทัวริงเกิดจากความยากลำบากโดยธรรมชาติของการสร้างมาตรฐานวัตถุประสงค์ซึ่งมีวัตถุประสงค์เพื่อแยกความคิดดั้งเดิมจากการเลียนแบบการเลียนแบบ ความท้าทายคือหลักฐานของความคิดดั้งเดิมสามารถปฏิเสธได้โดยการเขียนโปรแกรมเป็นข้อโต้แย้งที่ฉลาด โดยพื้นฐานแล้วมันได้รับการพิสูจน์แล้วว่าเครื่องสามารถพิจารณาปมของการกำหนดความคิดได้หรือไม่
ที่เกี่ยวข้อง: ปัจจุบันมีหุ่นยนต์ที่แปลกประหลาดที่สุด 8 แห่งในโลก
ทัวริงต้องการท้าทายความคิดนี้ ลักษณะเชิงกลของคอมพิวเตอร์หมายความว่าพวกเขาไม่สามารถคิดได้ในหลักการ นักคณิตศาสตร์เชื่อว่าหากคอมพิวเตอร์ดูเหมือนจะแยกไม่ออกจากมนุษย์แล้วทำไมพวกเขาไม่ควรถูกมองว่าเป็นหน่วยงานแห่งความคิด?
การทดสอบทัวริงใช้งานได้อย่างไร?
ทัวริงเสนอการแข่งขันสามพรรค ก่อนอื่นเขาสรุปการทดสอบที่ชายและหญิงเข้ามาในห้องแยกต่างหากแขกปาร์ตี้ใช้คำตอบการพิมพ์เพื่อพยายามพิจารณาว่าบุคคลใดเป็นคนที่ในขณะที่ผู้ชายและผู้หญิงพยายามโน้มน้าวพวกเขาว่าพวกเขาเป็นเพศตรงข้าม
จากนั้นทัวริงเสนอการทดสอบที่ผู้สอบสวนระยะไกลได้รับมอบหมายให้ถามคำถามกับทั้งคอมพิวเตอร์และเรื่องมนุษย์และไม่เห็นห้านาทีเพื่อพิจารณาว่าคนไหนมีสติ ความสำเร็จของคอมพิวเตอร์ในการ“ คิด” นั้นสามารถวัดได้โดยความเป็นไปได้ที่จะเข้าใจผิดว่าเป็นมนุษยชาติ
ต่อมาการทำซ้ำของเกมเลียนแบบที่เสนอโดยทัวริงในปี 1952 ในการออกอากาศของบีบีซีจะเห็นความพยายามของคอมพิวเตอร์และโน้มน้าวให้คนคณะลูกขุนคิดว่ามันเป็นมนุษย์
การทดสอบทัวริงเป็นการทดลองทางความคิดเชิงปรัชญาไม่ใช่วิธีที่ใช้งานได้จริงในการกำหนดความฉลาดของเครื่องจักร อย่างไรก็ตามมันค่อยๆถูกมองว่าเป็นการเรียนรู้ของเครื่องจักรและ AI (AI) ผ่านระบบเพื่อพิสูจน์ความฉลาดสากลเทียม
การทำนายทัวริง ในช่วงต้นยุค 2000 คอมพิวเตอร์การเขียนโปรแกรมจะสามารถ “เล่นได้ดีจนผู้สอบสวนโดยเฉลี่ยจะไม่มีโอกาสมากกว่า 70% หลังจากสอบถามรายละเอียดห้านาที”
อย่างไรก็ตามสิ่งนี้ไม่ผ่าน อย่างไรก็ตามการเพิ่มขึ้นของ CHATGPT และระบบปัญญาประดิษฐ์อื่น ๆ และรูปแบบภาษาขนาดใหญ่ (LLM) ได้ครองการสนทนาในการทดสอบทัวริง
ในเดือนมิถุนายน 2567 นักวิจัยอ้างว่า LLM GPT-4 ถือว่าเป็น 54% ของมนุษย์ ในระหว่างการทดสอบทัวริงภายในห้านาทีของการสอบถาม แม้จะอยู่ห่างจากวันที่คาดการณ์ของนักคณิตศาสตร์ยี่สิบปี แต่นี่ การวิจัยมหาวิทยาลัยซานดิเอโก มีผู้เล่นเพียงสองคนเท่านั้นที่มีส่วนร่วมในการทดสอบไม่ใช่เกมสามผู้เล่นดั้งเดิมของทัวริงดังนั้นภายใต้เงื่อนไขเฉพาะที่เขากำหนด GPT-4 ไม่ผ่านการทดสอบทัวริง
อย่างไรก็ตามการศึกษานี้ยังคงแสดงให้เห็นว่าความสำเร็จของมนุษย์อย่างน้อยที่สุดก็สามารถเลียนแบบความสำเร็จของมนุษย์ได้อย่างไร
ความท้าทายและข้อ จำกัด ของการทดสอบทัวริง
ในการผ่านการทดสอบทัวริงอาจเป็นเป้าหมายหลักของการแสดงให้เห็นถึงการคิดในระบบ AI แต่การทดสอบนี้มีข้อ จำกัด และคู่แข่ง
การทดสอบและทฤษฎีการทดสอบและทฤษฎีของทัวริงได้พิสูจน์คำอธิบายโดยละเอียดว่าเครื่องจักรสามารถคิดและคัดค้านได้เก้าครั้ง ช่วงเหล่านี้มาจากแนวคิดทางเทววิทยาของความคิดและความคิดที่ว่าเครื่องจักรไม่สามารถรู้สึกถึงอารมณ์หรือมีความรู้สึกตลกขบขันเกี่ยวกับข้อ จำกัด ทางคณิตศาสตร์เชิงตรรกะที่ป้องกันไม่ให้เครื่องตอบคำถามหรือตอบคำถามอย่างถูกต้อง
แต่บางทีการคัดค้านที่เกี่ยวข้องมากที่สุดมาจากนักคณิตศาสตร์ Ada Lovelace เมื่อ การแสดงความคิดเห็น เมื่อคำนวณกลไกการวิเคราะห์ของผู้บุกเบิก Charles Babbage ขอแนะนำให้เครื่องไม่สามารถ “เริ่มต้นอะไรก็ได้” และสามารถทำอะไรก็ได้ที่คำสั่งของเราทำ การโต้แย้งของทัวริงในบทความของเขาคือการถามว่ามนุษย์สามารถทำอะไรใหม่ ๆ อย่างแท้จริงในโลกที่อยู่ภายใต้กฎของธรรมชาติและขอบเขตของจักรวาลหรือไม่ ทัวริงยังชี้ให้เห็นว่าคอมพิวเตอร์อาจถูก จำกัด แต่ก็ยังเป็นไปได้ที่จะทำสิ่งที่ไม่คาดคิด – เช่นเดียวกับมนุษย์ที่ถูกผูกมัดด้วยการแต่งหน้าทางพันธุกรรมและชีววิทยาของเรา
นอกจากนั้นการทดสอบทัวริงเองก็ไม่ได้บ่งบอกถึงสติหรือสติปัญญา แต่สามารถวิพากษ์วิจารณ์สิ่งที่เข้าใจได้ว่าเป็นเนื้อหาของความคิดและสิ่งที่อาจเป็นเครื่องคิด การทดสอบยังขึ้นอยู่กับการตัดสินของผู้สอบสวนเปรียบเทียบกับมนุษย์และการตัดสินพฤติกรรม
จากนั้นก็มีข้อโต้แย้งว่าการทดสอบทัวริงได้รับการออกแบบรอบ ๆ พฤติกรรมของเรื่องซึ่งหมายความว่าเครื่องจักรสามารถจำลองจิตสำนึกหรือความคิดของมนุษย์ได้มากกว่าการครอบครองของตัวเองอย่างแข็งขัน สิ่งนี้อาจทำให้เกิด Turing Trap – ซึ่งระบบ AI มุ่งเน้นไปที่การเลียนแบบมนุษย์มากกว่าที่จะถูกออกแบบมาเพื่อให้มีฟังก์ชั่นที่อนุญาตให้มนุษย์ทำมากขึ้นหรือเพิ่มความสามารถทางปัญญาของพวกเขาเกินกว่าความเป็นไปได้ของความคิดของมนุษย์
การทดสอบทัวริงยังคงเกี่ยวข้องหรือไม่?
แม้ว่าการทดสอบทัวริงอาจเป็นมาตรฐานสำหรับระบบ AI ที่จะเกิน อีลีเนอร์วัตสันผู้เชี่ยวชาญด้านจริยธรรมของ AI และสมาชิกของสถาบันวิศวกรไฟฟ้าและอิเล็กทรอนิกส์ (IEEE) บอกกับวิทยาศาสตร์การใช้ชีวิต“ การทดสอบทัวริงกำลังล้าสมัยมากขึ้นและกลายเป็นมาตรฐานที่มีความหมายสำหรับความสามารถด้านปัญญาประดิษฐ์ (AI)”
วัตสันอธิบายว่าการพัฒนาของ LLM จากการเลียนแบบมนุษย์เพียงแค่สามารถติดตามระบบพร็อกซีจากการแสวงหาเป้าหมายของอาจารย์โดยการเขียนโปรแกรม “นั่งร้าน” คล้ายกับว่าสมองมนุษย์ทำหน้าที่เป็นหน้าที่ใหม่ของการไหลผ่านชั้นเซลล์ประสาท
“ ระบบเหล่านี้สามารถใช้เหตุผลที่ซับซ้อนสร้างการสร้างเนื้อหาและช่วยเหลือการค้นพบทางวิทยาศาสตร์ แต่ความท้าทายที่แท้จริงไม่ใช่ว่า AI สามารถหลอกลวงมนุษย์ในการสนทนาได้หรือไม่ แต่มันสามารถพัฒนาสามัญสำนึกที่แท้จริงการให้เหตุผลและความสอดคล้องของเป้าหมายที่ตรงกับคุณค่าของมนุษย์ “หากไม่มีความสอดคล้องที่ลึกกว่าการผ่านการทดสอบทัวริงเป็นเพียงรูปแบบที่ซับซ้อนของการเลียนแบบไม่ใช่ความฉลาดที่แท้จริง”
โดยพื้นฐานแล้วการทดสอบทัวริงอาจเป็นการประเมินข้อผิดพลาดในระบบ AI ที่ทันสมัย
ดังนั้นนักวิทยาศาสตร์“ จำเป็นต้องพัฒนากรอบใหม่เพื่อประเมินปัญญาประดิษฐ์นอกเหนือจากการเลียนแบบมนุษย์อย่างง่ายเพื่อประเมินความสามารถข้อ จำกัด ความเสี่ยงที่อาจเกิดขึ้นและที่สำคัญที่สุด สอดคล้องกับค่านิยมและเป้าหมายของมนุษย์” วัตสันกล่าว
ซึ่งแตกต่างจากการทดสอบทัวริงเฟรมเวิร์กเหล่านี้จะต้องพิจารณาข้อดีของระบบ AI และความแตกต่างพื้นฐานจากความฉลาดของมนุษย์เพื่อให้แน่ใจว่า AIS นั้น“ ได้รับการปรับปรุงมากกว่าการลดลงตัวแทนมนุษย์และความเป็นอยู่ที่ดี”
“ การวัดที่แท้จริงของปัญญาประดิษฐ์ที่แท้จริงจะไม่เป็นความสามารถในการประพฤติ แต่มันสามารถเติมเต็มและปรับปรุงมนุษย์และพาเราไปสู่ระดับที่สูงขึ้น” วัตสันกล่าวสรุป