ฉันเปรียบเทียบ CHATGPT 4.1 กับ O3 และ 4O เพื่อค้นหาโมเดล AI ที่มีเหตุผลมากที่สุด - ผลลัพธ์ดูเหมือนจะไม่มีเหตุผลเกือบ

OpenAI เปิดตัว GPT-4.1 ที่เกิดขึ้นใหม่อย่างเงียบ ๆ สำหรับ ChatGPT แต่แสดงถึงการอัพเกรดที่น่าประทับใจแม้ว่าจะกำหนดเป้าหมายการใช้เหตุผลเชิงตรรกะและการเข้ารหัสโดยเฉพาะ หน้าต่างบริบทขนาดใหญ่และความเชี่ยวชาญของการคิดที่มีโครงสร้างอาจเปิดประตูสู่การเขียนโปรแกรมและปริศนาใหม่ ๆ มากมาย อย่างไรก็ตาม Openai มักจะมีความสามารถในการเข้ารหัสของแบบจำลองในรูปแบบที่คนในอุดมคติน้อยกว่าคิดว่าน่าเบื่อ

ฉันคิดว่ามันอาจจะน่าสนใจมากขึ้นที่จะใช้ส่วนขยายตามธรรมชาติของการเข้ารหัสตรรกะเพื่อความสนใจของมนุษย์มากขึ้น – โดยเฉพาะปริศนาและปริศนาตรรกะ ฉันไม่เพียงแค่ดูประสิทธิภาพของการดำเนินการอิสระของ GPT-4.1 แต่ตัดสินใจที่จะทำงานกับโมเดล chatgpt อื่น ๆ อีกหลายรุ่น ฉันเลือก GPT-4O ซึ่งเป็นตัวเลือกเริ่มต้นที่มีให้สำหรับผู้ใช้ ChatGPT ทุกคนรวมถึง O3 (โมเดลการอนุมานออกเทนสูงของ OpenAI) ออกแบบมาเพื่อเคี้ยวผ่านคณิตศาสตร์รหัสและปริศนาด้วยเหตุผลเช่นมีดผ่าตัด ตรรกะของการแข่งขันกีฬาโอลิมปิกนี้ไม่ได้เป็นทางวิทยาศาสตร์โดยเฉพาะอย่างยิ่ง แต่อย่างน้อยก็สามารถแสดงให้เห็นว่าแบบจำลองนั้นมีรสชาติอย่างไร

แมว

ฉันตัดสินใจที่จะเริ่มต้นด้วยการใช้เหตุผลแบบนิรนัยและการทดสอบการแสวงหาแมว ฉันจะบอกสามรุ่นเพื่อแก้ไข: มีห้ากล่องในแถวหมายเลข 1 ถึง 5 โดยที่แมวถูกซ่อนไว้ ทุกคืนเขาจะกระโดดเข้าไปในกล่องที่อยู่ติดกันและทุกเช้าคุณจะมีโอกาสเปิดกล่องเพื่อค้นหาเขา คุณพบแมวได้อย่างไร?

ปริศนานี้ไม่ได้เกี่ยวกับการคาดเดา – มันเกี่ยวกับการสร้างกลยุทธ์ที่รับประกันว่าคุณจะจับ felines ลื่นในจำนวนวันที่ จำกัด ไม่ว่าเขาจะเริ่มต้นที่ใด

GPT-4.1 Pigeon อ่านปริศนานับพันแบบนี้ มันเสนอรูปแบบการค้นหาที่กำหนดไว้อย่างชาญฉลาดซึ่งคุณเปิดกล่องตามลำดับค่อยๆกำจัดความเป็นไปได้ทั้งหมด มันค่อยๆจำลองการเคลื่อนไหวของแมวและอธิบายว่าความน่าจะเป็นครั้งสุดท้ายนั้นแน่นอน

ใช้เวลา 22 วินาทีสำหรับโมเดล O3 ในการคิดเกี่ยวกับคำตอบ จากนั้นมันมีคำอธิบายโดยละเอียดมากขึ้น แต่ด้วยกลยุทธ์เดียวกันมีเวลาสูงสุดเป็นเวลาห้าวันในการค้นหาแมว GPT-4O นั้นสั้นอย่างน่าประหลาดใจและรับรู้ในการอนุมาน ในขณะที่มันอธิบายวิธีการใช้สิ่งที่เรียกว่า “กลยุทธ์การไล่ล่า” แต่ก็ไม่มีรายละเอียดมากนัก

พื้นที่ไวน์

ปรากฎว่าฉันตั้งค่าโมเดลเป็นปริศนาโดยรอบและฟิสิกส์ นี่เป็นหนึ่งในปริศนาสมัยเก่าที่ให้รางวัลความคิดที่แท้จริง ไม่มีคณิตศาสตร์ไม่มีรหัสเพียงฟิสิกส์และจินตนาการ ปัญหานี้เกิดขึ้น: มีถังที่ไม่มีฝาปิดและมีไวน์อยู่ข้างใน ผู้หญิงคนนั้นพูดว่า “ถังไวน์นี้เต็มมากกว่าครึ่ง” “ไม่ไม่” ชายคนนั้นพูด “ มันน้อยกว่าครึ่งทาง” พวกเขากำหนดว่าใครถูกต้องโดยไม่ต้องวัดอะไรหรือเอาไวน์ออกมา?

GPT-4.1 จัดการได้อย่างสง่างาม มันนำทางฉันผ่านการแก้ปัญหา: เอียงถังจนไวน์กระทบริมฝีปาก หากคุณเห็นด้านล่างของถังมันน้อยกว่าครึ่งทาง ถ้าไม่มากกว่าครึ่ง ย่อหน้าง่ายๆสองสามย่อหน้าที่ครอบคลุมวิธีการค้นหาคำตอบและทำไมคำตอบจึงใช้งานได้

คำตอบของโมเดล O3 นั้นดียิ่งขึ้นโดยใช้สัญลักษณ์แสดงหัวข้อย่อยเพียงไม่กี่จุดเพื่อถ่ายทอดข้อความเดียวกัน หากมีสิ่งใด AI ดูเหมือนจะใจร้อนที่จะอธิบายคำตอบของ “ไม่มีผู้ปกครองไม่มีกาลักน้ำ – แค่เอียงช้าบอกคุณว่าใครถูก” การตอบสนอง 4O แยกความแตกต่างระหว่างอีกสองข้อ มันใช้กระสุนหลายนัดเพื่อตอบ แต่จากนั้นเขียนคำอธิบายระยะยาวของฟิสิกส์ที่อยู่เบื้องหลัง

จดหมายที่สับสน

ปริศนาสุดท้ายของฉันไปในทิศทางที่แตกต่างอย่างสิ้นเชิงของตรรกะ มันไม่ได้เกี่ยวกับการอนุมาน แต่เป็นเรื่องเกี่ยวกับเกมคำและรูปแบบความสนใจในภาษา ฉันถามเกี่ยวกับสามรุ่น: มันเกิดขึ้นหนึ่งนาทีสองครั้งสองครั้งและไม่เคยเกิดขึ้นในพันปี?

GPT-4.1 ตอกตะปูไปที่กระสุนสามนัดและอธิบายว่าตัวอักษร M ตอบอย่างไร มันชี้ให้เห็นว่าตัวอักษรเกิดขึ้นใน “นาที” และ “ช่วงเวลา” และทำไม “หนึ่งพันปี” ไม่รวมอยู่ด้วย

O3 ยังตอบด้วยกระสุนสามนัด แต่มีเพียงไม่กี่คำต่อจุดที่ประกาศจำนวนครั้งที่ตัวอักษร M ปรากฏขึ้นแทนที่จะเป็นตัวอักษรพิเศษ GPT-4O ยังมีกระสุนสั้น ๆ แต่อย่างน้อยก็ไม่ใช่แค่คำอธิบายที่มีความเสี่ยงสำหรับข้อเท็จจริง เมื่อมันอธิบายมันเกือบจะให้กำลังใจ: “เคล็ดลับคือการคิดอย่างแท้จริง (ตัวอักษร) ไม่ใช่สัญลักษณ์ (เวลา)

แชมป์ลอจิก

หลังจากใช้เวลามากเกินไปในการพูดคุยกับโมเดล AI เกี่ยวกับแมวไวน์และตัวอักษรฉันสามารถจบบางสิ่งบางอย่างได้ ทุกรุ่นมีวิธีการจัดการตรรกะที่ดี ระดับการตอบสนองของพวกเขาอาจแตกต่างกันไป แต่พวกเขาเข้าใจกลไกใต้ปริศนาอย่างแน่นอน

GPT-4.1 อธิบายตัวเองได้ดีอย่างชัดเจนและตอนนี้มันอาศัยอยู่ใน CHATGPT ซึ่งอาจเป็นตัวเลือกที่ดีสำหรับปัญหาตามตรรกะใด ๆ อย่างไรก็ตามดังที่ได้กล่าวไว้ข้างต้นซึ่งรวมถึงการเข้ารหัสซึ่งไม่ใช่ความสำเร็จของการพัฒนาที่ฉันคิดว่าผลลัพธ์สุดท้ายเท่านั้นที่น่าสนใจ

อย่างไรก็ตามหากคุณต้องการช่วยแก้ปริศนาเกือบทุกรุ่นจะให้บริการคุณได้ดี และถ้าพวกเขาอย่างใดอย่างหนึ่งดีคุณอาจไม่สังเกตเห็นความแตกต่างซึ่งโดยสุจริตดูเหมือนจะไม่มีเหตุผลโดยสิ้นเชิง