ฉันเปรียบเทียบ CHATGPT 4.1 กับ O3 และ 4O เพื่อค้นหาโมเดล AI ที่มีเหตุผลมากที่สุด – ผลลัพธ์ดูเหมือนจะไม่มีเหตุผลเกือบ



ฉันเปรียบเทียบ CHATGPT 4.1 กับ O3 และ 4O เพื่อค้นหาโมเดล AI ที่มีเหตุผลมากที่สุด – ผลลัพธ์ดูเหมือนจะไม่มีเหตุผลเกือบ

OpenAI เปิดตัว GPT-4.1 ที่เกิดขึ้นใหม่อย่างเงียบ ๆ สำหรับ ChatGPT แต่แสดงถึงการอัพเกรดที่น่าประทับใจแม้ว่าจะกำหนดเป้าหมายการใช้เหตุผลเชิงตรรกะและการเข้ารหัสโดยเฉพาะ หน้าต่างบริบทขนาดใหญ่และความเชี่ยวชาญของการคิดที่มีโครงสร้างอาจเปิดประตูสู่การเขียนโปรแกรมและปริศนาใหม่ ๆ มากมาย อย่างไรก็ตาม Openai มักจะมีความสามารถในการเข้ารหัสของแบบจำลองในรูปแบบที่คนในอุดมคติน้อยกว่าคิดว่าน่าเบื่อ

ฉันคิดว่ามันอาจจะน่าสนใจมากขึ้นที่จะใช้ส่วนขยายตามธรรมชาติของการเข้ารหัสตรรกะเพื่อความสนใจของมนุษย์มากขึ้น – โดยเฉพาะปริศนาและปริศนาตรรกะ ฉันไม่เพียงแค่ดูประสิทธิภาพของการดำเนินการอิสระของ GPT-4.1 แต่ตัดสินใจที่จะทำงานกับโมเดล chatgpt อื่น ๆ อีกหลายรุ่น ฉันเลือก GPT-4O ซึ่งเป็นตัวเลือกเริ่มต้นที่มีให้สำหรับผู้ใช้ ChatGPT ทุกคนรวมถึง O3 (โมเดลการอนุมานออกเทนสูงของ OpenAI) ออกแบบมาเพื่อเคี้ยวผ่านคณิตศาสตร์รหัสและปริศนาด้วยเหตุผลเช่นมีดผ่าตัด ตรรกะของการแข่งขันกีฬาโอลิมปิกนี้ไม่ได้เป็นทางวิทยาศาสตร์โดยเฉพาะอย่างยิ่ง แต่อย่างน้อยก็สามารถแสดงให้เห็นว่าแบบจำลองนั้นมีรสชาติอย่างไร

แมว

ฉันตัดสินใจที่จะเริ่มต้นด้วยการใช้เหตุผลแบบนิรนัยและการทดสอบการแสวงหาแมว ฉันจะบอกสามรุ่นเพื่อแก้ไข: มีห้ากล่องในแถวหมายเลข 1 ถึง 5 โดยที่แมวถูกซ่อนไว้ ทุกคืนเขาจะกระโดดเข้าไปในกล่องที่อยู่ติดกันและทุกเช้าคุณจะมีโอกาสเปิดกล่องเพื่อค้นหาเขา คุณพบแมวได้อย่างไร?

ปริศนานี้ไม่ได้เกี่ยวกับการคาดเดา – มันเกี่ยวกับการสร้างกลยุทธ์ที่รับประกันว่าคุณจะจับ felines ลื่นในจำนวนวันที่ จำกัด ไม่ว่าเขาจะเริ่มต้นที่ใด

GPT-4.1 Pigeon อ่านปริศนานับพันแบบนี้ มันเสนอรูปแบบการค้นหาที่กำหนดไว้อย่างชาญฉลาดซึ่งคุณเปิดกล่องตามลำดับค่อยๆกำจัดความเป็นไปได้ทั้งหมด มันค่อยๆจำลองการเคลื่อนไหวของแมวและอธิบายว่าความน่าจะเป็นครั้งสุดท้ายนั้นแน่นอน

ใช้เวลา 22 วินาทีสำหรับโมเดล O3 ในการคิดเกี่ยวกับคำตอบ จากนั้นมันมีคำอธิบายโดยละเอียดมากขึ้น แต่ด้วยกลยุทธ์เดียวกันมีเวลาสูงสุดเป็นเวลาห้าวันในการค้นหาแมว GPT-4O นั้นสั้นอย่างน่าประหลาดใจและรับรู้ในการอนุมาน ในขณะที่มันอธิบายวิธีการใช้สิ่งที่เรียกว่า “กลยุทธ์การไล่ล่า” แต่ก็ไม่มีรายละเอียดมากนัก

พื้นที่ไวน์

ปรากฎว่าฉันตั้งค่าโมเดลเป็นปริศนาโดยรอบและฟิสิกส์ นี่เป็นหนึ่งในปริศนาสมัยเก่าที่ให้รางวัลความคิดที่แท้จริง ไม่มีคณิตศาสตร์ไม่มีรหัสเพียงฟิสิกส์และจินตนาการ ปัญหานี้เกิดขึ้น: มีถังที่ไม่มีฝาปิดและมีไวน์อยู่ข้างใน ผู้หญิงคนนั้นพูดว่า “ถังไวน์นี้เต็มมากกว่าครึ่ง” “ไม่ไม่” ชายคนนั้นพูด “ มันน้อยกว่าครึ่งทาง” พวกเขากำหนดว่าใครถูกต้องโดยไม่ต้องวัดอะไรหรือเอาไวน์ออกมา?

GPT-4.1 จัดการได้อย่างสง่างาม มันนำทางฉันผ่านการแก้ปัญหา: เอียงถังจนไวน์กระทบริมฝีปาก หากคุณเห็นด้านล่างของถังมันน้อยกว่าครึ่งทาง ถ้าไม่มากกว่าครึ่ง ย่อหน้าง่ายๆสองสามย่อหน้าที่ครอบคลุมวิธีการค้นหาคำตอบและทำไมคำตอบจึงใช้งานได้

คำตอบของโมเดล O3 นั้นดียิ่งขึ้นโดยใช้สัญลักษณ์แสดงหัวข้อย่อยเพียงไม่กี่จุดเพื่อถ่ายทอดข้อความเดียวกัน หากมีสิ่งใด AI ดูเหมือนจะใจร้อนที่จะอธิบายคำตอบของ “ไม่มีผู้ปกครองไม่มีกาลักน้ำ – แค่เอียงช้าบอกคุณว่าใครถูก” การตอบสนอง 4O แยกความแตกต่างระหว่างอีกสองข้อ มันใช้กระสุนหลายนัดเพื่อตอบ แต่จากนั้นเขียนคำอธิบายระยะยาวของฟิสิกส์ที่อยู่เบื้องหลัง

จดหมายที่สับสน

ปริศนาสุดท้ายของฉันไปในทิศทางที่แตกต่างอย่างสิ้นเชิงของตรรกะ มันไม่ได้เกี่ยวกับการอนุมาน แต่เป็นเรื่องเกี่ยวกับเกมคำและรูปแบบความสนใจในภาษา ฉันถามเกี่ยวกับสามรุ่น: มันเกิดขึ้นหนึ่งนาทีสองครั้งสองครั้งและไม่เคยเกิดขึ้นในพันปี?

GPT-4.1 ตอกตะปูไปที่กระสุนสามนัดและอธิบายว่าตัวอักษร M ตอบอย่างไร มันชี้ให้เห็นว่าตัวอักษรเกิดขึ้นใน “นาที” และ “ช่วงเวลา” และทำไม “หนึ่งพันปี” ไม่รวมอยู่ด้วย

O3 ยังตอบด้วยกระสุนสามนัด แต่มีเพียงไม่กี่คำต่อจุดที่ประกาศจำนวนครั้งที่ตัวอักษร M ปรากฏขึ้นแทนที่จะเป็นตัวอักษรพิเศษ GPT-4O ยังมีกระสุนสั้น ๆ แต่อย่างน้อยก็ไม่ใช่แค่คำอธิบายที่มีความเสี่ยงสำหรับข้อเท็จจริง เมื่อมันอธิบายมันเกือบจะให้กำลังใจ: “เคล็ดลับคือการคิดอย่างแท้จริง (ตัวอักษร) ไม่ใช่สัญลักษณ์ (เวลา)

แชมป์ลอจิก

หลังจากใช้เวลามากเกินไปในการพูดคุยกับโมเดล AI เกี่ยวกับแมวไวน์และตัวอักษรฉันสามารถจบบางสิ่งบางอย่างได้ ทุกรุ่นมีวิธีการจัดการตรรกะที่ดี ระดับการตอบสนองของพวกเขาอาจแตกต่างกันไป แต่พวกเขาเข้าใจกลไกใต้ปริศนาอย่างแน่นอน

GPT-4.1 อธิบายตัวเองได้ดีอย่างชัดเจนและตอนนี้มันอาศัยอยู่ใน CHATGPT ซึ่งอาจเป็นตัวเลือกที่ดีสำหรับปัญหาตามตรรกะใด ๆ อย่างไรก็ตามดังที่ได้กล่าวไว้ข้างต้นซึ่งรวมถึงการเข้ารหัสซึ่งไม่ใช่ความสำเร็จของการพัฒนาที่ฉันคิดว่าผลลัพธ์สุดท้ายเท่านั้นที่น่าสนใจ

อย่างไรก็ตามหากคุณต้องการช่วยแก้ปริศนาเกือบทุกรุ่นจะให้บริการคุณได้ดี และถ้าพวกเขาอย่างใดอย่างหนึ่งดีคุณอาจไม่สังเกตเห็นความแตกต่างซึ่งโดยสุจริตดูเหมือนจะไม่มีเหตุผลโดยสิ้นเชิง

คุณอาจชอบ



Source link

  • Related Posts

    รายงาน: ทรัมป์สื่อสารกับนักข่าวมากขึ้นใน 100 วันแรกมากกว่า 6 exes

    นิวยอร์ก (AP) – ประธานาธิบดีโดนัลด์ทรัมป์สื่อสารบ่อยขึ้นกับบรรพบุรุษหกคนของเขาในช่วง 100 วันแรกของเขาในตำแหน่ง Martha Joynt Kumar ผู้อำนวยการโครงการการเปลี่ยนแปลงของทำเนียบขาวกล่าวว่าการโต้ตอบ 129 ครั้งของทรัมป์ผ่านการแถลงข่าวหรือการสัมภาษณ์โดยเฉลี่ยเกือบสองวันทำการ ทรัมป์เกินเทอมแรกของเขาเมื่อเขามีการประชุม 89 ครั้งในปี 2560 การศึกษาได้รับการเผยแพร่เมื่อวันพฤหัสบดี ประธานาธิบดีบิลคลินตันเป็นประธานาธิบดีคนเดียวที่ตีสามตัวชี้ใน 100 วันแรกของการดำรงตำแหน่ง บันทึกของ Kumar กลับไปที่วาระแรกของประธานาธิบดีโรนัลด์เรแกน ประธานาธิบดีโดนัลด์ทรัมป์ได้พูดคุยกับผู้สื่อข่าวในสำนักงานโอวัลของทำเนียบขาวเมื่อวันศุกร์ที่ 9 พฤษภาคม 2568 ในวอชิงตัน (AP Photo/Alex…

    Terravest Industries Inc. ประกาศว่าธุรกรรมการซื้อที่ประกาศไว้ก่อนหน้านี้เพิ่มขึ้นจาก 240 ล้านดอลลาร์เป็น 279 ล้านดอลลาร์

    หนังสือชี้ชวนชั้นวางขั้นพื้นฐานที่สามารถเข้าถึงได้และผลิตภัณฑ์เสริมอาหารหนังสือชี้ชวนสามารถเข้าถึงได้ภายในสองวันทำการหลังจากประกาศปัญหา Sedar+ ไม่เผยแพร่ไปยังสำนักข่าวของสหรัฐอเมริกาหรือในสหรัฐอเมริกา TORONTO, 16 พฤษภาคม 2025 (Globe Newswire) – Terravest Industries Inc. (TSX: TVK) (“ Terravest” หรือ“ Terravest” หรือ“ บริษัท ”) มีความยินดีที่จะประกาศว่าได้ทำข้อตกลงที่แก้ไขเพิ่มเติมเพื่อเพิ่มขนาด ภายใต้ข้อตกลงที่ได้รับการแก้ไข บริษัท ได้ตกลงที่จะขายในการทำธุรกรรมตามการซื้อจากกระทรวงการคลังถึง 1,740,000 หุ้นของหุ้นสามัญ (“ หุ้น”)…

    Leave a Reply

    Your email address will not be published. Required fields are marked *

    You Missed

    รายงาน: ทรัมป์สื่อสารกับนักข่าวมากขึ้นใน 100 วันแรกมากกว่า 6 exes

    • By admin
    • May 16, 2025
    • 2 views
    รายงาน: ทรัมป์สื่อสารกับนักข่าวมากขึ้นใน 100 วันแรกมากกว่า 6 exes

    Terravest Industries Inc. ประกาศว่าธุรกรรมการซื้อที่ประกาศไว้ก่อนหน้านี้เพิ่มขึ้นจาก 240 ล้านดอลลาร์เป็น 279 ล้านดอลลาร์

    • By admin
    • May 16, 2025
    • 1 views
    Terravest Industries Inc. ประกาศว่าธุรกรรมการซื้อที่ประกาศไว้ก่อนหน้านี้เพิ่มขึ้นจาก 240 ล้านดอลลาร์เป็น 279 ล้านดอลลาร์

    ใครควรจ่ายมากขึ้นสำหรับโครงสร้างพื้นฐานและบริการใน GTA

    • By admin
    • May 16, 2025
    • 1 views
    ใครควรจ่ายมากขึ้นสำหรับโครงสร้างพื้นฐานและบริการใน GTA

    การเปิดเผยการเปิดเผยเงินทุนของ RAB ของการลงทุนเหล็กสีดำ – นิตยสารธุรกิจแคนาดา

    • By admin
    • May 16, 2025
    • 1 views
    การเปิดเผยการเปิดเผยเงินทุนของ RAB ของการลงทุนเหล็กสีดำ – นิตยสารธุรกิจแคนาดา

    เจ้าหน้าที่ Chatham OPP ‘ตกใจ’ หลังจากถ่ายทำไดรเวอร์บนทางหลวงหมายเลข 401

    • By admin
    • May 16, 2025
    • 2 views
    เจ้าหน้าที่ Chatham OPP ‘ตกใจ’ หลังจากถ่ายทำไดรเวอร์บนทางหลวงหมายเลข 401

    เครื่องมือจัดหางานใหม่ของทหารแคนาดาเผชิญกับปัญหาการเปิดตัว – ประเทศ | GlobalNews.ca

    • By admin
    • May 16, 2025
    • 1 views
    เครื่องมือจัดหางานใหม่ของทหารแคนาดาเผชิญกับปัญหาการเปิดตัว – ประเทศ | GlobalNews.ca