ฉันเปรียบเทียบ CHATGPT 4.1 กับ O3 และ 4O เพื่อค้นหาโมเดล AI ที่มีเหตุผลมากที่สุด – ผลลัพธ์ดูเหมือนจะไม่มีเหตุผลเกือบ



ฉันเปรียบเทียบ CHATGPT 4.1 กับ O3 และ 4O เพื่อค้นหาโมเดล AI ที่มีเหตุผลมากที่สุด – ผลลัพธ์ดูเหมือนจะไม่มีเหตุผลเกือบ

OpenAI เปิดตัว GPT-4.1 ที่เกิดขึ้นใหม่อย่างเงียบ ๆ สำหรับ ChatGPT แต่แสดงถึงการอัพเกรดที่น่าประทับใจแม้ว่าจะกำหนดเป้าหมายการใช้เหตุผลเชิงตรรกะและการเข้ารหัสโดยเฉพาะ หน้าต่างบริบทขนาดใหญ่และความเชี่ยวชาญของการคิดที่มีโครงสร้างอาจเปิดประตูสู่การเขียนโปรแกรมและปริศนาใหม่ ๆ มากมาย อย่างไรก็ตาม Openai มักจะมีความสามารถในการเข้ารหัสของแบบจำลองในรูปแบบที่คนในอุดมคติน้อยกว่าคิดว่าน่าเบื่อ

ฉันคิดว่ามันอาจจะน่าสนใจมากขึ้นที่จะใช้ส่วนขยายตามธรรมชาติของการเข้ารหัสตรรกะเพื่อความสนใจของมนุษย์มากขึ้น – โดยเฉพาะปริศนาและปริศนาตรรกะ ฉันไม่เพียงแค่ดูประสิทธิภาพของการดำเนินการอิสระของ GPT-4.1 แต่ตัดสินใจที่จะทำงานกับโมเดล chatgpt อื่น ๆ อีกหลายรุ่น ฉันเลือก GPT-4O ซึ่งเป็นตัวเลือกเริ่มต้นที่มีให้สำหรับผู้ใช้ ChatGPT ทุกคนรวมถึง O3 (โมเดลการอนุมานออกเทนสูงของ OpenAI) ออกแบบมาเพื่อเคี้ยวผ่านคณิตศาสตร์รหัสและปริศนาด้วยเหตุผลเช่นมีดผ่าตัด ตรรกะของการแข่งขันกีฬาโอลิมปิกนี้ไม่ได้เป็นทางวิทยาศาสตร์โดยเฉพาะอย่างยิ่ง แต่อย่างน้อยก็สามารถแสดงให้เห็นว่าแบบจำลองนั้นมีรสชาติอย่างไร

แมว

ฉันตัดสินใจที่จะเริ่มต้นด้วยการใช้เหตุผลแบบนิรนัยและการทดสอบการแสวงหาแมว ฉันจะบอกสามรุ่นเพื่อแก้ไข: มีห้ากล่องในแถวหมายเลข 1 ถึง 5 โดยที่แมวถูกซ่อนไว้ ทุกคืนเขาจะกระโดดเข้าไปในกล่องที่อยู่ติดกันและทุกเช้าคุณจะมีโอกาสเปิดกล่องเพื่อค้นหาเขา คุณพบแมวได้อย่างไร?

ปริศนานี้ไม่ได้เกี่ยวกับการคาดเดา – มันเกี่ยวกับการสร้างกลยุทธ์ที่รับประกันว่าคุณจะจับ felines ลื่นในจำนวนวันที่ จำกัด ไม่ว่าเขาจะเริ่มต้นที่ใด

GPT-4.1 Pigeon อ่านปริศนานับพันแบบนี้ มันเสนอรูปแบบการค้นหาที่กำหนดไว้อย่างชาญฉลาดซึ่งคุณเปิดกล่องตามลำดับค่อยๆกำจัดความเป็นไปได้ทั้งหมด มันค่อยๆจำลองการเคลื่อนไหวของแมวและอธิบายว่าความน่าจะเป็นครั้งสุดท้ายนั้นแน่นอน

ใช้เวลา 22 วินาทีสำหรับโมเดล O3 ในการคิดเกี่ยวกับคำตอบ จากนั้นมันมีคำอธิบายโดยละเอียดมากขึ้น แต่ด้วยกลยุทธ์เดียวกันมีเวลาสูงสุดเป็นเวลาห้าวันในการค้นหาแมว GPT-4O นั้นสั้นอย่างน่าประหลาดใจและรับรู้ในการอนุมาน ในขณะที่มันอธิบายวิธีการใช้สิ่งที่เรียกว่า “กลยุทธ์การไล่ล่า” แต่ก็ไม่มีรายละเอียดมากนัก

พื้นที่ไวน์

ปรากฎว่าฉันตั้งค่าโมเดลเป็นปริศนาโดยรอบและฟิสิกส์ นี่เป็นหนึ่งในปริศนาสมัยเก่าที่ให้รางวัลความคิดที่แท้จริง ไม่มีคณิตศาสตร์ไม่มีรหัสเพียงฟิสิกส์และจินตนาการ ปัญหานี้เกิดขึ้น: มีถังที่ไม่มีฝาปิดและมีไวน์อยู่ข้างใน ผู้หญิงคนนั้นพูดว่า “ถังไวน์นี้เต็มมากกว่าครึ่ง” “ไม่ไม่” ชายคนนั้นพูด “ มันน้อยกว่าครึ่งทาง” พวกเขากำหนดว่าใครถูกต้องโดยไม่ต้องวัดอะไรหรือเอาไวน์ออกมา?

GPT-4.1 จัดการได้อย่างสง่างาม มันนำทางฉันผ่านการแก้ปัญหา: เอียงถังจนไวน์กระทบริมฝีปาก หากคุณเห็นด้านล่างของถังมันน้อยกว่าครึ่งทาง ถ้าไม่มากกว่าครึ่ง ย่อหน้าง่ายๆสองสามย่อหน้าที่ครอบคลุมวิธีการค้นหาคำตอบและทำไมคำตอบจึงใช้งานได้

คำตอบของโมเดล O3 นั้นดียิ่งขึ้นโดยใช้สัญลักษณ์แสดงหัวข้อย่อยเพียงไม่กี่จุดเพื่อถ่ายทอดข้อความเดียวกัน หากมีสิ่งใด AI ดูเหมือนจะใจร้อนที่จะอธิบายคำตอบของ “ไม่มีผู้ปกครองไม่มีกาลักน้ำ – แค่เอียงช้าบอกคุณว่าใครถูก” การตอบสนอง 4O แยกความแตกต่างระหว่างอีกสองข้อ มันใช้กระสุนหลายนัดเพื่อตอบ แต่จากนั้นเขียนคำอธิบายระยะยาวของฟิสิกส์ที่อยู่เบื้องหลัง

จดหมายที่สับสน

ปริศนาสุดท้ายของฉันไปในทิศทางที่แตกต่างอย่างสิ้นเชิงของตรรกะ มันไม่ได้เกี่ยวกับการอนุมาน แต่เป็นเรื่องเกี่ยวกับเกมคำและรูปแบบความสนใจในภาษา ฉันถามเกี่ยวกับสามรุ่น: มันเกิดขึ้นหนึ่งนาทีสองครั้งสองครั้งและไม่เคยเกิดขึ้นในพันปี?

GPT-4.1 ตอกตะปูไปที่กระสุนสามนัดและอธิบายว่าตัวอักษร M ตอบอย่างไร มันชี้ให้เห็นว่าตัวอักษรเกิดขึ้นใน “นาที” และ “ช่วงเวลา” และทำไม “หนึ่งพันปี” ไม่รวมอยู่ด้วย

O3 ยังตอบด้วยกระสุนสามนัด แต่มีเพียงไม่กี่คำต่อจุดที่ประกาศจำนวนครั้งที่ตัวอักษร M ปรากฏขึ้นแทนที่จะเป็นตัวอักษรพิเศษ GPT-4O ยังมีกระสุนสั้น ๆ แต่อย่างน้อยก็ไม่ใช่แค่คำอธิบายที่มีความเสี่ยงสำหรับข้อเท็จจริง เมื่อมันอธิบายมันเกือบจะให้กำลังใจ: “เคล็ดลับคือการคิดอย่างแท้จริง (ตัวอักษร) ไม่ใช่สัญลักษณ์ (เวลา)

แชมป์ลอจิก

หลังจากใช้เวลามากเกินไปในการพูดคุยกับโมเดล AI เกี่ยวกับแมวไวน์และตัวอักษรฉันสามารถจบบางสิ่งบางอย่างได้ ทุกรุ่นมีวิธีการจัดการตรรกะที่ดี ระดับการตอบสนองของพวกเขาอาจแตกต่างกันไป แต่พวกเขาเข้าใจกลไกใต้ปริศนาอย่างแน่นอน

GPT-4.1 อธิบายตัวเองได้ดีอย่างชัดเจนและตอนนี้มันอาศัยอยู่ใน CHATGPT ซึ่งอาจเป็นตัวเลือกที่ดีสำหรับปัญหาตามตรรกะใด ๆ อย่างไรก็ตามดังที่ได้กล่าวไว้ข้างต้นซึ่งรวมถึงการเข้ารหัสซึ่งไม่ใช่ความสำเร็จของการพัฒนาที่ฉันคิดว่าผลลัพธ์สุดท้ายเท่านั้นที่น่าสนใจ

อย่างไรก็ตามหากคุณต้องการช่วยแก้ปริศนาเกือบทุกรุ่นจะให้บริการคุณได้ดี และถ้าพวกเขาอย่างใดอย่างหนึ่งดีคุณอาจไม่สังเกตเห็นความแตกต่างซึ่งโดยสุจริตดูเหมือนจะไม่มีเหตุผลโดยสิ้นเชิง

คุณอาจชอบ



Source link

  • Related Posts

    นักล่ามหาสมุทรสัญจรไปมาเมื่อ 500 ล้านปีก่อนค้นพบ

    ห้าสิบพันล้านปีที่ผ่านมานักล่าที่มีชีวิตชีวาพัดผ่านมหาสมุทรที่เก่าแก่ติดล่าเหยื่อของเขาในปากของเขาในขณะที่เขาสูดลมหายใจนาน ๆ บนก้นของเขา นักวิจัยเพิ่งค้นพบสิ่งมีชีวิตทางประวัติศาสตร์ 50,000 ตัวที่เรียกว่า Mosura Fentoni– ในฟอสซิลของพิพิธภัณฑ์แคนาดา ฟอสซิลแสดงให้เห็นว่าสัตว์ขาปล้องต้นเหล่านี้มีความหลากหลายมากกว่าที่คิดไว้ก่อนหน้านี้ กลุ่มเชื่อว่าสัตว์ขาปล้องที่สูญพันธุ์มีลักษณะเหมือนผีเสื้อกลางคืน – ลูกพี่ลูกน้องที่อยู่ห่างไกล – ดังนั้นพวกเขาจึงได้รับการตั้งชื่อตามตัวม็อตรายักษ์ตัวละครของโรงภาพยนตร์ญี่ปุ่น Mothra มีขนาดใหญ่พอที่จะต่อสู้กับ Godzilla บนหน้าจอในขณะที่ชีวิตจริง M. Fentoni มันเกี่ยวข้องกับขนาดของนิ้วของบุคคลเท่านั้น แม้จะมีขนาดเล็ก แต่สัตว์ตัวเล็ก ๆ นี้แสดงให้เห็นถึงการค้นพบที่ยิ่งใหญ่และหายากสำหรับนักวิทยาศาสตร์ คุณอาจชอบ นี้ M. Fentoni…

    70 แรดขาวแอฟริกาใต้เพื่อย้ายไปรวันดา

    ไวท์แรดเป็นเป้าหมายของการแพร่ระบาดของการรุกล้ำส่วนใหญ่ทำให้พวกเขาหายไป อุทยานแห่งชาติที่ใหญ่ที่สุดของรวันดาประกาศเมื่อวันพฤหัสบดีว่าจะได้รับ Rhinos สีขาว 70 ตัวจากแอฟริกาใต้ในการถ่ายโอนที่ใหญ่ที่สุดของประเทศในปลายเดือนนี้ สัตว์สามารถมีน้ำหนักได้มากถึง 2 ตันและจะเดินทางไปประมาณ 3,400 กิโลเมตร (2,100 ไมล์) ไปยังบ้านใหม่ของพวกเขาในอุทยานแห่งชาติ Akagera “ เหตุการณ์นี้เป็นเหตุการณ์สำคัญที่สำคัญในการอนุรักษ์แรดและแสดงให้เห็นถึงความพยายามร่วมกันของเราในการอนุรักษ์และจัดการอุทยานแห่งชาติ Akagra อย่างยั่งยืน” อุทยานกล่าวในแถลงการณ์ มีคนจำนวนมากในแอฟริกาย่อยซาฮาราซึ่งแรดขาวถูกล่าโดยผู้ตั้งถิ่นฐานชาวยุโรปเป็นครั้งแรกและต่อมาเป็นโรคระบาดที่ล่องเรือซึ่งส่วนใหญ่หายไป การรุกล้ำแรดในแอฟริกาเพิ่มขึ้น 4% จากปี 2022 เป็น 2023 โดยมีผู้คนลักลอบล่าสัตว์อย่างน้อย 586 คนในปี…

    Leave a Reply

    Your email address will not be published. Required fields are marked *

    You Missed

    นักล่ามหาสมุทรสัญจรไปมาเมื่อ 500 ล้านปีก่อนค้นพบ

    • By admin
    • May 16, 2025
    • 1 views
    นักล่ามหาสมุทรสัญจรไปมาเมื่อ 500 ล้านปีก่อนค้นพบ

    70 แรดขาวแอฟริกาใต้เพื่อย้ายไปรวันดา

    • By admin
    • May 16, 2025
    • 1 views
    70 แรดขาวแอฟริกาใต้เพื่อย้ายไปรวันดา

    ความเสี่ยงที่ซ่อนอยู่ของยาต้านโรคลมชักในการตั้งครรภ์

    • By admin
    • May 16, 2025
    • 1 views
    ความเสี่ยงที่ซ่อนอยู่ของยาต้านโรคลมชักในการตั้งครรภ์

    Fight for Salt Fairness: New Yorkers Lawler, Stefanik, Garbarino และ Lalota ต้องผลักดันต่อไป

    • By admin
    • May 16, 2025
    • 1 views
    Fight for Salt Fairness: New Yorkers Lawler, Stefanik, Garbarino และ Lalota ต้องผลักดันต่อไป

    เกมออนไลน์เปิดตัว Hello Kitty Friends บนอุปกรณ์มือถือที่จับคู่ทั่วโลก

    • By admin
    • May 16, 2025
    • 2 views
    เกมออนไลน์เปิดตัว Hello Kitty Friends บนอุปกรณ์มือถือที่จับคู่ทั่วโลก

    líderesยุโรปยุโรปแอลเบเนีย Para Debatir Sobre Sobre Seguridad Ante la Guerra En Ucrania en Ucrania

    • By admin
    • May 16, 2025
    • 2 views
    líderesยุโรปยุโรปแอลเบเนีย Para Debatir Sobre Sobre Seguridad Ante la Guerra En Ucrania en Ucrania