1: 2026/02/16(月) 01:56:14.05
ソースはゲイリーマーカスによる驚き屋批判記事 ・codexや4.6は長時間のタスクにも優れる←実際は信頼性・脆弱性にかなり問題がある ・METRベンチマークでも高い成果←コーディングに限っても最新モデルのスコアは低い。使い物にならない ・推論向上・ハルシネーション減少の壁は大きく、人間の仕事を奪うのは到底厳しい ・むしろ最近はセキュリティ上の欠陥が増えている。 https://substack.com/@garymarcus/note/p-187671104
2: 2026/02/16(月) 01:57:49.72
今だけなんじゃないの?異常な速度で進化してるだろ
4: 2026/02/16(月) 01:59:38.03
人のやる気奪うのが目的のツールやしな