Grok 4がAIの天井を打ち破った-これがすべてを変える理由だ

8月1日

世界で最もパワフルなAIモデル、Grok 4を紹介。今すぐライブストリームを見る: https://t.co/59iDX5s2ck
- xAI (@xai) 2025年7月10日

それはあっという間にエスカレートした。3週間前、イーロン・マスクとxAIはGrok 4を無防備な世界に投下し、そのベンチマークは熟練したAI研究者を二度見させ続けている。午前3時にブレインストーミングをするカフェイン中毒の博士チームのように、問題を解決するAIを思い浮かべてほしい。最初の誇大宣伝が一段落し、開発者たちがGrok 4をそのペースに乗せた今、このモデルが単なるリリースの域を超えた、AIが真の知的パートナーとなる未来を垣間見せる理由を説明しよう。

https://x.com/xai/status/1943158495588815072

インターネット（といくつかの記録）を打ち破った打ち上げ

xAIは2025年7月9日、ライブストリームを通じてGrok 4を発表し、150万人の視聴者を集めた¹。このタイミングは...興味深いもので、Grok 3がいくつかの物議を醸す出力で、あらゆる悪い理由で話題になったわずか1日後だった²。

マスク氏は、標準的なGrok 4とGrok 4 Heavyの2つのバリエーションを紹介した。後者は、複数のAIエージェントを配置し、全員がリーディングを行う勉強会のように、お互いの仕事を相互チェックする。³ アクセスはGrokアプリ、ウェブサイト、またはAPIを通じて行われ、Heavyは月額300ドルのSuperGrok Heavy加入者専用： https://x.ai/grok一般アクセス用 https://x.ai/api開発者向け。

他のAIを電卓のように見せる機能

Grok 4は、256,000トークンのコンテキスト・ウィンドウ（一度に処理できるテキストの量はおよそ小説1冊分）、画像分析、関数呼び出し、そしてシリコンと話していることを忘れてしまうほど自然な音声モードを備えている。

X、ウェブ、ニュースをリアルタイムで検索することで、回答が常に新鮮に保たれます。マルチモーダル機能により、テキストと視覚分析をシームレスにブレンドし、ボイスモードではカメラによるシーン分析が追加されます：SOC 2 Type 2、GDPR、CCPAはすべてチェック済みです。まるで、眠らず、残業に文句を言わず、あなたの下手な手書き文字を理解してくれる機知に富んだリサーチ・アシスタントがいるようなものです。

秘密のソースブルート・フォースとフィネスが出会うとき

Grok4の魔法の背後には、xAIのスーパーコンピュータ「コロッサス」がある。20万GPUのモンスターで、ほとんどのデータセンターがポケット計算機のように見える。

真の革新？Grok4Heavyは、並列テスト時間計算、つまり複数のAIエージェントが同時に問題に取り組み、その結果を比較することで、このアプローチをさらに推し進める。ガレージで一人で発明をする人から、ノーベル賞受賞者の同期したオーケストラにアップグレードし、それぞれが他の人の仕事をチェックすることを想像してみてほしい。

インフラのリアリティ・チェック

スパコン「コロッサス」のGPUは20万個。この数字には頭が上がりません。たいていの企業は、数百GPUのクラスタがスムーズに動くようになれば大喜びする。しかし、20万？熱出力だけで、小さな発電所を動かすようなものだ。

さらに、それらをすべて適切に接続し、データを供給し続け、電力網が停止しないようにする......といったことを考える前の話だ。ラックをどのように配置するか、どのような冷却装置を使うか（もちろん、これらは高温になるため、本格的な冷却が必要だ）、さらにネットワークや配電など、細部に至るまで重要だ。このパズルのどれかを間違えれば、性能の低いハードウェアにお金を費やすことになる。10個のGPUであろうと10,000,000個のGPUであろうと、独自のAIインフラを構築しようとしている企業には、配電から光速でデータを流し続けるための複雑な光ファイバー接続まで、あらゆる専門知識が必要だ。専門的なインフラ配備が、理論上のスペックと現実のパフォーマンスの違いを生むポイントはここにある。Introlのチームが無数のAIクラスターを導入してきた経験から知っているように、悪魔は本当に細部に宿るのです。適切なインフラは、GPUが95％の効率で稼働するのと、30％のパフォーマンスを机の上に置いておくのとでは雲泥の差を意味します。

統計学者が歓喜の涙を流す数字

AIコミュニティが騒然としているベンチマークに飛び込んでみよう。モデルが最小限の例で抽象的な推論を実証する必要がある、悪名高い残酷なARC-AGI-2テストでは、Grok 4（思考モード）が15.9％、タスクあたり約4ドルで王座を主張する。

スケーリング実験では、魅力的なことが明らかになった。トレーニング計算だけで、Grok 4はHumanity's Last Exam（テキストのみのサブセット）で約50％を達成しました。ツールを追加すると、50.7%に跳ね上がります。¹² テスト時間のスケーリングは50%付近で頭打ちとなり、問題により多くの計算量を投入するだけでなく、より革新的な推論戦略がブレークスルーをもたらすことを証明しています。

AIME25（American Invitational Mathematics Examination）において、Grok 4 Heavyは、Claude 4 Opus（75.5%）とGemini 2.5 Pro（88.0%）を置き去りにして、完璧な100%を達成しました¹³ツールなしでも、標準的なGrok 4のスコアは91.7%であり、これは人間の数学コンテスト参加者のほとんどよりも優れています。

人類最後の試験（完全版）です。Grok 4 Heavyのスコアは44.4%で、Gemini 2.5 Proの25.4%をほぼ2倍、o3の21.0%を2倍以上上回っています。

重要な実世界でのパフォーマンス

学術的なベンチマークにとどまらず、Grok 4は実用的なテストを支配している。Vending-Bench（そう、自動販売機の操作の最適化に関する実際のベンチマーク）では、4,569台の販売で4,694ドルの純資産を達成し、これはクロード・オーパス4の2,077ドルの2倍以上であり、人間のパフォーマンスの5倍の844ドルである¹⁶。

その他の勝利さらに、USAMO'25 (61.9%)、GPQA Diamond (88%)、LiveCodeBench (79.4%)、MMLU-Pro (87%)でも勝利している。 ¹⁷ Artificial Analysisの独立評価者は、Grok 4の知能指数を73とし、OpenAIのo3とGoogleのGemini 2.5 Pro (どちらも70)を抑えている。

コミュニティーの評決：興奮、懐疑、そしてその中間

発売以来、X（旧Twitter）はGrok 4の機能を試す場となっている。あるユーザーはこれを「AGIに最も近いもの」と呼び、科学者は未解決の材料問題を照会し、それをチェックアウトする斬新な洞察を得ている⁰3週間の実世界での使用後、モデルが複雑な推論タスクに秀でているが、創造的なアプリケーションでは興味深い癖を見せるというパターンが浮かび上がってきた。

しかし、スタンディングオベーションばかりではない。ユーザーは、75トークン/秒という速度制限（立派ではあるが、猛烈な速さではない）に注意し、コンテンツモデレーションは最小限のままである-Grok 4は競合他社よりもフィルタリングが少なく、AIの中立性対安全性についての議論を巻き起こしている。民主主義の実践だ。

これが明日にもたらすもの（ネタバレ：すべてが変わる）

ここで私の楽観論が一気に加速する。Grok 4はチャットボットというカテゴリーを超越しており、知的パートナーとしてのAIを予見しているのだ。AIが数学コンテストで博士号レベルの成績を収め、科学者が未解決の問題を探求する手助けをするとき、私たちは拡張された発見の夜明けを目撃しているのだ。

科学のために：世界中の研究者が、複雑な数学を純粋に理解し、新しい仮説を提案できるAIにアクセスできることを想像してみてください。創薬、気候モデリング、材料科学のすべてが加速する。

エンジニアリングのために：デバッグにとどまらず、システム・アーキテクチャを理解し、人間が考えもしないような最適化を提案できるAIについて話している。ダイクストラやチューリングをスピードダイヤルに登録しているようなものだ。

教育のために生徒が何を間違えているかだけでなく、どのように考えているかにも適応する個別指導。学習者一人ひとりの認知スタイルに合わせて、忍耐強く優秀なメンターが指導します。

ビジネスのために戦略的プランニングから市場分析まで、Grok 4の推論機能は、意思決定を直感からニュアンスに富んだ理解によるデータ主導の洞察へと変えることができる。

注意事項（正直は誇大に勝るから）

どんなAIも完璧ではないし、Grok 4には成長の余地がある。75トークン／秒のスピードは、特化した推論サーバーとの競争には勝てないだろう。幻覚は減ったとはいえ、完全に消えたわけではない（業界全体の課題だ）。最小限のコンテンツフィルタリングは、悪用の可能性について正当な懸念を抱かせる。

xAIはトレーニングデータについて何も教えてくれない。これほど大規模になると、データのバイアスが増幅される。AI業界では今、誰もがxAIを虎視眈々と狙っている。Grok 4が普及するにつれ、倫理的な部分をどう扱うのか？それは非常に重要なことだ。

前途多難：物事は奇妙になろうとしている

xAIはプレゼンテーションの中でいくつかの計画を示したが、あることが私の心を完全に揺さぶった。彼らはGrokをテスラの数値流体力学ソフトウェア（テスラのエンジニアが実際の車両の空気力学や熱管理に使用しているのと同じCFD）に接続することに言及したのだ。

少し考えさせられたよ。私たちは、事実を知り、質問に答え、コードを書くAIに慣れてしまった。しかし、CFDの統合は何か違う。流体力学がどのように機能するかを説明できるAIを持つことは一つのことだ。そのAIがCFDソフトを使って空気中を移動し、熱を放散するものを設計できるようになるのは、まったく別のことなのだ。それは漸進的な進歩ではなく、まったく新しい能力なのだ。

OpenAIもAnthropicもGoogleも傍観するつもりはない。しかし、Grok 4はゲームを変えた。"役に立つアシスタント "の領域から、"推論パートナー "へと一直線に進んだのだ。この変化は、レイ・カーツワイルが語る知能の爆発を思い起こさせる。私たちは、それがリアルタイムで起こっているのを見ているのです。

あなたの番：何を作る？

AIが博士号レベルで推論できるようになったらどうなるだろう？不可能だと思われていた問題が、突然大きくひらけるのだろうか？我々のツールが我々と一緒に考えることができるようになったとき、我々は何を発見するのだろうか？そして正直なところ、AIがここまで賢くなったとき、私たちはどのようなガードレールを設置する必要があるのだろうか？

もしあなたが開発者なら、すでにこれらのAPIを使って何を作るか計画していることだろう。研究者たちは、突然何が可能になったかを考えるのに夢中だろう。そして、もしあなたがここに座って、「Grok 4の機能にはどんな意味があるのだろう」と考えているのであれば、それは分かる。コンセプトの処理には時間がかかる。

しかし、グローク4は、私たちの準備ができようとできまいと、私たちの膝の上に舞い降りたのだ。AIはただ、"これが今可能なことだから、それをどうするか考えてくれ "と言っただけだ。

それで何をするつもりですか？Grok APIは以下にある。 https://x.ai/api にある。そして、開発者や研究者がすでに限界に挑戦しているXのコミュニティ全体がある。発売から3週間が経過し、発売時には誰も予想しなかったようなアプリケーションが登場している。このチャンスを無駄にしないでほしい。

参考文献

Scott Rosenberg, "Elon Musk's xAI debuts Grok 4, 'smartest AI in the world'," Axios, July 10, 2025、 https://www.axios.com/2025/07/10/grok4-grok-xai-elon-musk.
"マスク、Grok 4のアップデートを発表 xAIチャットボットが反ユダヤ主義的発言をした翌日に" CBS News, July 10, 2025、 https://www.cbsnews.com/news/elon-musk-grok-4-ai-chatbot-x/.
"イーロン・マスクのxAI、Grok 4を300ドルの月額サブスクリプションとともに発表", TechCrunch, July 9, 2025、 https://techcrunch.com/2025/07/09/elon-musks-xai-launches-grok-4-alongside-a-300-monthly-subscription/.
「イーロン・マスクのxAIがGrok 4を立ち上げ、月額300ドルのサブスクリプションを提供。
xAI, "Grok 4 Release Announcement," livestream presentation, July 9, 2025.
xAI, "Grok 4 リリース発表".
"Grok4リリース：xAIが独立テストでAIモデルNo.1の栄冠を主張", Gear Musk, 2025年7月10日、 https://gearmusk.com/2025/07/10/xai-unveils-grok-4/.
xAI, "Grok 4 リリース発表".
"マスクのGrok-4がベンチマークを破り、RLでOpenAIとGoogleを打ち負かす" Analytics India Magazine, July 10, 2025、 https://analyticsindiamag.com/global-tech/musks-grok-4-crushes-benchmarks-beats-openai-google-in-rl/.
"アーク賞"、X（旧ツイッター）、2025年7月10日、 https://twitter.com/arcprize/status/[特定のID].
フランソワ・ショレ「ARC-AGI：AI推論の新たなフロンティア」、ARC賞機構、2025年。
xAI, "Grok 4 リリース発表".
"イーロン・マスクのGrok 4 AI Models Set New Benchmark Records," Beebom, July 10, 2025、 https://beebom.com/elon-musk-grok-4-ai-models-set-new-benchmark-records/.
「xAI、推論に最適化された新しいGrok 4モデルでAIベンチマークの記録を更新」、SiliconANGLE、2025年7月10日、 https://siliconangle.com/2025/07/10/xai-sets-ai-benchmark-records-new-reasoning-optimized-grok-4-model/.
xAI, "Grok 4 リリース発表".
xAI, "Grok 4 リリース発表".
xAI, "Grok 4 リリース発表".
「AIモデルの知能、性能、価格の比較」Artificial Analysis, accessed July 11, 2025、 https://artificialanalysis.ai/models.
ユーザーの声、X（旧ツイッター）、2025年7月10-11日。
ユーザーの声、X（旧ツイッター）、2025年7月10-11日。
「Grok 4の新機能とは？Release Facts, Benchmarks, and Value", SmythOS, July 10, 2025、 https://smythos.com/developers/ai-models/whats-new-in-grok-4-release-facts-benchmarks-and-value/.
xAI, "Grok 4 リリース発表".

ブレイク・クロスリー