Standard Intelligenceとはどんな会社？

シアトル拠点のAI新興企業で、ビデオを見てソフトウェアを操作することを学ぶ専用foundation modelを開発する。2026年5月にSequoia CapitalとSpark Capital主導で$75Mを調達した。Adept（Amazonに2024年reverse-acquihire）が残した領域を継承する独立スタートアップ。

Anthropic Computer UseとOpenAI Operatorとの違いは？

Standard Intelligenceは独立スタートアップとして特定ドメイン最適化、自社foundation modelの軽量化、オンプレ展開を目指す。一方メガラボのComputer Use系は汎用・クラウド依存・データ送信前提で、エンタープライズの「データを外に出したくない」ニーズには応えづらい。

なぜAdept ACT-1のコンセプトが今復活した？

2022年のAdept ACT-1はGPT-3.5世代では精度が不足していたが、2025〜26年のGPT-5やClaude 4世代のmulti-modal foundation modelで実用化が現実的になった。Multi-modal＋強化学習＋video temporal modelingの組み合わせがStanford系AI研究の標準ツールキットで可能。

foundation modelはRPA市場をどう変える？

従来RPA（UiPath、Automation Anywhere等の$30B市場）はルールベースで画面変化に脆弱だが、foundation modelベースのAIエージェントは画面変化に適応・ルール作成不要・業務プロセス変更に追従する。5〜10年でホワイトカラー業務全般（経理、HR、法務、カスタマーサポート）を置き換える可能性が高い。

standard-intelligence foundation-model adept computer-use AIエージェント

👁️ 「ビデオを見てPCを操作するAI」がついに来る｜Standard Intelligence $75Mの意味

アイ

2026-05-07

AdeptがAmazonに消えた後、ビデオ操作AIは死んでいなかった

2024年8月、Adept AIっていう「ビデオを見て、人間の代わりにPCを操作するAI」を作ってたスタートアップが、Amazonに reverse-acquihireされた。これは「80%の社員はAmazonに採用、技術はライセンス、会社は形式的に残す」っていう独禁法回避型の買収で、業界では「Adeptは事実上消滅した」と言われてた。

そこから1年半、「ビデオ操作AI」っていうカテゴリは、Anthropic Computer Use、OpenAI Operator、Google Project Marinerっていうメガラボの機能として吸収された。専業スタートアップは死んだように見えてた。

ところが、2026年5月、シアトルのStandard Intelligenceが**$75M**を、Sequoia Capital ＋ Spark Capital主導で調達。「ビデオを見てソフトウェアを操作することを学ぶ専用foundation model」を開発する、と明言した。

mean.ceoのまとめによると、Standard IntelligenceはAdeptの技術的ゴールを継承しつつ、foundation modelとしての汎用化を目指してる。Adept消滅後の空白に、新たな挑戦者が現れた、っていう構図。

そう考える4つの理由

理由1：「ビデオでPC操作」はAdept ACT-1が起点だった

「ビデオ操作AI」のルーツって、Adept ACT-1（2022年）。当時はGPT-3.5の時代で、Adeptは「LLMにマウス・キーボードを使わせる」っていう先駆的な試みをやってた。

具体的には、ACT-1は画面のスクリーンショットを見て、「ここをクリック」「この欄に入力」っていう操作を生成する。当時はまだ精度が低くて実用化には至らなかったけど、コンセプトとしては超先進的だった。

Semaforの記事によると、Amazonは2024年にAdeptの80%の社員を採用、技術はライセンスして、Adept自体は形式的に残った。投資家には資金が払い戻された。これは、Inflection→Microsoft、Character.AI→Googleと並ぶ、reverse acquihireの典型例。

Standard Intelligenceは、このAdeptが残した「ビデオ操作AI」の空白を、**新世代の foundation model（GPT-5やClaude 4世代）**を使って埋めにきた。3年前なら無理だった精度が、今ならできる、っていうタイミング。

技術的には、Multi-modal foundation model（画像＋テキスト）＋強化学習＋video temporal modelingの組み合わせ。Stanford系AI研究の標準ツールキットで作れるようになった。

理由2：Anthropic Computer Use／OpenAI Operatorと違う独立スタートアップ路線

「ビデオでPCを操作するAI」っていう領域は、もうメガラボが手を出してる：

Anthropic Computer Use: 2024年10月発表、Claude が画面を見てPC操作
OpenAI Operator: 2025年1月発表、ChatGPT Pro向けの自律エージェント
Google Project Mariner: 2025年12月、ブラウザ自動化エージェント

これらに対して、Standard Intelligenceは専業スタートアップとして独立路線を取る。これが何を意味するかというと：

特定ドメインに最適化できる（金融、医療、法務みたいな業界特化）
自社foundation modelを軽量化できる（メガラボより低コスト）
オンプレ展開ができる（メガラボのクラウドAPI依存から脱却）

メガラボのComputer Use系は「汎用＝特定業務に最適化されてない」「クラウド依存」「データ送信が必要」っていう弱点がある。Standard Intelligenceは、エンタープライズの「データを外に出したくない」ニーズに応える可能性が高い。

これはHippocratic AI（医療向け）、Harvey（法律向け）、Sierra（カスタマーサポート向け）のように、業界特化AIエージェントの流れの延長線上。汎用foundation modelじゃなくて、業界＋操作foundation modelっていう二軸で勝負する戦略が見えてくる。

理由3：Sequoia ＋ Sparkが主導した時点で「本気の調達」

$75Mっていう調達額自体はAIスタートアップとしては中規模だけど、Sequoia Capital ＋ Spark Capitalが主導したっていう事実が重要。

Sequoiaは近年、AIエージェント領域でSierra（Bret Taylor）、Harvey、Glean、Notion AIみたいな大型勝ち馬を連発してる。彼らが「ビデオ操作AI」の専業スタートアップにまた賭けたってことは、**「Computer Useはメガラボに飲まれず、専業スタートアップで成立する」**って読み筋を持ってる、ってこと。

Spark CapitalはSlack、Twitter、DoorDashを初期から支援した実績があって、最近はAnthropicにも投資してる。AI領域での目利きはトップクラス。

両者が組んでリードしたStandard Intelligenceは、業界が「これは実用化のフェーズに入った」と判断したシグナル。Adeptが2022年にHEAD的に出した時とは、技術成熟度が違う。

Tech Startupsのまとめを見ると、5月の調達は「インフラ・防衛・実世界システム」に資金が向かってて、Standard Intelligenceは「実世界システム＝企業のPC操作自動化」のカテゴリ。

シアトル拠点っていうのも面白くて、MicrosoftとAmazonのエンジニアがアクセスしやすい立地。これらメガテック出身の優秀な人材を採用しやすいので、チームの質が高い前提で投資された可能性が高い。

理由4：RPA市場（$30B）を foundation modelで丸ごと取りにいく

「ビデオでPC操作AI」の本当のターゲットは、RPA（Robotic Process Automation）市場。これは現在約$30B規模で、UiPath（時価総額$5B〜）、Automation Anywhere、Blue Prism等が支配してる。

従来のRPAって、「画面のここをクリック、ここに入力」っていうルールを人間がプログラミングする方式。動作は速いし安定だけど、画面が変わると壊れる、ルール作成に時間かかるっていう弱点があった。

これを foundation model が解決する。

画面が変わっても: AIがその場で適応する
ルール作成不要: 人間が「請求書を処理して」と言えばOK
業務プロセス変更に追従: AIが新しいパターンを学習する

つまり、RPA市場を、foundation modelで根こそぎ書き換えるっていうのが、Standard Intelligenceの実質的な賭け。

UiPath系の従来RPAは、5〜10年で foundation modelベースのAIエージェントに置き換わる可能性が高い。これって、SaaS市場でいうと「オンプレ → クラウド」のシフトに相当する規模の変化。

具体的に置き換わるのは、銀行の事務処理、保険の引受審査、医療の保険請求、HR の採用書類処理、税務の申告作業、みたいなホワイトカラー業務全般。これらを「人間の代わりにAIがやる」フェーズが、5年以内に来る。

まとめ：ホワイトカラー業務の自動化、第二章

Standard Intelligence $75Mで言える結論は、「ホワイトカラー業務の自動化が、第二章に入った」っていうこと。第一章はRPA（ルールベース）、第二章はfoundation modelベースのAIエージェント。

わたしたちにとっては、これは働き方の根本変化を意味する。経理、HR、法務、カスタマーサポート、コールセンターみたいな**「定型ホワイトカラー」**は、向こう5〜10年でAIエージェントに置き換わる確率が極めて高い。

逆に、戦略立案、創造的問題解決、人間関係調整、複雑な判断は人間の領域として残る。だから今後のキャリア設計は、「AIに置き換えられる領域」じゃなくて「AIで増幅できる領域」を選ぶのが大事。

学生さんや若手社会人は、Standard IntelligenceみたいなAIエージェントスタートアップを注視しておくと、就職先・転職先の選択肢になる。Adeptが消えたカテゴリに、また新しい挑戦者が出てきたっていう事実は、AIエージェント領域がまだまだ動くって証拠。

あわせて読みたい

ソース:

よくある質問

Standard Intelligenceとはどんな会社？: シアトル拠点のAI新興企業で、ビデオを見てソフトウェアを操作することを学ぶ専用foundation modelを開発する。2026年5月にSequoia CapitalとSpark Capital主導で$75Mを調達した。Adept（Amazonに2024年reverse-acquihire）が残した領域を継承する独立スタートアップ。
Anthropic Computer UseとOpenAI Operatorとの違いは？: Standard Intelligenceは独立スタートアップとして特定ドメイン最適化、自社foundation modelの軽量化、オンプレ展開を目指す。一方メガラボのComputer Use系は汎用・クラウド依存・データ送信前提で、エンタープライズの「データを外に出したくない」ニーズには応えづらい。
なぜAdept ACT-1のコンセプトが今復活した？: 2022年のAdept ACT-1はGPT-3.5世代では精度が不足していたが、2025〜26年のGPT-5やClaude 4世代のmulti-modal foundation modelで実用化が現実的になった。Multi-modal＋強化学習＋video temporal modelingの組み合わせがStanford系AI研究の標準ツールキットで可能。
foundation modelはRPA市場をどう変える？: 従来RPA（UiPath、Automation Anywhere等の$30B市場）はルールベースで画面変化に脆弱だが、foundation modelベースのAIエージェントは画面変化に適応・ルール作成不要・業務プロセス変更に追従する。5〜10年でホワイトカラー業務全般（経理、HR、法務、カスタマーサポート）を置き換える可能性が高い。