AI Today
ホーム > 考察記事 > 👁️ 「ビデオを見てPCを操作するAI」がついに来る|Standard Intelligence $75Mの意味

👁️ 「ビデオを見てPCを操作するAI」がついに来る|Standard Intelligence $75Mの意味

アイ

アイ

目次


AdeptがAmazonに消えた後、ビデオ操作AIは死んでいなかった

2024年8月、Adept AIっていう「ビデオを見て、人間の代わりにPCを操作するAI」を作ってたスタートアップが、Amazonに reverse-acquihireされた。これは「80%の社員はAmazonに採用、技術はライセンス、会社は形式的に残す」っていう独禁法回避型の買収で、業界では「Adeptは事実上消滅した」と言われてた。

そこから1年半、「ビデオ操作AI」っていうカテゴリは、Anthropic Computer Use、OpenAI Operator、Google Project Marinerっていうメガラボの機能として吸収された。専業スタートアップは死んだように見えてた。

ところが、2026年5月、シアトルのStandard Intelligenceが**$75M**を、Sequoia Capital + Spark Capital主導で調達。「ビデオを見てソフトウェアを操作することを学ぶ専用foundation model」を開発する、と明言した。

mean.ceoのまとめによると、Standard IntelligenceはAdeptの技術的ゴールを継承しつつ、foundation modelとしての汎用化を目指してる。Adept消滅後の空白に、新たな挑戦者が現れた、っていう構図。


そう考える4つの理由

理由1:「ビデオでPC操作」はAdept ACT-1が起点だった

「ビデオ操作AI」のルーツって、Adept ACT-1(2022年)。当時はGPT-3.5の時代で、Adeptは「LLMにマウス・キーボードを使わせる」っていう先駆的な試みをやってた。

具体的には、ACT-1は画面のスクリーンショットを見て、「ここをクリック」「この欄に入力」っていう操作を生成する。当時はまだ精度が低くて実用化には至らなかったけど、コンセプトとしては超先進的だった。

Semaforの記事によると、Amazonは2024年にAdeptの80%の社員を採用、技術はライセンスして、Adept自体は形式的に残った。投資家には資金が払い戻された。これは、Inflection→MicrosoftCharacter.AI→Googleと並ぶ、reverse acquihireの典型例。

Standard Intelligenceは、このAdeptが残した「ビデオ操作AI」の空白を、**新世代の foundation model(GPT-5やClaude 4世代)**を使って埋めにきた。3年前なら無理だった精度が、今ならできる、っていうタイミング。

技術的には、Multi-modal foundation model(画像+テキスト)強化学習video temporal modelingの組み合わせ。Stanford系AI研究の標準ツールキットで作れるようになった。

理由2:Anthropic Computer Use/OpenAI Operatorと違う独立スタートアップ路線

ビデオでPCを操作するAI」っていう領域は、もうメガラボが手を出してる:

  • Anthropic Computer Use: 2024年10月発表、Claude が画面を見てPC操作
  • OpenAI Operator: 2025年1月発表、ChatGPT Pro向けの自律エージェント
  • Google Project Mariner: 2025年12月、ブラウザ自動化エージェント

これらに対して、Standard Intelligence専業スタートアップとして独立路線を取る。これが何を意味するかというと:

  1. 特定ドメインに最適化できる(金融、医療、法務みたいな業界特化)
  2. 自社foundation modelを軽量化できる(メガラボより低コスト)
  3. オンプレ展開ができる(メガラボのクラウドAPI依存から脱却)

メガラボのComputer Use系は「汎用=特定業務に最適化されてない」「クラウド依存」「データ送信が必要」っていう弱点がある。Standard Intelligenceは、エンタープライズの「データを外に出したくない」ニーズに応える可能性が高い。

これはHippocratic AI(医療向け)、Harvey(法律向け)、Sierra(カスタマーサポート向け)のように、業界特化AIエージェントの流れの延長線上。汎用foundation modelじゃなくて、業界 + 操作foundation modelっていう二軸で勝負する戦略が見えてくる。

理由3:Sequoia + Sparkが主導した時点で「本気の調達」

$75Mっていう調達額自体はAIスタートアップとしては中規模だけど、Sequoia Capital + Spark Capitalが主導したっていう事実が重要。

Sequoiaは近年、AIエージェント領域でSierra(Bret Taylor)HarveyGleanNotion AIみたいな大型勝ち馬を連発してる。彼らが「ビデオ操作AI」の専業スタートアップにまた賭けたってことは、**「Computer Useはメガラボに飲まれず、専業スタートアップで成立する」**って読み筋を持ってる、ってこと。

Spark CapitalSlack、Twitter、DoorDashを初期から支援した実績があって、最近はAnthropicにも投資してる。AI領域での目利きはトップクラス。

両者が組んでリードしたStandard Intelligenceは、業界が「これは実用化のフェーズに入った」と判断したシグナル。Adeptが2022年にHEAD的に出した時とは、技術成熟度が違う。

Tech Startupsのまとめを見ると、5月の調達は「インフラ・防衛・実世界システム」に資金が向かってて、Standard Intelligenceは「実世界システム=企業のPC操作自動化」のカテゴリ。

シアトル拠点っていうのも面白くて、MicrosoftとAmazonの エンジニアがアクセスしやすい立地。これらメガテック出身の優秀な人材を採用しやすいので、チームの質が高い前提で投資された可能性が高い。

理由4:RPA市場($30B)を foundation modelで丸ごと取りにいく

「ビデオでPC操作AI」の本当のターゲットは、RPA(Robotic Process Automation)市場。これは現在約$30B規模で、UiPath(時価総額$5B〜)、Automation Anywhere、Blue Prism等が支配してる。

従来のRPAって、「画面のここをクリック、ここに入力」っていうルールを人間がプログラミングする方式。動作は速いし安定だけど、画面が変わると壊れる、ルール作成に時間かかるっていう弱点があった。

これを foundation model が解決する。

  • 画面が変わっても: AIがその場で適応する
  • ルール作成不要: 人間が「請求書を処理して」と言えばOK
  • 業務プロセス変更に追従: AIが新しいパターンを学習する

つまり、RPA市場を、foundation modelで根こそぎ書き換えるっていうのが、Standard Intelligenceの実質的な賭け。

UiPath系の従来RPAは、5〜10年で foundation modelベースのAIエージェントに置き換わる可能性が高い。これって、SaaS市場でいうと「オンプレ → クラウド」のシフトに相当する規模の変化。

具体的に置き換わるのは、銀行の事務処理、保険の引受審査、医療の保険請求、HR の採用書類処理、税務の申告作業、みたいなホワイトカラー業務全般。これらを「人間の代わりにAIがやる」フェーズが、5年以内に来る。


まとめ:ホワイトカラー業務の自動化、第二章

Standard Intelligence $75Mで言える結論は、「ホワイトカラー業務の自動化が、第二章に入った」っていうこと。第一章はRPA(ルールベース)、第二章はfoundation modelベースのAIエージェント

わたしたちにとっては、これは働き方の根本変化を意味する。経理、HR、法務、カスタマーサポート、コールセンターみたいな**「定型ホワイトカラー」**は、向こう5〜10年でAIエージェントに置き換わる確率が極めて高い。

逆に、戦略立案、創造的問題解決、人間関係調整、複雑な判断は人間の領域として残る。だから今後のキャリア設計は、「AIに置き換えられる領域」じゃなくて「AIで増幅できる領域」を選ぶのが大事。

学生さんや若手社会人は、Standard IntelligenceみたいなAIエージェントスタートアップを注視しておくと、就職先・転職先の選択肢になる。Adeptが消えたカテゴリに、また新しい挑戦者が出てきたっていう事実は、AIエージェント領域がまだまだ動くって証拠。

あわせて読みたい

ソース:

よくある質問

Standard Intelligenceとはどんな会社?
シアトル拠点のAI新興企業で、ビデオを見てソフトウェアを操作することを学ぶ専用foundation modelを開発する。2026年5月にSequoia CapitalとSpark Capital主導で$75Mを調達した。Adept(Amazonに2024年reverse-acquihire)が残した領域を継承する独立スタートアップ。
Anthropic Computer UseとOpenAI Operatorとの違いは?
Standard Intelligenceは独立スタートアップとして特定ドメイン最適化、自社foundation modelの軽量化、オンプレ展開を目指す。一方メガラボのComputer Use系は汎用・クラウド依存・データ送信前提で、エンタープライズの「データを外に出したくない」ニーズには応えづらい。
なぜAdept ACT-1のコンセプトが今復活した?
2022年のAdept ACT-1はGPT-3.5世代では精度が不足していたが、2025〜26年のGPT-5やClaude 4世代のmulti-modal foundation modelで実用化が現実的になった。Multi-modal+強化学習+video temporal modelingの組み合わせがStanford系AI研究の標準ツールキットで可能。
foundation modelはRPA市場をどう変える?
従来RPA(UiPath、Automation Anywhere等の$30B市場)はルールベースで画面変化に脆弱だが、foundation modelベースのAIエージェントは画面変化に適応・ルール作成不要・業務プロセス変更に追従する。5〜10年でホワイトカラー業務全般(経理、HR、法務、カスタマーサポート)を置き換える可能性が高い。