AIの料金はなぜトークン課金なのか

なぜ時間課金でも回数課金でもないのか

クラウドサービスの料金は普通、次のどれかです。

  • リクエスト回数
  • サーバー時間
  • ストレージ容量

ところがAI APIは違います。
「トークン課金」という独特の単位が使われます。

直感的には分かりにくいですが、
これは単なる都合ではありません。

結論から言うと、
AIのコストは“通信量”ではなく“計算量”で決まるからです。

そして、その計算量を最も正確に表すのがトークン数です。

AIはリクエスト1回で一定の仕事をしていない

通常のAPIなら、

POST /users

1回呼び出しても、10回呼び出しても、
処理内容はほぼ同じです。

しかしAIは違います。

「こんにちは」と
「この200ページのPDFを要約して」

は、同じ1リクエストでも
計算量が桁違いです。

つまり回数では測れません。

計算量を決めるもの

LLM(大規模言語モデル)の計算量は、
おおよそ次に比例します。

入力トークン数 + 出力トークン数

ここが重要です。

AIは

  • 質問を読む
  • 回答を書く

両方で計算します。

短い質問でも長い回答なら重い。
長い資料を読むだけでも重い。

なぜ文字数ではダメなのか

文字数課金に見えるかもしれませんが、
文字数では正確に測れません。

AIは文字ではなくトークン単位で処理します。

例えば:

  • programming → 1語だが複数トークン
  • AI → 1トークン
  • 日本語文章 → 多数トークン

つまり文字数と計算量は一致しません。
そのため料金単位として不適切です。

内部で何が起きているか

AIは1トークン生成するたびに、
巨大な計算を行います。

for each token:
    巨大行列計算

つまり、

  • 100トークン → 100回の大規模計算
  • 1000トークン → 1000回の大規模計算

計算コストは線形に増加します。

だからトークン数がそのまま料金になります。

なぜ出力も課金されるのか

ここはよく誤解されます。

「入力した分だけ課金すればよいのでは?」

しかしAIにとって、
文章を書く方がむしろ重い処理です。

入力は一度の解析ですが、
出力はトークンごとに推論を繰り返します。

そのため、

長い回答ほど高コスト

になります。

トークン課金の利点

この方式にはメリットがあります。

  • 公平性:使った分だけ支払う
  • 予測性:コストを見積もれる
  • 最適化:プロンプト改善の動機

開発者は不要な長文を減らすようになります。
これはシステム負荷の低減にもつながります。

実務で起きる誤算

AIの料金が想定外に増える原因の多くは
出力トークンです。

  • 「詳しく説明して」
  • 「具体例をたくさん」

これらはコストを増やします。

逆に要約や分類は安価です。
読む量が少なく、書く量も少ないためです。

結局、何にお金を払っているのか

AIサービスは文章を返していますが、
課金対象は文章ではありません。

支払っているのは
巨大な数値計算です。

トークン課金とは文字の料金ではなく、
1単語ごとにスーパーコンピュータを動かしているコストの近似値です。

AIに1文書かせるたび、
私たちは文章を買っているのではなく、
計算時間を買っているのかもしれません。