- なぜ時間課金でも回数課金でもないのか
- AIはリクエスト1回で一定の仕事をしていない
- 計算量を決めるもの
- なぜ文字数ではダメなのか
- 内部で何が起きているか
- なぜ出力も課金されるのか
- トークン課金の利点
- 実務で起きる誤算
- 結局、何にお金を払っているのか
なぜ時間課金でも回数課金でもないのか
クラウドサービスの料金は普通、次のどれかです。
- リクエスト回数
- サーバー時間
- ストレージ容量
ところがAI APIは違います。
「トークン課金」という独特の単位が使われます。
直感的には分かりにくいですが、
これは単なる都合ではありません。
結論から言うと、
AIのコストは“通信量”ではなく“計算量”で決まるからです。
そして、その計算量を最も正確に表すのがトークン数です。
AIはリクエスト1回で一定の仕事をしていない
通常のAPIなら、
POST /users
1回呼び出しても、10回呼び出しても、
処理内容はほぼ同じです。
しかしAIは違います。
「こんにちは」と
「この200ページのPDFを要約して」
は、同じ1リクエストでも
計算量が桁違いです。
つまり回数では測れません。
計算量を決めるもの
LLM(大規模言語モデル)の計算量は、
おおよそ次に比例します。
入力トークン数 + 出力トークン数
ここが重要です。
AIは
- 質問を読む
- 回答を書く
両方で計算します。
短い質問でも長い回答なら重い。
長い資料を読むだけでも重い。
なぜ文字数ではダメなのか
文字数課金に見えるかもしれませんが、
文字数では正確に測れません。
AIは文字ではなくトークン単位で処理します。
例えば:
- programming → 1語だが複数トークン
- AI → 1トークン
- 日本語文章 → 多数トークン
つまり文字数と計算量は一致しません。
そのため料金単位として不適切です。
内部で何が起きているか
AIは1トークン生成するたびに、
巨大な計算を行います。
for each token:
巨大行列計算
つまり、
- 100トークン → 100回の大規模計算
- 1000トークン → 1000回の大規模計算
計算コストは線形に増加します。
だからトークン数がそのまま料金になります。
なぜ出力も課金されるのか
ここはよく誤解されます。
「入力した分だけ課金すればよいのでは?」
しかしAIにとって、
文章を書く方がむしろ重い処理です。
入力は一度の解析ですが、
出力はトークンごとに推論を繰り返します。
そのため、
長い回答ほど高コスト
になります。
トークン課金の利点
この方式にはメリットがあります。
- 公平性:使った分だけ支払う
- 予測性:コストを見積もれる
- 最適化:プロンプト改善の動機
開発者は不要な長文を減らすようになります。
これはシステム負荷の低減にもつながります。
実務で起きる誤算
AIの料金が想定外に増える原因の多くは
出力トークンです。
- 「詳しく説明して」
- 「具体例をたくさん」
これらはコストを増やします。
逆に要約や分類は安価です。
読む量が少なく、書く量も少ないためです。
結局、何にお金を払っているのか
AIサービスは文章を返していますが、
課金対象は文章ではありません。
支払っているのは
巨大な数値計算です。
トークン課金とは文字の料金ではなく、
1単語ごとにスーパーコンピュータを動かしているコストの近似値です。
AIに1文書かせるたび、
私たちは文章を買っているのではなく、
計算時間を買っているのかもしれません。