Mozilla Hacksの「Experimenting with local alt text generation in Firefox Nightly」は、Firefox Nightlyで試されたローカルalt text生成機能を紹介する記事です。公開日は2024年5月31日。記事公開時点ではFirefox 130で、PDFエディター内の画像に対して自動で代替テキストを生成する実験として説明されています。
ポイントは、画像を外部サーバーへ送らず、端末上の小型AIモデルで説明文を生成することです。最終的な目標としては、PDF編集に限らず、スクリーンリーダーを使うユーザーがWeb上の画像を理解しやすくする用途も視野に入っています。
なぜalt textなのか
Webは、同じコンテンツをユーザーの状況に応じて異なる形で扱えるところに強みがあります。画像のalt textはその代表例で、スクリーンリーダーなどの支援技術にとって重要な情報になります。
ただ、現実には多くの画像に適切な代替テキストが付いていません。記事では、Web Almanac 2022でかなり多くの画像がalt textを欠いていたことにも触れています。そこでFirefoxは、画像の内容をローカルで推定し、ユーザーが確認・編集できる初稿を出す方向を試しています。
小型モデルを使う理由
記事では、Vision TransformerとDistilGPT-2を組み合わせた182Mパラメータ級のモデルが紹介されています。GPT-4oのような大規模モデルほど詳細な説明はできませんが、alt textには必ずしも長い説明が必要なわけではありません。短く要点を押さえた初稿を出し、人間が文脈に合わせて調整できることが重要です。
小型モデルを端末上で動かす利点として、Mozillaはプライバシー、リソース効率、透明性、CO2排出の把握、モデル改善のしやすさを挙げています。画像やPDFの内容、生成された説明文がMozillaへ送られない設計は、この機能の性格を大きく決めています。
既存のFirefox機能を活かした実装
実装面では、Firefox Translationsで使われてきたローカル推論の考え方を拡張しています。翻訳機能では、モデルとWASMランタイムをダウンロードし、その後はオフラインで翻訳できます。alt text生成でも、ONNX RuntimeとTransformers.jsをFirefox Nightlyへ組み込み、モデルをローカルにキャッシュして使う構成です。
Firefox AI Runtimeのドキュメントでも、このコンポーネントはTransformers.jsとONNX Runtimeをベースにした実験的なローカル推論ランタイムとして説明されています。単発のデモではなく、ブラウザ内で複数の推論タスクを扱うための足場を作っている点が見えます。
参照リンクから見えた背景
MDNのaltプロパティ解説を見ると、altは単なるSEO用テキストではなく、画像が利用できない場合や支援技術で画像を伝えるための基本属性です。Mozilla Hacksの記事は、この基本的なWebの仕組みにAIをどう補助的に差し込むかという話でもあります。
ONNX RuntimeとTransformers.jsは、ブラウザ内推論の実装基盤として重要です。さらに、mozilla/distilvitやmozilla/checkviteが公開されており、モデルやデータセット改善の流れを外から追えるようになっています。
気づき
この取り組みで印象的なのは、AIを「何でも答える大きな機能」としてではなく、ユーザーが困っている具体的な欠落を埋める補助機能として使っている点です。alt text生成は、完璧な説明文を自動で作ることが目的ではありません。画像に何も説明がない状態を減らし、人間が確認・修正できる出発点を作ることが目的です。
また、ローカル推論にこだわっている点も重要です。アクセシビリティのために画像やPDFをクラウドへ送る設計だと、便利さとプライバシーが交換条件になってしまいます。Firefoxの実験は、その交換条件を小型モデルとブラウザ内推論で回避しようとしているように見えます。
読んでおきたい人
- WebアクセシビリティとAIの接点に関心がある人
- オンデバイスAIやブラウザ内推論の実装例を知りたい人
- PDFや画像編集機能にアクセシビリティ支援を入れたい開発者
- AI機能をプライバシー重視で設計したい人
参照記事
- Experimenting with local alt text generation in Firefox Nightly – Mozilla Hacks
- Here’s what we’re working on in Firefox – Mozilla Connect
- Mozilla’s Vision of the Web
- HTMLImageElement: alt property – MDN
- Web Almanac 2022: SEO
- COCO – Common Objects in Context
- CodeCarbon
- Bergamot
- ONNX Runtime
- Transformers.js
- Firefox AI Runtime
- mozilla/distilvit
- mozilla/checkvite
- Mozilla on Hugging Face

コメントを残す