インド政府がインターネットを利用した光学文字認識システムを発表 - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

インドの Sachin Pilot 通信情報技術相は、ヒンディー語とパンジャブ語用の新たなインターネットを用いた光学文字認識（OCR）システムの運用を発表した。

この計画は、様々な言語を使用する人々をインターネット上で取り込むための重要な活動であると説明した上で、政府による統治におけるインド語利用の拡大への道を開くものでもあると、技術相は期待している。

OCRとは、手書きのものやタイプライターで書かれたもの、印刷された文字などを電子データの形式に変換する技術である。これによって、印字された書籍や文書を編集したり検索することが可能となり、さらには機械翻訳やテキスト読み上げなどの技術と組み合わせることもできる。

さらに技術相はOCRシステムとともに、ヒンディ語・マラーティー語・ベンガル語・テルグ語・タミル語・マラヤーラム語の6つの言語に対応したテキスト読み上げシステムも発表している。

これによって事実上、開発者は自身のアプリケーションに同システムを統合することが可能となり、ユーザーは携帯電話や電子ブックリーダー、タブレット、パソコンなど、このシステムに対応したデバイスを用いることで、他の地域の書籍や文書の読み上げて聞くことができるようになる。利用するデバイスがスクリーンリーダーを備えたものなら、基本的な操作もより容易にこなせることだろう。

両システムともTechnology Development for Indian Language (TDIL)によって開発されており、プログラムはインド政府の情報産業部によって運用される。テキスト読み上げシステムはすでにOCR-AフォントとWindows用のオープンソーススクリーンリーダーNon Visual Desktop Access (NVDA)を連携した文字認識が可能で、このシステムはTDILデータセンターに展示されている。

[Image Credit]

【via Penn Olson 】 @pennolson