シリコンバレーが世界を翻訳!? SRIインターナショナルの米軍向けスマートフォン用アプリ
オンラインデータを複数の言語へ翻訳する需要は急速に高まっています。コンピュータ-ベースの翻訳は役に立ちますが、完璧というには程遠いものがあります。
How are you today… Como estas hoy? Ky? wa dono y? ni aru… I’m an American.
シリコンバレーのグーグル本部では、チームが翻訳ソフトウエアの開発に従事しています。Senior Communications AssociateのRoya Soleimaniが開発状況を次のように説明しています。
モバイル部門のグーグル翻訳チームを先導しているJosh Estelleは、「世界の情報を国際的にアクセス可能および利用可能にすることが自分らのミッションです」と述べています。
実際のところ、グーグルはそれをどうやって実現するのでしょう?
「人々が考えているほどbilingual elvesではありません。システムをサンプルデータなしで構築しており、我々はそれを統計的機械翻訳(statistical machine translation)と呼んでいます」。
なぜそれほど難しいことなのでしょうか? という問いに、グーグルのRoya Soleimaniはそれが深刻なコンピュータ科学の問題であると説明しました。
「慣用句やニュアンスは数えきれないほどあるわ」とのこと。
方言やアクセント、曖昧さなどは言うまでもありません。「clubby」を意味する「gordito」などのスペイン語は、「侮辱」から「愛情」までさまざまな意味合いをもちます。グーグルの翻訳チームはそのような課題に取り組んでいるのです。
「数学的アルゴリズムを用いて全データを処理し、「真実」の小さな塊、つまり良質な翻訳の一部分を引き出すのです」とEstelleは言います。
そのため、グーグルの翻訳文はオンライン上の翻訳済みデータ以上の品質にはなりません。
コンピュータ自らが失敗から学び、明確な説明を要求できるようにするための研究をPrecodaらは行っています。