GoogleとDuolingo、そしてインターネット翻訳の問題

著書のデジタル化を支援するeCAPTCHA証明システムの作成者であるLuis von Ahnが、「ウエブを主要言語に翻訳するプロジェクト」を開始しました。このTEDインタビューにおいて、彼は翻訳対象の大部分は英語であることと、インターネットが複数の言語に細分化され始めていることを取り上げました。「英語を話せなければアクセスすることはできません」と彼は話します。
多くの言語集団にとってアクセス可能なウエブをつくるため、彼の研究チームはDuolingo(無料言語学習アプリ)をつくりましました。Duolingo学生が学習対象言語で一定レベルに到達すると、このアプリは彼らに翻訳課題を出しました。Duolingoチームは翻訳文を集め、最終バージョンに到達するためにアルゴリズムを使用します。この最終バージョンは企業を対象に市場価格よりも安く販売されるものです。
学生は教材用の文章ではなく、実際に使われたテキストを翻訳して学習します。Duolingoと契約を結んだ企業は格安で訳文を手に入れ、Duolingoは無料を維持します。
ビジネスモデルとして、この契約は非常に効果的ですが、Duolingoが主張する「高品質」には多くの疑問が残ります。
品質コントロール
Von Ahn correctly は「機械翻訳は著しく進歩したが、GoogleTranslateのようなサービスは全く信頼できるものではない」と話します。Duolingoのクリエーターは日本語から英語に翻訳されたヘンテコな文のサンプルを使います。
Google TranslateとDuolingoは非常に多くのデータを蓄積し、テキストの訳文の最終バージョンを決定するためにアルゴリズムを使用します。しかし、Googleはオンラインですでに利用可能な文書のパターンに着目する一方、Duolingoは翻訳に必要なオリジナル言語をテキストに与えます。
von Ahnによれば、翻訳は単純に機械で行えるものではないため、この方法がより有効であるとのこと。Duolingoの翻訳の質に関して、von Ahn はドイツ語からの訳文サンプルを提示し、Duolingoの訳文とプロの翻訳者の訳文を比較します。
訳文はかなり滑らかですが、このことがDuolingoの品質を証明するわけではありません。高品質のコンテンツを対象とした場合にはGoogle Translateも健闘します。García MárquezのOne Hundred Years of Solitudeの最初の文章をGoogle Translateにかけると、質の良い訳文を手に入れることができます。なぜなら、有名な著書の訳文はすでにオンラインで公開されており、Googleはそのデータをもとに訳出を行うからです。
しかしこれがGoogle Translateの品質を保証するわけではありません。オンラインで入手可能な訳文をただ横流ししているともいえるからです。
Duolingoが翻訳のために蓄積しているデータに私たちはアクセスできませんが、アプリで得られる訳文がいつも素晴らしいものであるということには疑問が残ります。