著者プロフィール
藤沢数希(ふじさわ・かずき)@kazu_fujisawa
物理学PhD、作家、投資家。海外の研究機関で計算実験の研究に従事した後、外資系投資銀行に転身し定量分析、トレーディングに従事。その傍ら作家活動をはじめる。『なぜ投資のプロはサルに負けるのか』『日本人がグローバル資本主義を生き抜くための経済学入門』『外資系金融の終わり』(以上、ダイヤモンド社)『反原発の不都合な真実』『損する結婚 儲かる離婚』(新潮新書)『ぼくは愛を証明しようと思う。』(幻冬舎)などのベストセラーを執筆。
恋愛やグルメなど親しみやすい話題から、高度な経済分析、エネルギー政策などの話題まで、独自の視点と鋭い分析で分かりやすく解説している。
※昨年、語学教育の取材で当校を視察後、藤沢数希氏に寄稿いただきました。
(構成:宮崎圭輔)
AI時代に日本の英語教育はどう変わるのか
日本の「英語産業」にとって、良いニュースと悪いニュースがある。2020年、つまり、いまの中学3年生が受ける大学入試が変わる。人がやっている多くの仕事を人工知能(Artificial Intelligence, AI)やロボットがやるようになる、と言われている。そうした未来では、これまでの日本の伝統的な教育である、知識や解法を暗記して、それをいかに正確に速く答案用紙に再現できるかを競うようなやり方では、国際競争に打ち勝てない。こうした教育を変えよう、と大学入試改革が行われる。
良いニュースとは、この改革で英語の入試が変わることだ。具体的には、これまでの読み・書きを中心とする大学入試から、聞く・話すを加えた4技能を見ることになり、英検、TOEIC、TOEFLなどの外部試験が日本の大学入試に積極的に活用される予定だ。じつは、もう一つ重要な変更があり、2020年から小学校の5、6学年で英語が正式科目になるのだ。これは何を意味するかというと、いまの小学3年生が受ける中学入試には英語が加わるということだ。
日本人が教育に多くのお金をかけるのは、良くも悪くも「受験」のためである。こうした受験のための塾などに流れ込む金額は、ピアノやスイミングなどの人生を豊かにするためのお稽古ごとなどとは桁が違う。まさに受験産業である。つまり、大学入試と中学入試の制度変更で、英語教育にはいま以上に大きな需要が発生するということだ。フィリピン留学やネット英会話などの英語産業には追い風が吹くことになろう。
さて、それでは悪いニュースである。このように今後10年程度のスパンで見れば、日本人はいま以上に英語の勉強をしなければいけなくなるのだが、最近のAIブームの中、それより先の未来になるとAIを使った機械翻訳の技術が進歩して、もはや英語などの外国語を勉強する必要がなくなるのではないか、というようなことが言われるようになってきた。こうした夢物語が現実味を帯びてきたのは、昨年の秋にGoogleがニューラルネットワークの深層学習(ディープラーニング)を応用した新しい翻訳システムを発表したからだ。
それまでの機械翻訳は笑ってしまうほど質が低かった。意味不明のぎこちない翻訳ばかりだったのだ。ところが、このGoogle翻訳を使ってみると、驚くほど自然な文章に訳されることが多く、すぐにネットで大きな話題となった。このままAIが発達していくと、もはや外国語の勉強など必要なくなるのではないか、と。
たしかに、英語をはじめ外国語の習得は大変だ。特に日本人は、中学、高校、そして、大学に行く人は大学でも英語を学び、計10年も勉強しても英語をしゃべれない人のほうが圧倒的に多い。それゆえに、AIによる外国語学習の不要論は、人々の願望も手伝いまことしやかに語られるようになった。
しかし、それは本当なのだろうか? 結論から書いてしまうと、まったくそんなことはない。むしろ、英語の勉強は、AI時代にはますます重要になる、というのが筆者の見立てである。理由は3つある。機械翻訳の性能向上の限界が最初の理由だ。そして、皮肉なことに、機械翻訳が発達すればするほど英語が世界中の言語のハブになってしまい、英語学習の重要性がますます高まるのだ。これが2つめの理由である。3つめの理由は、こうしたテクノロジーは英語ができない人に役立つのではなく、できる人の能力を拡張する性質があるということだ。
本稿では、これらのことを順に解説する。
コンピュータは言葉の意味を理解することができない-機械翻訳の限界
自然言語処理は大昔から研究されている分野だ。当初は、コンピュータに辞書を記録し文法ルールをプログラムしていく、というようなアプローチが取られていた。ちょうど、人間が外国語を学ぶのと同じだ。しかし、この方法を何十年と続けてもまともな翻訳プログラムができなかった。というのも、日本語でも英語でも、自然言語というのはプログラミング言語とは違い、文法に例外がとても多く、また、曖昧な表現も非常に多いので、それらをプログラムしようと思うと、すぐに例外ルールの数が爆発してしまうのだ。
このように人間の語学学習のプロセスを真似たアプローチは遅々として進まなかったのだが、1990年ぐらいから統計的なアプローチが盛んに研究されるようになってきた。たとえば、日本語→英語の場合、日本語の大量の文章とそれに対応する英語の文章を用意して、このような日本語が来たらこのような英語訳になる、とパターン認識のアルゴリズムを使ってコンピュータに統計的に当たる確率が高い訳を対応させる手法だ。インターネット時代には、大量のテキスト情報が利用可能となり、また、コンピュータの計算速度も上がったため、このような力ずくな手法が上手くいきはじめたのである。そして、世界で一番たくさん言語データを持っているGoogle社が、この分野で大きな進歩を成し遂げたのだ。
こうした統計的アプローチでは、ある意味で、非常にこなれた訳が出てくるのは当然で、コンピュータがいわば勘で、こんな文章だろうというものをポンと出してくるのである。だから、Google翻訳は、人間が理解するように文章を理解しているわけではまったくないのである。それゆえにちょっと論理がひねくれた文章や文脈を考えないといけないような文章を与えると、まったくトンチンカンな訳を返してくる。Google翻訳は、軽いジョークやスラングが出てくるようなくだけた会話のほうがむしろ得意で、論理が入り組んだ硬い文章が不得意なのである。コンピュータらしくないのだ。
たとえば、日本の大学入試レベルの英語の問題でも、現状のGoogle翻訳では手も足も出ない。以下、例を示そう。
・以下の和文を英訳せよ。(2017年京都大学入試問題)
生兵法は大怪我の元と言うが、現代のように個人が簡単に発信できる時代には、特に注意しなければならない。聞きかじった知識を、さも自分で考えたかのように披露すると、後で必ず痛い目にあう。専門家とて油断は禁物で、専門外では素人であることを忘れがちだ。さまざまな情報がすぐに手に入る世の中だからこそ、確かな知識を身につけることの重要性を見直すことが大切である。
(Google翻訳結果 2017年5月時点)
The live law is said to be a source of serious injury, but you must pay particular attention to the times when individuals can easily send out like modern times. If you demonstrate what you heard as though you thought about yourself, you surely get painful afterwards. It is easy to forget that it is a prohibited guard with an expert, and it is an amateur outside the specialty. It is important to review the importance of acquiring reliable knowledge because it is a world where various information can be obtained at once.
生兵法を「生の法律(the live law)」と誤訳し、大怪我という比喩も意味を考えずに直訳してしまっている。その後の文章もわけがわからない。また、情報がすぐに手に入る(various information can be obtained at once)、というようなこともそのまま直訳されておりとても不自然である。このようにGoogle翻訳では、ちょっと入り組んだ日本語は支離滅裂な英文に訳されてしまうのだ。
以下が筆者の英訳例である。人間ならこの程度の英訳は簡単にできる。文章の意味を理解しているからだ。
(筆者英訳)
People often say that a little knowledge is even risky. It is particularly true in the current internet era where you can send out your opinions to many people very easily. If you show off some inaccurate ideas you’ve heard somewhere as if you thought of them by yourself, it never goes unpunished. Even if you are an expert in one field, you should not forget that you are just an amateur in another field. It is because you can access a large volume of information easily using the internet that it becomes even more important to study hard and gain solid knowledge.
英文和訳のほうだとどうだろうか。やはり京都大学の入試問題を入力してみよう。
・本文の下線が引かれた英文を和訳せよ。(2015年京都大学入試問題)
[下線部分抜粋]
Listening to the music improved our understanding of the mechanism by which the chains of amino acids interact to form a material during the silk-spinning process. The chains of amino acids that formed silk fibres of poor quality, for example, translated into music that was aggressive and harsh, while the ones that formed better fibres sounded softer and more fluid, as they were derived from a more interwoven network.
(Google翻訳結果 2017年5月時点)
音楽を聴くことは、シルク紡績プロセス中にアミノ酸鎖が相互作用して物質を形成するメカニズムの理解を向上させました。 たとえば、悪質なシルク繊維を形成したアミノ酸鎖は、攻撃的で過酷な音楽に翻訳され、より良い繊維を形成するものは、より織り交ぜたネットワークに由来するように、より柔らかくより流動的に聞こえました。
こなれた日本語には訳されておらず、断片的な単語から、かろうじて何となく言っていることが分かる程度である。残念な結果だ。以下が筆者の和訳である。やはり人間なら文脈を考えながら簡単に訳せるのだ。
(筆者和訳)
分子の配列が奏でる音楽を聴くことによって、アミノ酸の鎖が相互に作用しながら生糸を紡ぎシルクを形成するメカニズムへの理解が進んだのだ。たとえば、品質の低い繊維を作ってしまうアミノ酸の鎖は、攻撃的で耳障りな旋律に聴こえる。一方で、良質な繊維を形成するアミノ酸の鎖は、より稠密な網の目状をしており、まるでそれは柔らかで滑らかな旋律を奏でているようだった。
多数のルールをプログラムしていくというアプローチにしろ、ニューラルネットワークを使った統計的なアプローチにしろ、コンピュータは文章を理解することはできないのだ。人間が文章を理解するとはどういうことなのか、という根源的な問いは、何千年も前から考えられてきた。しかし、哲学のような人文科学でも、AIなどの最新の情報工学でも、こうした問いには、いまだに手も足も出ていないのが現状である。
コンピュータに文章を理解させることがどれほど困難かは、仮にそれができたとしたらどうなるか、と問えばよりいっそう明らかになる。現代のニューラルネットワークに基づくAIは、教師データを与えて学習させることによって、入力に対して、正しい答えを出せるように鍛えていく。コンピュータが人間の言語を理解できたら、いま世界中にある本をそのまま学習データに使える、ということを意味する。仮にそんなことができたとしたら、人間の頭脳をコンピュータが簡単に超えることになり、コンピュータが勝手に科学を進歩させていくことになるのだ! そんなことは起こりそうもないことである。
やはり、人間のように文章を理解する、ということには根源的なとてつもない厚い壁がある、と考えるのが自然なのだ。ここにコンピュータを使った機械翻訳の限界がある。残念ながら、AIによる機械翻訳は、人間が翻訳する前に用意する、出来の悪い下訳程度のレベルで頭打ちになる可能性が極めて高い、と筆者は考えている。それでも有用なことには変わりないが。
機械翻訳で英語中心主義が加速 -ハブアンドスポーク型になる多言語翻訳
世界には数千の言語があると言われている。主要な100言語程度で考えても、その組み合わせの数は4950通りにもなる。そのすべての言語ペアで翻訳プログラムを作り上げるのは極めて困難だ。ところが、ここで英語を中心としたハブアンドスポーク型にすれば、組み合わせの数は劇的に減少する。この場合は、たったの99通りになる。すべての言語を英語を介してつなげることで、開発しなければいけない翻訳プログラムの数は劇的に少なくなるのだ。Googleはアメリカの会社なので、当然、英語を中心としたシステムを構築することになる。
●多言語翻訳では言語ペアの数が膨大になってしまう
●英語を中心としたハブアンドスポーク型の多言語翻訳
じつは、Google翻訳は、AIが内部でどの言語にも属さない中間言語を作り出している、という説もあったが、いまのところ対英語以外の翻訳精度は非常に悪い。筆者は中国語は得意ではないが、試しに中国語に翻訳された拙著『ぼくは愛を証明しようと思う。』のなかのいくつかの文章をGoogleに翻訳させてみた。中国語→英語に関しては、かなり正確な訳が出てくるのだが、中国語→日本語だと、ほとんど意味が通じない酷い訳になった。やはり、Googleはいまのところ英語を中心にして主要言語に絞って翻訳プログラムを開発しており、中国語⇔日本語のような場合、間に英語が入ってしまい二重に翻訳するため、かなり品質が落ちるようだ。たとえば、中国語→英語の翻訳精度が70%、英語→日本語の翻訳精度が70%でも、中国語→日本語だと49%に低下してしまうことになる。筆者が、中国語の文章を日本語に翻訳してみた経験では、これよりもさらに悪い印象を受けた。
先程、Google翻訳は、自然言語のルールをプログラムしていくのではなく、力ずくの統計的アプローチである、とすこしごまかして書いたが、実際はもっと複雑なハイブリッド型で、昔から続く自然言語に対する研究も当然のように取り入れていると思われる。一つの言語ペアの翻訳プログラムを作るには膨大な研究開発が必要であり、言語ペアを増やしていくことは、そう簡単なことではない。よって、英語を中心としたハブアンドスポーク型で多言語翻訳が行われていくことになる。
このようにあらゆる言語の翻訳プログラムは、まずは対英語で開発されるのである。そして、対英語では、すでに述べたように、簡単な文章ならかなり使えるようになってきている。これは何を意味するかというと、英語を勉強する価値がさらに上がるということだ。英語さえわかれば、AIによる機械翻訳を使って、他の言語をしゃべる人ともかなり意思疎通ができるようになるからだ。たとえば、中国語しか出来ない人でも、それをGoogle翻訳で英語にしてもらえば、かなり理解することができる。そして、こちらが伝えたいことも、まずは英語で文章を作り、それを中国語に翻訳して相手に伝えるのだ。
皮肉なことに、AIによる翻訳技術が進めば進むほど、このような英語中心主義がテクノロジー的にも必然となり、英語の価値が劇的に高まるのだ。つまり、英語学習がますます重要になるということなのだ。
機械翻訳はもともと英語ができる人の力を拡張する -ITは格差を拡大させる
AIを使った機械翻訳は、インフォメーション・テクノロジーの一種である。そして、これまでのインフォメーション・テクノロジーと同じように、それは能力差を拡大させることにつながる。もともと情報処理能力が高く、確かな知識を持っている人間の能力を拡張していく一方で、そうでない者たちからは携帯ゲームのような無意味な娯楽で時間を奪い取り、疑似科学、ニセ医学、放射脳、ネトウヨなどの誤った考え方や間違った知識をさらに強化していく。インフォメーション・テクノロジーで武装した一部のエリートたちの報酬は上昇の一途を辿っているが、先進国の若年者層の失業率は高止まりしたままだ。Googleは唸るような利益を上げ、創業者たちの保有資産はすでに小国の国家予算を上回っている。テクノロジーは格差を拡大させる働きがある。
翻訳に関するテクノロジーも、同じように作用するはずだ。つまり、もともと語学が堪能な個人の能力を拡張するが、そうでない人々には大した恩恵をもたらさない。少なくとも経済的な見返りのあるような恩恵はないだろう。皮肉なことだが、もともと英語ができる人でないと、こうした機械翻訳は使いこなせないのだ。それはGoogle翻訳がどのように使われるのかを考えれば明らかだ。まとまった文章を英訳、あるいは和訳したい場合、まずはGoogle翻訳に下訳を作らせる。それを日本語と英語の両方がよくわかっている人が手で直していく、というプロセスになる。人間がおかしな単語を直したり、文法ミスを訂正する。わかりにくい文章の構成を、順番を入れ替えたりして読みやすくする。こういった地道な作業を経て、正しい英語、あるいは日本語の文章ができあがる。
日本で受験勉強をすると、単語を並べ替えて正しい文章を作ったり、文法ミスを訂正するような問題を何度も解くことになる。こんなものは入試のための問題であり、意味が無いのではないか、と思われていたが、Google翻訳のような最新のテクノロジーが進化した結果、一周回って意外と実践的な教育だった、というのは新鮮な驚きである。
残念ながら、筆者たちが生きている間に、まったく外国語を学習していない者が使えるような機械翻訳が実現することはないだろう。それはいまある技術の延長線上にはなく、いくつもの途方もないブレークスルーを必要とするからだ。そして、こうしたテクノロジーが進化すればするほど、地道に英語学習に励み、英語を使いこなせる人材の価値がさらに高まることになるのだ。
参考資料
- 「英語に民間試験、導入時期で2案 大学入試新テスト 国語・数学に記述式」産経ニュース、2017年5月16日
- 「週刊金融日記 第248号 2020年大学入試改革に対応する方法」藤沢数希、2017年1月11日
- 「週刊金融日記 第242号 サルでも分かる人工知能の歴史とこれからのビジネス」藤沢数希、2016年11月30日
- 「Google 翻訳が進化しました」Google社、2016年11月16日
- 「なぜGoogle翻訳は賢くなれたのか」ITmedia、2016年11月27日
- 「なぜ人工知能は東大に合格できないのか? 上」週刊新潮、2017年2月2日号
- 「なぜ人工知能は東大に合格できないのか? 下」週刊新潮、2017年2月2日号
- 「GoogleのAI翻訳ツールは独自の内部的言語を発明したようだ」TechCrunch Japan、2016年11月23日
- 『岩波データサイエンス Vol.2 統計的自然言語処理 ことばを扱う機械』岩波データサイエンス刊行委員会、2016年2月17日
- 『よくわかる人工知能 最先端の人だけが知っているディープラーニングのひみつ』清水亮、2016年10月17日
- 『AI経営で会社は甦る』冨山和彦、2017年3月29日
- 『人工知能はどのようにして名人を超えたのか?―最強の将棋AIポナンザの開発者が教える機械学習・深層学習・強化学習の本質』山本一成、2017年5月11日