目次
タイの機械翻訳さらなる進化、PTT傘下の大学VISTECがオープンソースを公開
世界的に、自然言語解析や音声認識の技術が素早く進展していく中、大手石油公社PTT傘下の大学、VISTECのAI研究室がタイの機械翻訳のレベルアップを目指して、その機械翻訳モデルおよびデータセットを無料公開した。よりよい言語解析モデルを開発するのに、マイノリティな言語であることから、不足しがちなタイ語の『言語資源』だが、今回の公開を受けて、タイ語の自然言語処理を活用した製品やサービスがより広がりそう。
タイ企業が積極的にチャットボットや音声認識技術をカスタマーサポートに導入
出生率の低下および賃金の高騰により、労働不足問題が徐々に顕在化しているタイだが、数年前からカスタマーサポート現場に問題が発生し始めた。通信会社など、カスタマーサポート業務が多い会社は、コールセンターの人材を確保するため、地方への移転を繰り返していた。それでも、人手不足が発生したため、携帯電話のAISおよびTrue社がいち早くからコールセンター向けのAI音声認識を導入した。業界関係者の話によると、AIS社は、世界ナンバー1であるNuance社のソリューションを導入し、True社は、日本のAmiVoiceのソリューションを導入したと言われた。その後、航空会社なども相次いで導入を進めた。
元々、タイでは、自然言語解析技術を活用したツールの利用が比較的に限定的だった。一番最初に導入が活発だったのは、『感情分析』をはじめとするソーシャルモニタリングという分野だった。製品やサービスに対して、ユーザーがどのような感情をもつかと、プラスやマイナス、よく出現するキーワードなどを拾い、マーケティングやカスタマーサービスを即時フィードバックできるようにした。大企業においては、監視室を設置し、悪いコメントが発生すれば、すぐフォローするような体制をとったりした。この分野で有名なのは、例えば、韓国のYello Mobileに買収されたComputerlogyやThoth Socialなどがある。
その後、eコマースの普及や、フェイスブックがメッセンジャーボットを実装化するに伴い、自然言語解析やAIを自動質疑応答に導入する企業が増えてきている。チャットボット分野で有名なのは、例えば、Computerlogy傘下のMojitoや、AIYA、HBOTなどがあり、自然言語解析技術の活用度合いはそれぞれまちまちだった。また、それとともに派生した分野やサービスに特化した検索エンジンも盛んになった。グーグル、マイクロソフトなどが自然言語関連のAPIを提供するに伴い、より、自然言語解析技術を活用するソリューションが活発になると予想される。
今回、公開されているデータセットおよびモデルとは?
今回、公開されているデータセットおよびモデルは以下のようである。
- 1)scb-mt-en-th-2020という文章の組み合わせデータセットを提供し、累計100万のタイ語・英語の文章組み合わせがある。文章の組み合わせは、タスクマスター、製品レビューや製品アノテーション、会話、二言語あるニュース記事や企業ホームページ、ウィキペディア、政府の公文書などか集められた。翻訳者およびアルゴリズム両方を使って、タイ語および英語の組み合わせをやっている。
- 2)上記のデータセットを用いて、タイ語→英語、そして英語→タイ語の翻訳モデルを作った。このモデルを、The International Conference on Spoken Language Translation (IWSLT)が公開した2015年のテストセット(TED Talkから文章を起こしたデータ)でBLEU scoreを検証したところ、タイ語→英語、および英語→タイ語、両方とも、グーグル翻訳APIと同等あるいは、よりよい結果を出すことができる。一つのデータセットの結果にすぎないのだが、他の言語をメーンに機械学習され、タイ語にチューニングするだけの海外大手のシステムと比べて、タイ語の言語資源をベースに特化され、機械学習されたものが特定分野や用途において、海外大手の汎用的なソフトウェアよりよいパフォーマンスを示す場合もある可能性を示したのである。
グーグル、マイクロソフトなどのような巨人が徐々にタイ語関連の自然言語解析ツールをオンラインサービスとしてリリースしていく中、自前でこの分野の研究を進めている意義は何でしょうか?研究チームの一員でもあるSCB銀行のデータサイエンスがインタビューで回答したところでは、グーグルやマイクロソフトのような世界的な巨人が必ずタイ顧客のカスタマイズ需要に迅速に答えてくれるとは限らない。また、対応してくれても高額の場合が多い。そもそも、提供されたAPIの範囲内だけで十分な場合は、そのまま使えばよいが、流動的かつ、いろんなドメイン分野における特殊な意味合いが多いタイ語においては、用途によって自らモデル丸ごと開発し直す必要があり、研究者レベルが利用するような言語資源やツールを求めたりする。企業側としては、産学連携スキームを使って企業の専門家がVISTECに出向いて大学の研究者と一緒に研究を進め、迅速なソリューション開発を可能にする。
タイ語の自然言語関連(NLP)の研究状況
タイ語の言語資源については、十数年前からいくつかの研究機関から出されていた。例えば、科学技術開発庁傘下のエレクトロニクス・コンピューター研究所(NECTEC)は、BESTおよびORCHIDというコーパスをリリースし、一部は、文章、単語の区切りおよび品詞が付けられていた。また、AI FOR THAI を公開し、ウェブベースで単語および文章の基本的な操作や、タグ付け、機械翻訳(タイ語英語とタイ語中国語)、テキストおよび絵文字の感情分析、文字の画像認識(OCR)、音声認識、音声合成、チャットボット、質疑応答システムを利用できるようにしている。チュラロンコーン大学も3300万単語のコーパスをウェブベースで公開したことがある。どれも著作権絡みなどがあり、公開は限定的だった部分があった。
VISTECは、その弊害を乗り越えるため、著作権問題をクリアできるデータセットやモデルを公開しようと進めている。今回のタイ語・英語の機械翻訳データセットおよびモデルに加え、将来は、品詞付け、音声認識、タイ語・中国語の機械翻訳なども開発し、無料公開していく予定。
今後の研究レベルの向上や、自然言語関連の製品、サービス、ソリューションが多数リリースされていくことが期待される。