この記事は、みらい翻訳Advent Calendar 2024の1日目です。
こんにちは、みらい翻訳 エンジニアリング部の岩月です。
普段は大規模言語モデル(LLM)と向き合っていますが、ときどきフランス語に目が向いてしまいます。
そこで(?)、日本語をフランス語っぽく書くということに興味が出てきました。
日本語をフランス語っぽく書く
例えば、「おはよう」をローマ字で書くと、ohayouですが、これをフランス語とみなして読んでみると「オアイウ」となってしまいます。フランス語とみなして発音した時に、「おはよう」と聞こえるようにするには、例えばorayauxと書かねばなりません。
※フランス語には日本語の/h/の音素がありませんが、フランス語の[ʁ]の音は日本語母語話者である私には/h/にしか聞こえません*1ので、これを活用します。
フランス語の音声を読み上げてくれるウェブサイトがいくつかありますので、実際の音が気になる方はお試しになってください。
この調子でいくつか書いてみます。
「明日がある」は"achita gaalou"
「みらい翻訳」は"milaï ront yaque"
「春はあけぼの」は"raloi aqués beau naux"
でどうでしょう。音声を聞いてみるとなかなか良い感じです。
より長い文章にも適用してみたいところですが、結構頭を使うので、これを自動的にやらせたいところです。ルールベースでやっても良いのですが、ルールを書くのも面倒なので、LLMに丸投げしてみたいと思います。
LLMに丸投げ
ここでは、みらい翻訳のビジョン
言語の壁を超え、新しい生活と仕事の様式をもたらす共通語の機能を機械翻訳として2028年までに作る。
を変換してみます。漢字の読みを当てるタスクまで解かせると大変なので、すべてひらがなにしました。
げんごのかべをこえあたらしいせいかつとしごとのようしきをもたらすきょうつうごのきのうをきかいほんやくとしてにせんにじゅうはちねんまでにつくる
ルールベースすら回避したい今回はfew-shotで行きます。よって入力は以下の通りです。
次の日本語を発音はそのままでフランス語のつづりにしてください。
おはよう → Orayaux
あしたがある → Achitta Gaalou
みらいほんやく → Milaï Ront Yaque
はるはあけぼの → Raloi aqués beau nauxげんごのかべをこえあたらしいせいかつとしごとのようしきをもたらすきょうつうごのきのうをきかいほんやくとしてにせんにじゅうはちねんまでにつくる →
使用したLLMは4種類です*2:
- Llama 3 70B
- Llama 3 Swallow 70B
- Sarashina2 70B
- GPT-4o
品評
定量的な指標を用意する余裕がありませんでしたので、主観的な定性評価を行います。
まずは、Llama 3 70B。
Gengô no cabé o coé atarachichî seïcatou to chigotono yochiqui o motarachou kyouchougo no kinou o quïcaï hon yacou tochi ni sen nijou hachi nen made ni tsucourou
いきなりGengôでジョンゴになってしまっています。「は」をraで表す技(?)はfew-shotのサンプルにも入れましたが、さすがに対応してもらえませんでした。madeにアクソンテギュがついていないのは惜しいところです。例示していないeïのトヘマやアクソン・シフコンフレクスが出てきてるのはGOODですね。
次は、Llama 3 Swallow 70B
Gengonocabeu coé atarachixi seikatsu to chigotonoyouchikiu motarachu kyoutchugonochinouu ki kaï hon yaqueu toni sen nijuu hachi nen madeu ni tsukuru
こちらも文頭がジョンゴノカボーです。「まで」をmadeuにしてみましたが、これでもマデゥなので惜しい。"tsukuru"はもうローマ字になってしまっています。Llama 3と比べて、1単語が長めに出ているのが特徴的です。
続いて、Sarashina2 70Bです。
Géngo no kabe wo koé atarashii seikatsu to shigoto no yōshiki wo motarasu kyōtsūgo no kinō wo kikai honyaku to shite nisen nijūhachi-nen made ni tsukuru
最初の「言語」の表記に成功しています。その代わり「壁」がカブになってしまいました。"kyōtsūgo"などは長音記号までついてしまっていかにもローマ字です。
最後に、GPT-4oです。
Guenngo nocabé ocoé ataralaï séïcats to chigotonoyau chiqui o motarassu kyoû tsoungo noquinou o quicaï ront yaque tochte ni senn ni jou huit nenn madé ni tsucuru
kがほとんど出てこず、カ行をcで表記しようとしている点がGOODです。ただ、「新しい」がアタハライになってしまっています。「はち」が"huit"になっていますが、これはフランス語に翻訳してしまっていますね。
以上ですが、謎のタスク故に、GPT-4oクラスであっても完璧とはいきませんでした。オープンなLLMも試しましたが、いずれも日本語とフランス語の両方に特化しているわけではないため、思ったよりよくできていると感じました。
We are hiring!
みらい翻訳は、自然言語処理のリサーチャー・エンジニアを募集しています!!ご興味のある方はカジュアル面談からでもお気軽にご連絡くださいませ。