タグ 人工知能

Web開発者向けローコードSaaS「FRONT-END.AI」運営、プレシリーズAで1億円を調達——ANOBAKA、East V、DNX Vらから

SHARE:

Web エンジニア向けローコードサービス「FRONT-END.AI」を開発・運営する Tsunagu.AI は3日、プレシリーズ A ラウンドで1億円を調達したことを明らかにした。このラウンドに参加したのは、ANOBAKA、East Ventures、DNX Ventures、NOW、日本スタートアップ支援協会、名前非開示の個人投資家複数。Tsunagu.AI にとっては、2019年2月に NOW…

Tsunagu.AI のメンバー。中央が CEO の森隆晃氏。
Image credit: Tsunagu.AI

Web エンジニア向けローコードサービス「FRONT-END.AI」を開発・運営する Tsunagu.AI は3日、プレシリーズ A ラウンドで1億円を調達したことを明らかにした。このラウンドに参加したのは、ANOBAKA、East Ventures、DNX Ventures、NOW、日本スタートアップ支援協会、名前非開示の個人投資家複数。Tsunagu.AI にとっては、2019年2月に NOW とディップ(東証:2379)から数千万円を調達したシードラウンドFGN ABBALab ファンドからのシードラウンド調達に続くものとなる。NOW はシードラウンド、DNX Ventures はシードのエクステンションラウンドに続くフォローオン。

Tsunagu.AI は、ネットイヤーグループ、メンバーズを経て、グッドパッチで UX デザイン支援業務に従事していた森隆晃氏(現 CEO)らにより2017年に設立。Web サイトを開発する工程を半自動化する AI サービス FRONT-END.AI を開発している。Web サイト開発ではデザイナーがカンプを作り、それをエンジニアが解析しコーディングするというプロセスをとるが、ここを半自動化することでコスト圧縮と作業のスピードアップを提供する。

Web 制作会社などでは、ランディングページなどを内製化するに当たって、HTML や CSS をコーディングするだけの人材を社内に置いておくことはできず、また、エンジニアにそれだけの作業をさせるわけにもいかない。FROEND-END.AI を使えば、ユーザがページデザイン全体のデザインカンプ(jpg または png 形式)と素材をアップロードするだけで、HTML 構造やデザイン要素を分析。分析結果から自動コーディングすることで、Web サイト開発の初期工程を大幅に削減することができる。

「FRONT-END.AI」
Image credit: Tsunagu.AI

Tsunagu.AI が強みとするのは、森氏をはじめとする UX を強みとするデザイナやエンジニア、そして、画像を解析し HTML や CSS のコーディングを実現する機械学習技術とアルゴリズムだ。Web サイトにおいては、画像が複数オーバーラップして、一部が欠落して表示されていたり、隠れて見えなくなったりするケースがあり、一般的な AI はカンプと素材を同じ画像として認識できない場合がある。Tsunagu.AI は特徴点を見つける独自アルゴリズムで、この問題の解決に成功しているという。

2019年4月のクローズドβ版ローンチ以降、現在は大小さまざまな広告代理店や Web 制作会社など約30社ほどがサービスを利用しているという。これまでは、ランディングページなど CMS で作成されていないページのコーディング自動化にフォーカスしてきたが、今後は、コードの記述方法や CSS の命名規則など各社毎の内部ルールにも対応できるエンタープライズ版の開発に着手し、最終的にはデザイン分析可能な自動 CMS としてのサービス提供を目指す。

Tsunagu.AI は2018年、NVIDIA Inception Program に採択。2019年には、ICC サミット京都でスタートアップ・カタパルトのファイナリストB Dash Camp 2019 Fukuoka の「Pitch Arena」でさくらインターネット賞を獲得した。明日開催予定の AI スタートアップと本郷近辺の活性化を目指したスタートアップイベント「HONGO AI 2020」にも登壇を予定している。

製品マスタSaaS開発のLazuli、Coral Capitalから5,000万円をシード調達——松尾豊氏がアドバイザーに就任

SHARE:

製品マスタ SaaS「Ninja DB(仮称)」を開発する Lazuli は5日、シードラウンドで Coral Capital から5,000万円を調達したことを明らかにした。まあt、東京大学大学院教授の松尾豊氏を AI アドバイザーに迎えたことも明らかにした。 Lazuli は、リクルート出身でトレタでデータソリューション部長を務め、データサイエンス企業の FUTUREWOODS や AI コン…

前列左から:國貞航氏(CXO)、池内優嗣氏(COO)、萩原静厳氏(現 CEO/CTO)、松尾豊氏(東京大学大学院教授)
後列左から:澤山陽平氏、James Riney 氏(共に Coral Capital パートナー)
Image credit: Lazuli

製品マスタ SaaS「Ninja DB(仮称)」を開発する Lazuli は5日、シードラウンドで Coral Capital から5,000万円を調達したことを明らかにした。まあt、東京大学大学院教授の松尾豊氏を AI アドバイザーに迎えたことも明らかにした。

Lazuli は、リクルート出身でトレタでデータソリューション部長を務め、データサイエンス企業の FUTUREWOODS や AI コンサルファームの FUTURE VALUES INTELLIGENCE(FVI)でそれぞれ CEO や取締役を務めた萩原静厳氏(現 CEO/CTO)らにより創業。共同創業メンバーの池内優嗣氏(COO)や國貞航氏(CXO)らもまた、トレタや FVI で萩原氏と仕事を共にした。

e コマース、POS データなど多数の商品を効率よく扱うには製品マスタが必要になる。製品マスタはメーカーで定められていることが多いが、当然ながら、あるメーカーの製品マスタには自社製品の情報しか含まれていない。小売業などにとっては複数メーカーの商品を扱うことなるわけだが、採番ルールや情報フォーマットについても各社各様である。

ニッチな業界で使われる製品については、電子流通が当たり前となりつつある現代においてもマスタが存在しないケースもある。マスタが存在しない状況では、メーカーではなんとかなっても、卸売業や小売業の現場では製品を特定できない問題が発生するので、そこでしか利用できないローカル版のマスタが生まれることになる。

e コマースのバックヤードなどでは、このローカル版のマスタの作成を手作業で行っていることが多い。同じような作業を複数社が行っているわけで、労働集約型のムダな作業である。そしてローカル版のマスタの乱立は、本来世の中で一意であるべき製品マスタを、だんだん理想の形から遠ざけることになってしまう。

ここでいう卸売業や小売業の企業などが、例えば、業界団体などを通じて協調しあってマスタの統合に動くようなモチベーションも働きづらい。ローカルで作成された製品マスタは、彼らにしてみれば血と汗と結晶であり、それを公開して統一されたものにするのは、競合優位性を損いかねないと考えるからだ。かくして、今日も日本のどこかで、各社がローカル版のマスタを作り続けている。

Ninja DB は、こうした製品マスタを統合し、各社が SaaS として利用できるようにするものだ。マスタを統合する過程においては、「ある製品のデータとある製品のデータが同じ一意のもの」として認識させる名寄せの作業が生じるが、この名寄せを Lazuli のメンバーが培った独自アルゴリズムにより自動で行い、マスタを〝この上なくキレイなもの〟にするのが目標だ。

一般商材をターゲットにしている。オフラインのリテールでは、モノを売るということに力を傾注していて、マスタの不備から、仕入れ・在庫管理・販売に至る一連のプロセスで DX が進まない大きい理由だったりする。

マスタが一元化されると、商品流通におけるトレーサビリティにも大きく寄与するだろう。例えば、ある商品の業界全体カテゴリのトレンドなどは、マスタが無いから細かく分析できていないものも多い。将来的には、サブライチェーンの上の方まで行けるといい。(萩原氏)

Lazuli ではさまざまなユースケースを求めて、業界各社との PoC を開始している。今回アドバイザーに就任した松尾氏とは以前から親交があり、共同研究を行い数多くのアルゴリズムをサービスにしてきたという。同社では今後、世界に向けた革新的なサービスを提供していけることに非常にワクワクしている、としている。

au IKEBUKUROにスタートアップが集結「スピード共創」はどう実現した Vol.1

本稿はKDDIが運営するサイト「MUGENLABO Magazine」に掲載された記事からの転載 課題とチャンスのコーナーでは、毎回、コラボレーションした企業とスタートアップのケーススタディをお届けします。初回はKDDIのau IKEBUKURO店で実現した、感染症拡大を防止するためのスタートアップ共創事例をご紹介します。 ニュースレターの購読 注目すべき記事、世界のスタートアップシーンの話題、B…

本稿はKDDIが運営するサイト「MUGENLABO Magazine」掲載された記事からの転載

課題とチャンスのコーナーでは、毎回、コラボレーションした企業とスタートアップのケーススタディをお届けします。初回はKDDIのau IKEBUKURO店で実現した、感染症拡大を防止するためのスタートアップ共創事例をご紹介します。

KDDIの共創事業「KDDI ∞ Labo」では現在、パートナー連合全社が提供する多種多様なアセットを通じてスタートアップの事業を支援する「MUGENLABO支援プログラム 2020(以下、支援プログラム)」と、パートナー連合各社が公開するプロジェクトテーマごとにスタートアップとの共同事業化を目指す事業共創プログラム「∞の翼」の二つを実施しています。今回ご紹介するのは支援プログラムを通じたケースです。

ショップが抱えた「感染症拡大」問題

「ことの発端はやはりコロナ禍です。お客様と店頭で働いてくださっているプランナーの安全、安心の確保が喫緊の課題と認識していました。我々として考えられ得る様々な支援、例えばカウンターへのパーテーションやフェイスシールド、手袋の配備等は実施していたのですが、安全、安心をもっとお客様向けにお伝えすることはできないか、そういう課題感はありました」(KDDI 直営店営業部 戦略グループリーダーの堀靖和さん)。

こう語るのはau IKEBUKUROやGINZA456など、全国で展開しているKDDIの直営店を管理運営するチームの堀さんです。感染症拡大は様々な場所で大きな問題を突きつけることになりました。特に堀さんたちが手掛ける店舗運営の現場は、不特定多数のお客さんと向き合う必要があり、課題解決は待ったなしの状態です。

この問題にいくつかのスタートアップがソリューションをそれぞれ企画して提供した、というのが今回の事例でした。au IKEBUKUROの店舗に設置されたのは以下の通りです。

  • AWL:同社は店舗に対し混雑度や展示商品の接触検知が可能なプロダクトを展開している。混雑度測定では店舗入り口にエッジAIカメラを設置し、人通りに応じて店舗の混み具合を測定することが可能。目視せずとも遠隔から混み具合を知ることができる。加えて、展示商品の端末接触検知機能も提供し、除菌清掃が必要な端末を適時教えてくれる
  • Idein:同社は店舗入り口に画像認識技術を活用した体温測定器を設置し、入店時の検温を自動で実施する。検知した体温やその他個人情報はクラウドなどに保存されず、カメラに付属するソフトウェア内で暗号化され必要に応じて活用される仕組み
  • GREEN UTILITY:同社は紫外線をベースとした除菌ケースをカラオケ店などに提供。スマートフォンやマイクの除菌を約1分間で実施できる(au IKEBUKURO・JOYSOUND池袋西口公園前店にも設置)
  • ファームロイド:同社はウイルス対策を目的としたUV照射ロボット「UVバスター」を病院や大学機関に向けて提供。利用施設は空間内の除菌清掃の自動化を図ることができる。特にウイルスが残り続けると言われる「床」の除菌清掃にも対応している
  • プレースホルダ:同社は最新のデジタル技術を駆使し、カーディーラーなどのキッズスペースを必要とする施設へ知育体験ツールを提供。紙に書いたぬりえが3D化しゲーム画面に登場する設計などを特徴とする。導入企業はキッズスペースの除菌消毒を限りなく最小限に抑えることが可能

通常、こういった店舗で発生するような問題は、各店舗や本部機能を持つ堀さんたちのチームで解決するそうなのですが、問題が大きすぎたこともあり思案している状況だったそうです。ここで声をかけたのが他社とのコラボレーションを手掛けるビジネスインキュベーション推進部でした。彼らもまた、スタートアップとの協業支援において直営店舗を活用できないかと模索しており、両者の思惑が一致することになります。

「結果、ビジネスインキュベーション推進部と連携して「自動検温システム」や「スマホ除菌ケース」など、社会的に関心の高い話題であるコロナ対策アイテムを直営店へ設置し、KDDIとしても旗艦店舗にてスタートアップのソリューション露出、およびこの時期のコロナ対策をしっかりとアピールできたと考えています」(KDDI 直営店営業部 堀さん)。

KDDIとして共創事例をメディア向けにプレスリリースしたことから、その日の内にNHKを含め、主要な経済紙などに取り上げられるなどの結果を残したそうです。また、スマホ除菌ケースについては展示しているGINZA456店で、来店客から購入したいという話が持ち上がるなど、今後の具体的な事業展開への糸口のようなものも見えたというお話でした。

スタートアップとの共創で重要なのが具体的な課題とゴールの設定です。

堀さんのお話によれば、今回の共創ソリューションは話が持ち上がってからどれも1、2カ月以内で素早くプロトタイプが完成し、実店舗での実証実験が開始されたということでした。このスピード感を出すためには、やはり協業する各社が明確な課題に向かい、具体的なアウトプットをイメージとして共有する必要があります。

では、ここからはスタートアップ側の視点で共創の裏側をお伝えしてみたいと思います。

伝えにくい技術を「可視化」するメリット

「私たちは現実世界のあらゆる情報を取得するというのをミッションに掲げているのですが、現場の課題の可視化というのは様々な企業にとってニーズがあります。例えば小売店やオフィスビル、領域についてもスマートシティや広告、製造業など多岐に渡っていて、こういった課題をアンテナ高くお持ちの方々にしっかりリーチして導入検討いただけることはやはり高い価値がありますね」(Idein代表取締役の中村晃一さん)。

支援プログラムに参加したメリットをこう話すのは、エッジコンピューティングを活用したAI/IoTプラットフォーム「Actcast」を展開するIdein代表取締役の中村晃一さんです。同社は出資しているグローバル・ブレインからの紹介で、今回の企画に参加しました。

彼らが提供したのは画像認識技術を活用した体温測定器です。コロナ禍にあって、店舗入り口での検温は密集を避けるために必要不可欠な作業になりました。一方で、対応する店舗側には導入のコストや運用、そしてプライバシーへの配慮といったハードルが存在しています。また、この状況で一気に需要が高まりましたが、そもそも人を見分けて体温を検知する技術はそれなりに高度な計算処理が必要になるそうです。

そこでIdeinでは展開するプラットフォーム「Actcast」を活用し、安価なエッジデバイスを用いてAI解析が可能な体温測定器を、伊藤忠テクノソリューションズ(CTC)と共同開発していました。彼らのプラットフォームを使うことで仕組み自体を遠隔で操作できることから、多数の店舗への導入についても管理の面でメリットがあります。またプライバシーの問題についても、エッジ側で画像を破棄することで個人情報の漏洩リスクを減らすことが可能です。

画像クレジット:MUGENLABO Magazine編集部

中村さんは今回の共創プログラムに参加した反響のひとつとして「技術の可視化」を挙げられていました。

「IoTプラットフォームの使い方って分かりにくいものなんです。それを具体的な事例としてこういう使い方があるんだよと示してくれるのは非常に重要で、じゃあこういうことができるのだったらこれもできますかというケースを発信していくことが大切なんですね。AI関連の事業はやはりPoC(開発コンセプト)状態のものが多く、情報発信がしたくてもできない場合があります。そこを次のフェーズに進めて情報発信する機会を提供してもらうことで、会社に対する理解度、信用を上げることに役立ちます。また、実際の店舗に置いたことで得られる経験値も相当にありましたね」(Idein 中村さん)。

スタートアップとの協業に限らず、この形になるかならないか、こういったタイミングのソリューションをどうやって、ライトパーソンにマッチングさせるか。この鍵はやはり中村さんの体験談の通り、課題感を高いレベルで持ったコミュニティと、その人たちに分かりやすくショーケース化した状態で伝える仕組みが必要になるのではないでしょうか。

次回も引き続きau IKEBUKUROの支援プログラムに参加したスタートアップの話題をお届けします。ハードウェアを短期間でショーケース化したGREEN UTILITYの企画の裏側と、北海道を拠点に展開するAWLの共創ストーリーです。お楽しみに。(次回につづく)

エッジコンピューティング構築のIdein、20億円調達——アイシン精機、KDDI、双日などから

SHARE:

エッジコンピューティング事業「Actcast」を展開する Idein は28日、直近のラウンドで20億円を調達したと発表した。このラウンドに参加したのは、アイシン精機(東証:7259)、KDDI(東証:9433)、双日(東証:2768)、DG Daiwa Ventures、DG ベンチャーズ、伊藤忠テクノソリューションズ(東証:4739)、いわぎん事業創造キャピタル。 今回のラウンドは、Idein…

エッジコンピューティング事業「Actcast」を展開する Idein は28日、直近のラウンドで20億円を調達したと発表した。このラウンドに参加したのは、アイシン精機(東証:7259)、KDDI(東証:9433)、双日(東証:2768)、DG Daiwa Ventures、DG ベンチャーズ、伊藤忠テクノソリューションズ(東証:4739)、いわぎん事業創造キャピタル。

今回のラウンドは、Idein にとっては、2017年7月の1.8億円調達、2019年8月の8.2億円の調達に続くもので、累積調達額は発表されているもののみでも30億円に達した。DG Daiwa Ventures は、今回を含む3回のラウンド全てに参加している。

Idein では、エッジデバイス上で画像解析 AI などを実行して実世界の情報を取得し、Web と連携するIoTシステムを構築・運用する為のプラットフォームサービス Actcast を開発。Actcast を活用したソリューションの開発やビジネスの支援を目的とする無償パートナープログラム「Actcast Partners」には、約70社が参画している。

Idein によれば、今回出資した投資家の多くは、事業会社やその関連会社であり、Actcast の事業活用について取り組む重要なパートナーだという。

Actcastでは、安価なエッジデバイス上で深層学習モデルによる情報解析を高速動作させる技術を利用することができ、また従来手法よりも価格面で競争力があるとしている。対象となる分野にはセキュリティ、産業IoT、リテールマーケティングなどが挙げられている。

via PR TIMES

言語を超えるSNS【M2M-100】:100言語対応の機械翻訳、最後のチェックは「人」(4/4)

SHARE:

(前からのつづき)Facebookではネイティブスピーカーのグループが英語以外の20組の言語間での翻訳結果についてクオリティのチェックを行なっている。彼らはM2M-100による翻訳の忠実度を「比較的高い」と評価したが、テキストが意味をなさないようなスラングに対しては直訳する傾向が見られたとしている。また、このモデルはたとえば文章中のコンマ抜けといった文法的な問題によって解釈を誤りがちだということを…

前からのつづき)Facebookではネイティブスピーカーのグループが英語以外の20組の言語間での翻訳結果についてクオリティのチェックを行なっている。彼らはM2M-100による翻訳の忠実度を「比較的高い」と評価したが、テキストが意味をなさないようなスラングに対しては直訳する傾向が見られたとしている。また、このモデルはたとえば文章中のコンマ抜けといった文法的な問題によって解釈を誤りがちだということを発見した。Facebookの研究者はM2M-100に関する論文でこう述べている。

「多くの言語に対して、合理的な翻訳結果が確実に得られるようにするためにはかなりの改善が必要です。たとえばコサ語、ズールー語などのアフリカの言語、カタロニア語、ブルターニュ語などのヨーロッパ言語、イロカノ語、セブアノ語などのアジア言語が挙げられます。これらの多くは、インターネットで得られる単一言語のリソースすら限られており、そのことがトレーニングデータの質と量に大いに影響を与えています」。

確かに、言語モデルはデータセットのバイアスを強化して学習してしまい、暗黙的にバイアスのかかった表現で害を与え続けるという証拠は十分に存在する。MIT、Intelおよびカナダのイニシアチブ「CIFAR」のAI研究者はBERT、XLNet、OpenAIのGPT-2、RoBERTaに高レベルのバイアスを発見している。

Allen Institute for AIの研究者は、現時点の機械学習は有害なアウトプットを十分に防ぐことのできる技量をもっていないと主張し、トレーニングセットおよびモデルアーキテクチャの改善の必要性を強調した。この他にも、GoogleはGoogle Translateの土台となっている翻訳モデルが特にトルコ語、フィンランド語、ペルシャ語、ハンガリー語などのリソースが不足している言語に関してジェンダーバイアスをもつという証拠を発見(そして対処する必要性を主張)した。

M2M-100では潜在的なバイアスを軽減するためにどのようなステップを講じているかという質問に対しFacebook AI研究者のAngela Fan氏はVentureBeatへ次のような回答を寄せている。

「今の研究段階では、モデルの正しい部分と正しくない部分を見極めるテストを行いたいと考えています。具体的には有害な翻訳を防ぐために、不適切な文言のフィルターを使用した研究を行いましたが、正確性が高いという結果は(まだ)得られませんでした・・・。私たちはまだ研究段階にいて、システムをもっと公正なものにしようとしているところです。これがFacebookで未だ稼働させていない理由のひとつです」。

チームは翻訳からジェンダー的な単語を取り除く明確なメカニズムを取り入れていないが、M2M-100が犯したミスの種類を理解するための研究を始めているとFan氏は付け加えた。

「BLEUのスコアだけを見るのではなく、私たちがどれほどうまく翻訳できているかをネイティブスピーカーから教えてもらうことも大切です。全体的にみれば、私たちのモデルは大部分の言語において非常にスコアが高いのですが、ウォロフ語、マラーティー語のような低リソースの言語には改善の余地があります」。

【via VentureBeat】 @VentureBeat

【原文】

言語を超えるSNS【M2M-100】:100言語翻訳で少ない言語データを補足する方法(3/4)

SHARE:

(前回からのつづき)Facebookは、逆翻訳を使用してリソースの少ない言語のデータを補足した。これは、ある言語で翻訳モデルをトレーニングしそれを使用して特定の言語に翻訳、その翻訳データから逆翻訳を行い新たなデータを生成する方法だ。 たとえば、目標が中国語からフランス語の翻訳モデルをトレーニングすることであった場合、Facebookの研究者はフランス語から中国語への翻訳モデルをトレーニングし、フラ…

(前回からのつづき)Facebookは、逆翻訳を使用してリソースの少ない言語のデータを補足した。これは、ある言語で翻訳モデルをトレーニングしそれを使用して特定の言語に翻訳、その翻訳データから逆翻訳を行い新たなデータを生成する方法だ。

たとえば、目標が中国語からフランス語の翻訳モデルをトレーニングすることであった場合、Facebookの研究者はフランス語から中国語への翻訳モデルをトレーニングし、フランス語のすべての翻訳データを使用して中国語の逆翻訳データを生成する。 M2M-100の開発過程ではマイニングされた言語データに、このようにして作られたデータを追加しこれまでに見られなかった言語ペアのデータを作成した。

Facebookの研究者によるとM2M-100はモデルの並列処理を活用し、現在の2言語間の翻訳モデルよりも2桁大きいモデルサイズのトレーニングを行なう。大規模なモデルをトレーニングするためのPyTorch向けライブラリFairscaleを使用して、トレーニング中モデルは数百のグラフィックカードに分割されるが基礎となるデータは同じであるため、それぞれのカードはデータの一部ではなくモデルの一部をトレーニングする。

M2M-100がパフォーマンスを低下させることなく拡張できるよう、Facebookの研究者は、モデルのパラメータ(この場合、予測に影響を与える変数のこと)を重複しない言語グループに分割した。この戦略の組み合わせによりモデルの容量は100倍に増加し、Facebookが高精度であると自負する言語翻訳を提供できるようになった。

Facebookは154億のパラメーターによって、追加のモデル容量でトレーニングをした最もデータの多い高リソース言語ペアでの改善がM2M-100で見られたと述べている。 「モデル容量の高密度スケーリングと言語固有のパラメーター(計30億個)を組み合わせることで、大規模モデルの利点と、さまざまな言語に特化したレイヤーを学習する機能を提供します」とFan氏は書いている。(次につづく)

【via VentureBeat】 @VentureBeat

【原文】

言語を超えるSNS【M2M-100】:100言語の翻訳を実現するブリッジマイニング戦略(2/4)

SHARE:

(前回からのつづき)M2M-100はFacebookの多言語モデルであるXLM-Rに基づいて構築されており、1つの言語データから学習し、100の言語でタスクを実行する。 7月、Facebookは51の異なる言語をサポートする音声認識モデルをリリースした。さらに最近では、言語間で文をマイニングするための多数の言語によるラベルなしデータと優れたモデルをトレーニングするCRISSの詳細を明らかにした。F…

(前回からのつづき)M2M-100はFacebookの多言語モデルであるXLM-Rに基づいて構築されており、1つの言語データから学習し、100の言語でタスクを実行する。 7月、Facebookは51の異なる言語をサポートする音声認識モデルをリリースした。さらに最近では、言語間で文をマイニングするための多数の言語によるラベルなしデータと優れたモデルをトレーニングするCRISSの詳細を明らかにした。Facebook AI Research ParisのデータサイエンティストであるAngelaFan氏はブログの投稿で次のように書いている。

「何年もの間AI研究者は、さまざまな異なるタスクをすべての言語で理解できる単一で普遍的なモデルの構築に取り組んできました。すべての言語、方言、モダリティをサポートする単一モデルは、より多くの人々により良いサービスを提供し、翻訳を最新の状態に保ち、何十億人もの人々に対して平等で新しい体験を生み出す手助けとなります」。

M2M-100では、Facebookの研究者はさまざまなソースの表面上高品質なデータでマイニングを行うために新しい言語識別技術を用いた。1つは、自然言語処理モデルのゼロショット転送を実行するオープンソースツールキットであるLanguage-Agnostic Sentence Representations(LASER)だ。ほかにも、翻訳モデルをトレーニングするための”10億スケール”のbitextデータセットCCMatrixと、クロスリンガルなウェブドキュメントペアの大規模テストコレクションであるCCAlignedの2つがある。

Facebookの研究者は、翻訳の需要が統計的にまれなペア(アイスランド語ーネパール語やシンハラ語ージャワ語など)は除いて、分類、地理、文化の類似性に基づき言語を14のファミリーにグループ化する「ブリッジマイニング戦略」を導入した。同じグループに属する言語を使う国に住む人々は、より頻繁にコミュニケーションを取り、高クオリティな翻訳の恩恵がより受けやすいだろうという直感があったからだ。たとえば、あるファミリグループには、ベンガル語、ヒンディー語、マラーティー語、ネパール語、タミル語、ウルドゥー語など、インドで話されているさまざまな言語が含まれる。

Facebookの研究者は、それぞれのファミリーグループの言語をつなぐために、少数の「ブリッジ言語」、つまり各ファミリーグループごとに1〜3つの主要な言語を選定した。たとえば、ヒンディー語、ベンガル語、タミル語は、データセット内のインド・アーリア語のブリッジ言語になっている。次に、これらのブリッジ言語のすべての組み合わせ可能なトレーニングデータをマイニングし、前述の75億個の文のデータを取得した。(次につづく)

【via VentureBeat】 @VentureBeat

【原文】

人とAIで高品質な「人間参加型の機械翻訳」を目指すUnbabel

ピックアップ:Unbabel gets $60M for its blended approach to business translation ニュースサマリー:翻訳サービスを提供するUnbabelは9月25日、シリーズCにて6,000万ドルの資金調達を実施したと発表した。リード投資家にはPoint72 Ventureが参加し、e.ventures、Greycroft、and Indico C…

ピックアップ:Unbabel gets $60M for its blended approach to business translation

ニュースサマリー:翻訳サービスを提供するUnbabelは9月25日、シリーズCにて6,000万ドルの資金調達を実施したと発表した。リード投資家にはPoint72 Ventureが参加し、e.ventures、Greycroft、and Indico Capital Partnersも同ラウンドに参加している。同ラウンドまでの総資金調達額は9,100万ドルに到達している。同社は調達した資金を用いて、米国・欧州・アジアでの成長を加速させAIの向上に活用すると述べている。

重要なポイント:同社は、スピードと低コスト、かつ機械翻訳の強みを生かした翻訳サービスを提供。世界中の10万人以上の翻訳者コミュニティーをベースにした人間の専門知識を組み合わせ、「人間参加型の機械翻訳」というアプローチを実現している点で競合優位性を実現している。

詳細情報:リード投資家でもあるPoint72 Venturesは、「ボタンをクリックするだけでエンタープライズ領域の翻訳を提供するUnbabelのビジョンにインスパイアされ、人間参加型の翻訳技術に感銘を受けた」とコメントする。人間参加型の機械翻訳(機械学習)では、人間がアルゴリズム構築の学習段階で機機械学習のプロセスに関わり、能動的にフィードバッする。これら強みを活かして、同社は主に旅行・ハイテク・ゲーム・eコマースなど150社以上のエンタープライズ顧客にプラットフォームを提供を行っている。他の翻訳方法と比較して、最大76%のコスト削減と顧客満足度の向上が実現すると強調する。

  • このような人間と機械翻訳の組み合わせのソリューションはAlibaba(阿里馬場)pangeanicなどその他にも複数出てきている。中には、元々翻訳のエキスパートのネットワークをグローバルに持っていたLionbridgeが、Gengoのような高度な自然言語処理のAI開発プラットフォームを持つ会社を完全子会社化してシナジーを実現しようとする動きも生まれつつある。
  • 翻訳のローカライズという観点では、上記のように人間参加型でのアプローチに加えて、ローカル企業が対応言語をあえて絞ることで翻訳の精度を極限まで高めるというアプローチがある。
  • そのアプローチで、みらい翻訳は国立研究開発法人情報通信研究機構と共同研究で開発したニューラル機械翻訳の日本語・英語間においてTOEIC960点の日本人ビジネスマンと同等の翻訳精度を実現した例も国内に生まれている。

背景:SMT(統計機械翻訳)で停滞していた翻訳精度の向上が、深層学習ベースのNMT(ニューラル機械翻訳)の登場により急速に加速し一気にビジネスで活用できるレベルまでになってきたため、当記事のような機械翻訳のビジネスが成立するようになった。

執筆:國生啓佑/編集:岩切絹代

言語を超えるSNS【M2M-100】:Facebook、100言語対応の機械翻訳モデルを公開(1/4)

SHARE:

Facebookは英語を中間言語として介さず、100言語の任意ペアを翻訳することが可能なアルゴリズムM2M-100をオープンソース化した。同モデルは、2200の言語ペアで機械学習が施されており、英語中心の他システムと比べてはるかに優れる翻訳性能となっているとする。M2M-100は、今後世界7000以上の言語ペアの翻訳を目指して開発を進める。同モデルは、類似する言語間で情報を共有することができるため…

Facebookは英語を中間言語として介さず、100言語の任意ペアを翻訳することが可能なアルゴリズムM2M-100をオープンソース化した。同モデルは、2200の言語ペアで機械学習が施されており、英語中心の他システムと比べてはるかに優れる翻訳性能となっているとする。M2M-100は、今後世界7000以上の言語ペアの翻訳を目指して開発を進める。同モデルは、類似する言語間で情報を共有することができるため、比較的学習量が少ない言語でも翻訳することが可能となる。

今まで、モデルサイズが大きくなるとより大きなデータセットが必要となったため、英語を中心としたモデリングやデータセットに注目が集まってきていた。(例えば、100言語をサポートするためにはおおよそ1,000億個程度の文章ペアが必要となる)。しかし、そうしたデータとモデリングには実際にどういったシチュエーションで翻訳を利用しているかなどが欠けるためバイアスが生じ、結果として英語以外の翻訳パフォーマンスが悪化すると指摘されていた。

それに対してFacebookのM2M-100モデルでは、100の異なる言語を75億にも渡る文章ペアでが機械学習が実施された。同社リサーチャーは、モデリングの言語選定に際して大きく3つの基準を定めた。一つ目は、地理的多様性があり、かつ世界的に話されている言語である点。2つ目は、モデルパフォーマンスの定量化を考慮し、エヴァリュエーションデータが既に存在している点。最後は、モノリンガルデータが存在しない点。以上を考慮し、言語データの選定を実施した。(次につづく)

【via VentureBeat】 @VentureBeat

【原文】

AIが「未成年の顔」を検知、デートアプリ大手が顔認証バッジを採用

ピックアップ:The Meet Group Launches Profile Verification on MeetMe ニュースサマリ:米国マッチングアプリ大手のMeetGroupは9月、AIを活用し顔認証バッジを展開することを発表している。FaceTecの3Dセルフィーテクノロジー検証バッジにより、ボットの登録を阻止し、何百万ものユーザーの信頼性の保証に動き出した。このバッジは9月後半よりM…

Image credit: Business Wire

ピックアップ:The Meet Group Launches Profile Verification on MeetMe

ニュースサマリ:米国マッチングアプリ大手のMeetGroupは9月、AIを活用し顔認証バッジを展開することを発表している。FaceTecの3Dセルフィーテクノロジー検証バッジにより、ボットの登録を阻止し、何百万ものユーザーの信頼性の保証に動き出した。このバッジは9月後半よりMeetMeで公開され、今後数カ月以内にSkoutとTaggedで公開される。

  • 認証バッジは物理的にカメラの前に存在したことを確認した後に有効化され、メンバーのプロフィールに表示される。バッジの採用が増えると、チャットで写真を送る等の制限が解除される仕組み。
  • FaceTecは3D年齢推定を提供しているので、未成年のアカウントにフラグをつけ、未成年の利用を遠ざけることにも繋がる。
  • MeetGroupはより安全なデートへの取り組みの一環として他にも、テキストパターンと年齢検出エンジンを利用し未成年が関与しないようにマイクロソフトと協力をしたり、悪意ある人物のデバイスをブロックするDeviceCheck実装を施策として行っているほか、機械学習アルゴリズム等を利用して、不正な動画・写真・テキストを検出する取り組みを一層強化している。

背景:Meet Groupは、MeetMe、Skout、Tagged、LOVOO、GROWLrを含む5つのアプリにまたがる出会い系コミュニティを運営している。毎日数百万人に対してデートサービスを提供し、1日あたり7,000万件のチャットが送信されている。

執筆:國本知里/編集:岩切絹代・増渕大志