SUSI.AI - プライバシーを意識するパーソナルアシスタントとスマートスピーカー

2019年7月9日

アクセリアの研究

サービス資料や
ホワイトペーパーはこちら

パーソナルアシスタントの「hidden cost」

　スマートスピーカーとパーソナルアシスタントは私たちの日常生活の中で強い存在感を示しています。ほとんどすべての現代のスマートフォンはパーソナルボイスアシスタントを備えており、Google HomeやAmazonのAlexa/Echo用のスマートスピーカーは多くの家庭にあります。
　しかし、これらの商品を使うと「hidden cost」（隠れたコスト）があります（隠れたコスト：プライバシーの喪失のコストとこれまで以上に透明性の高い顧客側のコスト）。最近の報告によると、Alexaデバイスによって記録された多くの通信は、ユーザーの知らないうちにAmazonに転記されています。これらのスマートスピーカーは、起動のきっかけとなる単語（"Hey Google"または "Alexa"）を常に聞いている必要があるため、原則として、近くで行われているすべてのコミュニケーションを聞いています。

　最近でも「Googleアシスタントが収集した会話がGoogleの下請け従業員に聞かれている」と、ニュースで取り上げられることがありました。
　（引用元 - https://gigazine.net/news/20190711-employees-listen-google-assistant-eavesdropping/）

　FOSSASIAのソフトウェアおよびハードウェア開発者のチームは、代替案に取り組んでいます。それは、個人的な音声アシスタントとユーザーのプライバシーを尊重するスマートスピーカーです。このシステムはSUSI.AIと呼ばれます。プライバシーの問題に加えて、開発はウィキペディアの記事を書くのと同じくらい簡単であるべきで、また、ユーザーは彼ら自身のスキルでシステムの能力を拡張することができるでしょう。今回は、プロジェクトの現在の状況、機能の状況、そしてさらなる進行中の開発について報告したいと思います。

　SUSI.AIの開発は、Google Summer of Codeプロジェクト内の学生とともに、主にボランティアによって行われます。

プライバシーとSUSI.AI

　大手2社（AmazonとGoogleのスマートスピーカー）による恒久的なプライバシー侵害への不満から生まれたSUSI.AIの開発は、以下の原則によって行われています。

　・インターネットサービスを必要とせずにデバイス上で可能な限り行う
　・インターネットに接続せずに基本機能を利用可能
　・すべての登録と識別は完全にオプトイン
　・サーバーに保持し分析する情報は一切無い

　現時点で音声認識と音声合成をデバイス上で行うことはできますが、品質はまだオンラインサービスと比べられない状況です。従って、視覚的にはグーグル、マイクロソフト、またはＩＢＭがスピーチ - テキスト（ＳＴＴ）およびテキスト - スピーチ（ＴＴＳ）のために使用できます。FOSSASIAの開発者は現在、ログ記録や変換されたテキスト保存無しのSTT/TTSサービスを提供しようとしていますが、まだ作業中です。

ソフトウェアとハードウェアスタック

　ソフトウェアスタックは、システムの「頭脳」を形成するサーバー（Javaで書かれています）で構成されています。サーバーは、スキルを評価することによってクエリに応答します。サーバーの1つのインスタンスはapi.susi.aiから入手でき、このエンドポイントはモバイルクライアントで使用されます。

　モバイル（iOSおよびAndroid）用のクライアントが利用可能で、上記のAPIサーバーと連携しています。

　Debian/UbuntuをベースにしたLinuxデスクトップは、パーソナルアシスタントをインストールすることができます。

　スマートスピーカーは、オーディオ入出力用のReseedハットを備えたRaspberry（少なくともRaspi3）で構成されています。Raspbian上にSUSI.AIのために用意された「Susibian」と呼ばれるイメージはgithubからダウンロードできて、テスト利用が可能です。これらのイメージには、サウンド処理とともに、デバイス上のSUSIサーバーが含まれています。このデバイスは、出荷時設定へのリセット、設定用のアクセスポイントモード、ローカルオーディオの再生なども提供します。

　LinuxデスクトップとラズベリーのクライアントはPythonで書かれています。インストーラは最新のDebian/Ubuntuの変種すべてに対応し、Raspberryへのインストールはシェルで書かれています。

　すべてのソフトウェアはオープンソースであり、FOSSASIA Githubページのさまざまなリポジトリにあります。

機能の状態

　基本的な機能は、すでに全てのデバイスとシステムで動いています。欠けているのは、より良いスキル、そしてスキルグループを形成するためのスキルの組み合わせです。

　特にヘッドセットを使用している場合は、ホットワード検出とテキスト読み上げがうまく機能します。同時に音楽を再生すると、ホットワード検出機能が低下するため、感度を微調整する必要がある場合があります。Googleが提供するインターネットサービスを使用している場合には、TTSおよびSTTはうまく動いています。デバイス上のPocketphinxとfliteを使用している場合は、それほどではありませんが、うまく機能します。

　このプロジェクトを一般ユーザーをターゲットにできるレベルにまで引き上げるにはまだ長い道のりがありますが、このGoogle Summer of Codeの間にすでにかなり進んでおり、夏の終わりまでにSUSI.AIスマートアシスタントが成功するよう僕らは頑張っています。

■関連ページ
【アクセリアのサービス一覧】
　・サービスNAVI

Norbert Preining

アクセリア株式会社研究開発部社員
北陸先端科学技術大学院大学ソフトウェア検証研究センター研究員
ウィーン工科大学　研究員
デビアン開発者
TeX User Group (取締役会員)、Kurt Godel Society (取締役会員)
ACM, ACM SigLog, 日本数式処理学会、ドイツ数学論理学会