https://s4.itho.me/sites/default/files/styles/picture_size_large/public/field/image/jie_tu_2020-05-28_xia_wu_4.15.50.jpg?itok=QH4L84pJ

Google運用聯合分析技術,可保護用戶隱私又能改善服務品質

聯合分析技術讓使用者資料都只留在手機上,僅上傳匯總資料,且透過安全聚合協定,讓用戶喜好不會曝光

by

Google擴展聯合學習(Federated Learning)技術的想法,發展出聯合分析(Federated Analytics)技術,能夠在用於改善Google自家鍵盤Gboard,以及音樂辨識應用的準確度。Google表示,這項技術最大的優點,就是讓使用者的資料留在本機上,但是工程師又能獲取匯總分析資料改善服務。

聯合學習是2017年才出現的新興機器學習技術,能夠跨多個裝置訓練模型,以非集中的方式收集資料,因此能保證使用者的資料不會被共用,Google目前運用這項技術,改善Android Gboard的下一個單詞建議,以及Android Messages的智慧回覆品質。

隨著這些應用的成熟,聯合技術被重新思考用來處理更基本的問題,像是計數或是比率等運算,Google提到,這些問題跟機器學習沒有關係,但是可以用來分析用戶行為,以改進產品體驗。Google發展出了一個稱為聯合分析的技術,可以對儲存在使用者裝置中的資料,應用資料科學方法,與聯合學習一樣,其概念都是在各裝置上,進行本地端運算,僅回傳匯總資料給產品工程師,不會提供來自裝置上的資料。

聯合分析的發展,一開始是為了用來支援聯合學習,因為聯合學習訓練出來的模型,工程師難以取得用戶實際資料進行實測評估,因此Google決定讓評估模型品質這個工作,也在用戶的手機上進行。

Google舉例,當Gboard工程師想要評估單詞預測模型的品質,參與實驗的手機下載了候選模型,並在本地端計算該模型的預測和實際輸入單詞間的差異,並上傳比對結果,這過程不會修正模型權重,也不改變Gboard輸入體驗,只是單純收集資料,透過多個使用者手機上傳的指標,工程師就能了解模型的效能。

除了模型評估之外,聯合分析還被用在支援Google Pixel手機上的正在播放(Now Playing)功能,正在播放工具可顯示環境正在播放的音樂,音樂辨識的工作不需要連接網路,僅利用手機上的曲目指紋資料庫進行辨識,不過,因為曲目指紋資料庫僅會存放熱門音樂,並且該功能只可辨識資料庫中的歌曲,而相同地區使用者接受到的資料庫都一樣,因此在資料庫中存放對的歌曲便非常重要。

為了評估每個區域資料庫的品質,工程師要能夠回答一些基本的統計資料,像是哪一種歌曲最常被辨識,這個時候聯合分析技術就能派上用場。當正在播放功能辨識出歌曲時,便將曲目名稱記錄在歷史紀錄中,用戶可以查看最近辨識的歌曲,在手機進入閒置並連接上無線網路時,Google聯合學習和分析伺服器,便會發出邀請,將數百臺手機一起加入一輪聯合分析計算。

這一輪分析中,每臺手機都會計算其歷史紀錄中的歌曲辨識率,並使用安全聚合協定加密其結果(下圖),將結果發送到聯合分析伺服器,該伺服器沒有單獨解開加密結果的金鑰,只有當加總同輪中的所有手機加密計數,伺服器才能解密結果。這讓Google工程師可以改進曲目指紋資料庫,但是個別使用者的喜好又不會被暴露,Google提到,他們利用這個技術,提升所有Pixel手機總體歌曲辨識率5%。

https://s4.itho.me/sites/default/files/images/image1(20).png

這項技術可以被應用在許多功能上,像是Gboard工程師能探索用戶常輸入的新單詞,並且添加到拼寫檢查和輸入辭典中,另外,Google也運用這項技術,找出模型難以辨識的資料類型。Google提到,聯合分析方法還在發展初期,需要提高準確度以回答更多資料科學問題。