遠隔会議の音声通話では、アコースティックエコーキャンセラー(AEC)、雑音除去(NR)、音声区間検出(VAD)等、様々な音声信号処理が用いられています。
昨今では、深層学習(ディープラーニング)をこれらの音声信号処理に適用し、さらなる性能向上に向けた取り組みも数多く行われています。
本実習では、遠隔会議で用いられる音声信号処理の一部を、深層学習を用いて開発していただきます。
会議システムで求められる開発要件をもとに機能実装していく過程の一部を体験していただきます。
<実習の一例>
- Pythonによる開発環境の構築(もしくはGoogle Colabの利用)
- オープンソースデータセットのライセンスについて学ぶ
- 深層学習のための音声処理アプローチについて学び、既存手法について学ぶ
- 会議システムの開発要件をもとにDNNモデル作成方針を立て、モデルの評価方法を決定する
- 前処理、ネットワーク作成、学習ループの実装とモデル学習
- 性能評価
- モデルの改善と性能評価
- まとめ