masterhead masterhead  masterhead

高速動画像を用いた日本語子音の機械読唇

概要

人間の音声には音響的側面と視覚的側面がある.ふつう「音声認識」と言った場合,音響情報を利用した音声認識を指すことが多い.これは,情報量としては音響的側面の方が圧倒的に多く,音響音声認識が自然に音声認識の主役になるからである.しかし,視覚情報を用いた音声認識は,非常に雑音の多い環境で音響情報にノイズがのる場合でも全く認識率に影響を受けず,音声認識システムの信頼性と頑健性に大きく寄与する.その他,構音に障害を持つユーザへの音声認識システムや,唇ジェスチャを用いたインターフェースなど,視覚音声認識ならではの独自のアプリケーションも数多く提案されている.

このような視覚情報を用いた音声認識は,Visual Speech Recognition (VSR)や機械読唇と呼ばれている.VSR の認識率はASR の認識率に大きく劣っているのが現状であり,現在も多くの挑戦的な研究が行われている.

本研究では,対象を日本語の音素レベルでの認識とし,中でもいまだ課題の残る子音をターゲットとしている.音素レベルでの機械読唇の精度をさらに向上させるためには,静止画像情報では不十分で動画像を情報を扱わなければならない.本研究では,特にフレームレートの高い動画像を利用することで,機械読唇の音素認識に新しい展開を図っている.また,機械読唇には決定的な特徴量が存在しないため,複数の種類の特徴量を効率的に組み合わせて,識別を行うことが有効であると考えられる.そこで,認識手法として,ブースティングを利用した識別を実証した.


参考文献

  1. 三浦洋平, 小室孝, 渡辺義浩, 石川正俊: 高速動画像を用いた視覚音素織別手法の提案, ヒューマンインタフェースシンポジウム2011論文集 (仙台, 2011.9.14), pp.283-286, 2011.
  2. 三浦洋平, 渡辺義浩, 小室孝, 石川正俊: 口唇形状の時間変化に基づく日本語子音認識, 映像情報メディア学会 情報センシング研究会(金沢,2010.6.22)/映像情報メディア学会技術報告 Vol.34, No.22, pp.21-24 (IST2010-34,ME2010-106).
 
東京大学 情報理工学系研究科 システム情報学専攻 ・創造情報学専攻 / 工学部 計数工学科 石川妹尾研究室
Ishikawa Senoo Laboratory WWW admin: www-admin@k2.t.u-tokyo.ac.jp
Copyright © 2008 Ishikawa Senoo Laboratory. All rights reserved.
logo