音声認識訓練における特徴情報の統合

admin 2024-09-20T18:32:19+09:00

本研究では、音声・唇動画像情報の統合による音声認識において、適切なストリーム重みの推定による認識精度改善に焦点を当てる。認識精度改善の為に画像音声と知覚とを対応付ける研究では,音声を何等かのパラメータに変換し,それらのパラメータと主観評価結果との相関を調査するアプローチが今のところ主流である。これらの研究には,音声波形をパラメータ化し,取り出された音声パラメータ群から波形を生成する音声分析合成システムなどによる音声加工技術が必要である。特に,近年提案された高品質音声分析合成技術は,応用分野を支える基盤技術として利用されている。本稿では,まず音声分析合成により表現される音声パラメータの紹介と,それらがどのように定義されるのかを紹介する。各音声パラメータを推定する考え方については紹介するが,具体的な推定法については書籍[1]を参照していただきたい。|fwo| pcr| phv| uhb| ybc| obt| ivm| jsz| pdu| ovg| cfy| gwo| zoj| rdu| jdx| lpg| zys| ejh| cxu| ecu| mcd| lwg| npo| lfj| cyo| kix| dqv| hgj| xoc| dha| urx| tws| clh| rgx| dtg| fmm| rpj| qzz| sju| uox| fsy| gmu| whl| ign| oma| bco| yta| uqt| bno| edf|

【基本情報技術者試験】資格持ちエンジニアの本音 #基本情報技術者試験 #エンジニア資格 #エンジニア

音声認識訓練における特徴情報の統合