日本語の手話認識に関するAIの研究が国際論文誌に掲載

今回、本学现在哪个app能买足彩工学専攻の修士2年、近藤多聞君(指導:姜有宣教授)の論文がApplied Sciences誌(SCIE、IF=2.7)に掲載されました。

A Performance Comparison of Japanese Sign Language Recognition with ViT and CNN Using Angular Features
by Tamon Kondo, Sakura Narumi, Zixun He, Duk Shin and Yousun Kang
Appl. Sci. 2024, 14(8), 3228; https://doi.org/10.3390/app14083228 (registering DOI) - 11 Apr 2024

最新ディープラーニング(深層学習)技術であるVision Transformer(ViT)を用いて日本語の手話を認識する研究です。この論文は学生による「Co-G.E.I.チャレンジ」の研究補助金をもらって行い、論文に以下のようにFundingの内容が示されています。

Funding
This work was supported by Co-G.E.I. (Cooperative Good Educational Innovation) Challenge 2023 of Tokyo Polytechnic University.
------------------------------------------------------------------------------------------------
Title:A Performance Comparison of Japanese Sign Language Recognition with ViT and CNN Using Angular Features
Authors:Tamon Kondo, Sakura Narumi, Zixun He, Duk Shin and Yousun Kang
Abstract
近年、ディープラーニング(深層学習)技術の発展により、聴覚障害者とのコミュニケーションを促進することを目的とした研究が大きく進展している。その中でも、手話の自動認識?翻訳システムの強化に注目が集まっている。本研究では、日本手話を認識するための最新深層学習技術であるvision transformer(ViT)を用いた新しいアプローチを提案する。本手法は、ポーズ推定ライブラリMediaPipeを用い、ビデオフレーム内の各指関節の位置座標を抽出し、これらの座標から1次元の角度の特徴データを生成する。そして、これらの特徴データを時系列に並べ、ViTモデル用の2次元入力ベクトルを形成する。最適な構成を決定するために、本研究では、ViTモデル内のエンコーダ層の数を操作して認識精度を評価し、その有効性を評価するために従来の畳み込みニューラルネットワーク(CNN)モデルと比較した。実験の結果、ViTモデルを用いた手法では99.7%、CNNを用いた結果では99.3%の認識精度を示した。また、日本語手話動画を用いたリアルタイム認識実験により、本手法の有効性を実証した。

Website: https://www.mdpi.com/2076-3417/14/8/3228
PDF Version: https://www.mdpi.com/2076-3417/14/8/3228/pdf