オムロンサイニックエックス(OSX)は10日、ハワイのホノルルで19~23日まで開催される「International Conference on Computer Vision, ICCV 2025」、最新の研究成果を報告すると発表した。
「ICCV」は、コンピュータビジョン分野において国際的に権威のあるトップカンファレンスの一つ。2025年は1万1239件の投稿の中から、2701件(約24%)の論文が採択されている。
OSXが発表する研究論文は、その卓越した研究内容と潜在的な影響力が評価され、ハイライト論文として選出された。
研究論文タイトルは、「CaptionSmiths: Flexibly Controlling Language Pattern in Image Captioning(キャプションスミス:画像説明文のスタイルを柔軟にコントロールする手法の提案)」。概要は次の通り。
キャプションスミスは、画像の説明文(キャプション)における言語のスタイルを柔軟に操るための手法を提案している。これまでの、画像説明生成を行うVision-Languageモデルは、「短い説明」「長くて詳しい説明」などを思い通りに切り替えるのが苦手だった。
今回の論文で提案するキャプションスミスは、説明文の▽長さ(短い↔長い)▽詳しさ(シンプル↔詳細)▽語彙の独自性(一般的↔ユニーク)――といった特徴を数値で表し、その間をなめらかに調整できる。つまり「ほんの少し長めに」「ややユニークに」といった細かいコントロールができる。実験では、キャプションスミスにより文章の正確さを高めるだけでなく、説明文の長さを調整する精度が従来の最先端モデルに比べ、5倍以上改善した。
「医療機器・化粧品」の記事に関するご意見・お問合せは下記へ。
担当者:河辺
E-mail:kawabe_s@yakuji.co.jp
TEL:03-3866-8499