Japanese
English
報告
生成人工知能を用いた理学療法士国家試験解説の妥当性と信頼性の検証—ChatGPT-4oとGemini Advanced 2.0の比較を通して
Validity and reliability of generative ai in explaining national physical therapy licensure examination: a comparative evaluation of ChatGPT-4o and Gemini Advanced 2.0
禹 炫在
1
,
福井 直樹
1
,
松井 有史
1
,
石橋 誠隆
1
,
吉田 一平
2
Hyunjae WOO
1
,
Naoki FUKUI
1
,
Yuji MATSUI
1
,
Masataka ISHIBASHI
1
,
Ippei YOSHIDA
2
1和歌山リハビリテーション専門職大学健康科学部理学療法学専攻
2和歌山リハビリテーション専門職大学健康科学部作業療法学専攻
キーワード:
生成人工知能
,
理学療法士国家試験
,
妥当性
,
信頼性
Keyword:
生成人工知能
,
理学療法士国家試験
,
妥当性
,
信頼性
pp.475-482
発行日 2026年4月15日
Published Date 2026/4/15
DOI https://doi.org/10.11477/mf.091505520600040475
- 有料閲覧
- Abstract 文献概要
- 1ページ目 Look Inside
- 参考文献 Reference
要旨
【目的】本研究は,生成人工知能(artificial intelligence:AI)(以下,AI)による理学療法士国家試験の解説に対する妥当性および信頼性を専門家評価により検証することを目的とした.【方法】第59回国家試験の23問を対象に,Chat Generative Pre-trained Transformer(ChatGPT)-4o(以下,GPT)およびGemini Advanced 2.0 Pro Experimental(以下,Gemini)の2種のAIにより解説を作成し,理学療法教育歴15年の3名が,適切性・正確性・明瞭性・完全性について4段階で評価した.妥当性は4点と評価された割合により,信頼性は完全一致率・1点差不一致数およびフリードマン検定により検討した.【結果】両AIとも一定の妥当性が認められたが,Geminiは7分野で有意に高評価を得たうえに,すべての評価項目で一致率も高く,出力時間も短かった.一方,完全性は両AIともに他項目より低評価であった.【結論】Geminiは妥当性・信頼性・実用性においてGPTを上回り,学習支援ツールとして有望と考えられたが,完全性の限界から教員による補足が望まれる.

Copyright © 2026, Igaku-Shoin Ltd. All rights reserved.

