
大学入試を中心とした情報分野の学力評価手法の検討シンポジウム2025
グループ2「多肢選択問題によるIRTに基づく評価手法の構築」
慶應義塾大学環境情報学部 植原 啓介教授

■多肢選択問題の作問方法を検討する
我々G2では、多肢選択問題等の自動採点可能な問題による評価手法を開発すること、それを通して現時点での最良の作問手順書を作成することを目標にしています。ここでは、多肢選択問題によって、実際に思考力・判断力・表現力を測ることは可能なのか、可能であればどのくらいの深さまで測れるのか。さらに分野によって測ることが難しいものはないか、といったところを明らかにすることをめざして研究を進めています。

我々は、下のスライドのような問題作成の方針を持っています。プロジェクトを始めるにあたって、情報に関する語句のリストがあるとした場合、この1から5の順番で難度が上がるのではないか、ということを話し合って決め、それを検証するという方針で作問を進めています。

■問題の難易度や解答時間は概ね想定どおりであったが…
ここからは、「EMIU情報模試2025春」におけるIRTを想定した多肢選択問題の結果についてお話しします。
最初にお断りしておきますが、この多肢選択問題は、次回以降の模擬試験でも使用する可能性があるため、一部を除いて具体的な問題をお見せすることができません。ご了承ください。
多肢選択問題は、30問出題しました。各問題の正答率が下図の左のグラフです。四択問題なので、当てずっぽうで選んでも25%は正答できるはずですが、正答率が25%を割る問題がけっこうありました。いわゆる「引っ掛け問題」を出題した覚えはないのですが、これはどうしたものか、という結果です。

解答時間は30分で、30問出題しているので、1問1分程度で解けることを想定しました。CBTですので、各問題の解答にかかった時間を計測していますが、それを見ると、ほぼ1分間以内で答えられています。長いものでも90秒程度、2分はかかっていない、ということで、問題の難易度や解答にかける時間としては、我々の想定範囲内にあったことを確認しています。
さらに、それぞれの問題についてIRT的な分析をしています。2PL(2パラメータ・ロジスティック)で分析すると、大体きれいなS字カーブを描いているので、概ね弁別性のある適切な問題であったと見られます。
一部、赤で囲った部分に対しては、やや難しい問題ということになり、これがどのような原因によって難しすぎたのか、というところは、今後明らかにしていきたいと思っています。

■「すなおに読み取れない問題」は引っ掛け問題になる?
多肢選択問題には、「Q32-1」「Q32-2」のように枝番がついた問題があります。これは、いわゆるA/Bテスト、つまりある意図を持って、同じような問題を2つランダムに出題しているものです。例えば、スライドに示したように、Q6、Q8、Q11は、同じような問題であっても、正答率にかなり差があります。

問題の概要だけお伝えすると、Q6は、繰り返しで入力された値の平均と合計を求める問題です。平均を求める方は、値の足し算をした後に、最後にループの外で割り算をしなければいけないことになりますが、実はこの部分が意外にできていないことが見て取れました。
Q8は、かなり大きな差が出ていますが、実は我々としては、この枝問の間に特別な違いを持たせたつもりはなく、なぜこのように大きな差が生じたのかというのは、今のところわかっていません。実際の問題をお見せすることができないので、申し訳ありませんが、この問題については、我々の中でもう少し検討してみます。
Q11に関しては、単語に対して説明文を選ぶ問題と、説明文に対して用語を選ぶ問題です。先ほど問題の作成指針で、難易度のステップについてお話ししましたが、これは我々の想定通りで、単語に対して説明文を選ぶ問題よりも、説明文に対して用語を選ぶ問題の方が、難易度が低いことが示されました。
もう1問、昨年のシンポジウムで議論された問題の検証です。「変数a,b,cの中で最も小さい値をdにセットする」という処理(記述)を示す選択肢を選ぶ、という問題ですが、これが昨年、なぜか正答率が非常に低かったのですね。
この理由について、昨年のこのシンポジウムで議論して、その時の仮説が、「正解の選択肢において、比較演算子として『大なり(>)』が使われている点が、『最も小さな値』という問題文との間に不整合を生じさせ、影響を及ぼした可能性もあるのではないか」ということでした。
2025春の問題では、選択肢の比較演算子の右と左を変えただけで意味は同じ、という問題を出題して、A/Bテストで検証しました。
実は先ほどのA/BテストのグラフのQ1がこの問題です。すると、やはりすなおに読める問題の方が、正答率が10ポイントほど高くなっていることが読み取れました。
つまり、このように「すなおに読み取れない問題」は、引っ掛け問題になってしまうのであまりよろしくない、という仮説が検証で明らかになった、ということを報告いたします。

こういった形で、いろいろな仮説を立てながら、検証を繰り返して、正答率が低かった問題は、その原因を探るとともに、他の分野の作問も継続して行っています。
現在実施中の「2025秋」(※本記事掲載時点で終了済)の模試にも、いくつかそういった問題を仕込んでいますので、また次回このような機会があればご報告したいと思っています。


