参考書ウォーズ

参考書の使い方、選び方、気になる点をご紹介!

英語長文の難易度を数値で表せる?「リーダビリティ」を活用できるか検証

英語長文を勉強するために、長文の参考書を買う人は多いと思います。

しかし、一口に長文の参考書といっても、レベルが色々あって選べない、という人が多いのではないでしょうか。

 

参考書の表紙などには、例えば「中堅大レベル」とか、「上位国公立レベル」とか書いていますが、結局それがどれぐらいなの?って思いますよね。

 

しかも、出版社が違うと、レベルの表現方法も違ったりして、なかなか判断が難しいと思います。

 

そこでこのサイトでは、様々な長文参考書や問題集を紹介していく上で、その本で扱われている長文の難易度を数値で表して(定量評価)分かりやすく比較することで、参考書選びの参考にしてもらえたらと考えました。

 

今回の記事では、まずその数値をどのように出すことができるかを検証し、説明していきます。

 

長文難易度を数値化するには

英語の長文の難易度が何で決まるかというのは、読む人の背景知識や文章のジャンルによっても違いますが、それらを数値化するのは困難ですよね。

 

確実に数値で表せるものでなければなりませんので、以下のような情報を活用することになると思います。

・1文あたりの単語数

・1単語あたりの文字数

・1単語あたりの音節数

・使われている単語の難易度

 

そして、調べていくと、既にこのようなデータから英文の難易度を数値化するための式が色々あることが分かりました。まずはこれを活用することから開始します。

まずは既にある指標の活用

ネット上で調べていると色々な指標があるようですが、どれも基本的には同じようなデータを基にして数値を算出しているようです。

 

具体的には、

・1文あたりの平均単語数

・1語あたりの平均音節数

の2つを基にしているものが多いことが分かりました。

 

このサイトでは、ネット上でも既に研究結果などが多く見つかるもので、かつMicrosoft Wordの校正ツールで検証できる、Flesch–Kincaid readability testsを利用することにしました。

Flesch–Kincaid readability testとは

参考:Flesch–Kincaid readability tests - Wikipedia

 

単純に言うと、「1文1文の平均が長いほど読みにくい」と「1単語平均が長い(音節が多い)ほど読みにくい」という考えによって、文章全体の難しさを数値化するものです。

 

目的によって、2種類の算出法があり、Flesch-Kincaid Reading Ease(FRE)と、Flesch-Kincaid Grade Level(FKG)と呼ばれます。

 

FREの方は一般向けで、0-100のスコアで表しますが、100に近づくほど平易な文というのが注意点です。(だからスコアの名前もEaseなんですね。)

 

FKGの方は、FREと同じデータを基に、アメリカの学年に対応させたもので、以下の通りになります。

1~6 = 小1~6

7~9 = 中1~3

10~12 = 高1~3

13~ = 大学

 

これらの2つは、計算の基になるデータは同じですが、計算式によって、FKGの方が1文1文の長さにウェイトを置くようになっています。

 

このサイトでは、学生向けの参考書を扱っているので、学年表示をベースにした方が分かりやすいと考えて、FKGの方を利用することにしました。

 

そのFKGの算出式は以下の通りです。

FKG = (0.39 × A) + (11.8 × B) - 15.59
A = 文章全体での、1文あたりの平均単語数
B = 文章全体での、1単語当たりの平均音節数

 

例えば、

This is a pen that my friend gave me yesterday.  I like it very much.  という 非常にシンプルな文であれば、

A = 7.5

B = 1.2

となり、計算すると 2.925 + 14.16 - 15.59 = 1.495  となります。これで、「この文は1年生レベル」ということになります。

※実際にはこのような短い文章では平均値がおかしくなるので使えないと思います。あくまで例としてお考え下さい。

 FKGの問題点

ここまで読めば、「え、じゃあこれでいけるなら、この式をいろんな過去問とか問題集で当てはめたらいいじゃん」となりそうなのですが、ここで疑問に思いました。

 

「この式で単語の難易度を本当に反映できるのか?」ということです。

 

確かに、1文の長さが長い方が難しいという理屈は理にかなっていると思います。

英文が長くなるということは、それだけ接続詞や関係詞でSV構造が重なっていたり、長い副詞句が重なっていったりする可能性が高いので、それだけ読みにくいはずだ、ということです。

 

しかし、もう一方の音節の数については、形式上の読みにくさは反映しても、単語の意味自体の難しさには関係ないのでは?と考えました。

 

そこで、実際にシステム英単語(シス単)の1~4章で、音節数を検証してみました。

なお、「シス単って何?」という人は先にこの記事をどうぞ。

f:id:s_wars:20190915225259p:plain

このように、単語の難易度が明らかに難しくなっても、必ずしも音節数が増えているわけではないことが分かりました。

また、ついでに文字数についても同様でした。

 

シス単の1章と3章では、完全に3章の方が難しい単語が多いですが、この式では1章の単語だけで作った文の方が読みにくいという数値になってしまいます。(計算上、1~2学年分ぐらいFKGスコアがズレてしまうことになります。)

 

これはあくまで予想ですが、このようなリーダビリティの指標は、アメリカで作られた英語話者向けのものであるので、日本の普通の学生が頑張って覚える単語などは、全部知っている前提での指標なのではないかと思います。

 

そうすると、このレベルの単語の意味は文章の難易度には関係ないので、アメリカ人にとっては、「音節が多くて単純に長さ的に読みにくい文かどうかだけで判断できる」というのも理解できます。

 

しかし、それでは日本の英語学習者には不十分な指標だと思いますので、文章で使われている単語の難易度を、この数値に反映させる方法を考えます。

単語の難易度を反映するには

文章中の単語の難易度を数値で判断するのは、色々考え方はあると思うのですが、なるべくシンプルに計算したかったので、「文章全体の中に、とあるレベルの単語リストに含まれていない単語がどれぐらいあるか」という率で判断することにしました。

 

シス単やターゲットなどを使用しても良かったのですが、日本の教材だと、その出版社の長文教材などを検証するときに偏るかもしれないと思い、海外の単語リストを使用することにしました。

 

色々見つかったのですが、OXFORD 3000という単語リストが、オンラインで自動検証ができるサイトがあったので、OXFORD 3000について見てみます。

公式ページ:https://www.oxfordlearnersdictionaries.com/wordlist/english/oxford3000/

OXFORD 3000の活用

The OXFORD 3000の公式サイトによると、言語学の専門家や教育者たちによって選出された、優先的に学習すべきキーワードとなる3000語、とのことです。

これであれば、国内の出版社の長文教材で偏りが出ることは無いと思います。

 

しかし、あくまでこれは英語圏での単語リストなので、日本の入試においても、「このリストに載っていれば簡単で、載っていなければ難しい単語」だと言えるかどうかは分からないので、それも検証しました。

日本の入試に適しているか検証

この検証には、シス単とターゲット1900を活用しました。

シス単の章と、ターゲット1900のステージごとに、OXFORD 3000でどれだけカバーしているかの一覧が以下の通りです。

f:id:s_wars:20190915233100p:plain

この通り、基本単語のレベルは殆ど載っていて、レベルが上がるにつれて、載ってない単語が殆ど一定に減っています。(この結果は別記事で行ったシス単とターゲット1900の難易度比較の目安にも概ね一致しています。)

 

この結果から、「日本の入試で使われている代表的な単語帳の難度と、OXFORD 3000に載っていない率には、相関がある」と言えそうです。

 

これで、このサイトでは「文章全体に対する、OXFORD 3000に載ってない単語の比率」を難単語率として使用することにしました。

 

なお、OXFORD 3000には、「I」や「a」や「the」も全て載っているので、「簡単すぎて載っていないから率がおかしくなる」という危険性はないと思います。

オリジナル難易度の算出

FKGは既に式が決まっている数値ですし、このサイトで使っていく「難単語率」は先ほどの通り、例えば10単語の文で1単語がOXFORD 3000に載ってない場合は「難単語率10%」となるため非常にシンプルです。

ただ、せっかくなので、これらを掛け合わせて、英語長文の総合難度もサイト独自に比較できるようにしたいと思います。

 

FKGの学年をベースにして、単語の難易度をプラスαするという方法にします。

 

科学的な根拠はないのですが、先ほどの音節数の検証で、音節数の平均誤差によってFKGの学年が1~2年ほどズレてしまっていたという点と、ネット上で公表されているとある研究の記載で「FKG8の場合は6~10 gradeの幅がある」というのを見つけたため、難単語率が最高レベルに高い場合には、2学年プラスするぐらいが適切な範囲だと考えました。

 

では、日本の入試問題で、難単語率は大体どれぐらいになるのかということがポイントになります。

 

OXFORD 3000の公式サイトによると、「初級の文章では95%~100%カバーされる」、「中上級の文章でも90~95%はカバーされる」と書かれていることから、アメリカ基準で中上級なので、これが日本の入試レベルでは最難レベルだと判断しました。

 

カバー率90%、つまり難単語率が10%で2学年プラスするには、「難単語率 ÷ 5」を足すことになります。

 

結果、日本人学習者に特化した(はず!)参考書ウォーズ独自の長文総合難易度の式はこうなります:

総合難易度 = FKG +(OXFORD3000に含まれてない単語の率)÷ 5

センター試験で実験してみた

せっかくなので、センター試験の長文で実験をしてみました。

www.sankousho-wars.info

 

今後の活用

今回は数値の算出の検証のみでしたが、今後はこの数値を使って、入試用の長文の参考書だけでなく民間試験や共通テストなども検証して、長文参考書を難易度の数値で選べるように、紹介をしていきたいと思います。

 

【追記】

その後、何件かデータが溜まってきたので、比較用のまとめページを作成しました↓

www.sankousho-wars.info

 

 

なお、本サイトでの「難単語率」と「総合難度」はあくまでこのサイト内で参考書同士を比較するために策定した独自のものなので誤解のないようにお願いします。

※FKGは英語圏でも用いられる公式的なものなので他でも比較できます。


COPYRIGHT © 2021 参考書ウォーズ