古典文学やベストセラーを統計を通して分析する──『数字が明かす小説の秘密』

冬木糸一 2018年7月25日

サイエンス

作者:ベン・ブラット　翻訳:坪野圭介
出版社:DU BOOKS
発売日:2018-07-13

小説を評する、分析するといえば基本的には一人の人間が精読することによってそこで用いられている技法や、他の作品との関連、歴史的な意義などをあぶり出していく行為のことである。だが、それだけではなく、統計を通して語句の使用頻度、プロットの盛り上がり、書き出しについてなどを分析する手法も現在では発展してきた。本書『数字が明かす小説の秘密』は、そんな後者のアプローチを古典文学からベストセラーまで幅広く応用した一冊だ。

かつては作家の文章における使用単語の頻度などを調べたい場合、地道に人間が数え上げていく他なかったが、近年はプログラムを組んでテキストデータを流し込めば、お手軽かつ精確に同様の分析を行うことができる。著者らも自然言語ツールキットを用いて、文章を品詞ごとに分解した調査を行っている。この分野に関して、類書として邦訳本だけでもすでに『ベストセラーコード「売れる文章」を見きわめる驚異のアルゴリズム』や『遠読――〈世界文学システム〉への挑戦』などが存在するが、本書の特徴といえるのは主に作家ごとの文体に絞って分析を行っているところだろう(とはいえ、ベストセラーコードとはだいぶ内容が被ってはいるんだけど)。

ヘミングウェイの副詞の使用頻度は少ないのか？

たとえば、ヘミングウェイは切り詰められた文体がその特徴とされているが、実際にそれが文章を分析することで数字として現れてくるのだろうか。それについて本書では、まず形容詞や動詞を修飾する副詞の使用頻度をランク付けすることで、ヘミングウェイの文章の特徴をあぶり出していく。なぜなら副詞とは、キングが「副詞は君の友達じゃない」とディスり、『ファイトクラブ』の著者であるチャック・パラニュークも『「sleepily(眠たげに)とかirritably(苛立たしげに)とかsadly(悲しげに)みたいな、バカげた副詞はやめてくれ」』と書く悪の存在だからだ。

つまり副詞は──ここでいう副詞とは主に-lyで終わる単語という意味だが──少なくとも作家の一部からは嫌われている要素になる。それでは、実際彼らの副詞の使用頻度はどうなっているのだろうか。1万語ずつの-ly型副詞の使用回数を著名な作家15人ごとに(少ない順から)ランク付けすると、スティーヴン・キングは105語で8位、J・K・ローリング140語で14位、マーク・トウェインは81語で2位、アーネスト・ヘミングウェイは80語で1位だ。仮に-ly型の副詞を使うのが根本的に文章にマズイ効果をもたらすなら、ヘミングウェイは確かに偉大な作家である。

もちろんそれだけでは何も分析していないのと対して変わらない。考慮しなければならないのはたとえば、はたして本当に副詞の使用は個人的な好みを超えて作品のクォリティに直結しているのだろうか？　本書ではそれを分析するために、最良の20世紀文学についてのリストを集め、その登場頻度を客観的に優れた本の定義として用い、「最良の作品群」と「それ以外」の群で副詞の使用頻度を比較している。その結果は──1万語に対して副詞が0〜49語の本のうち、67%が当時の批評家によって「優れた」作品と認定されており、割合としては確かにトップとなった。150語以上副詞を含む本で、批評家の「優れた」作品認定を受けたのはたったの16%だ。

「そうなんだ。じゃあ副詞は小説にはいらないんや！」と思いそうになるが、50語以下であっても33%は優れた認定を受けていないわけで、絶対唯一の指標でもなんでもない。せいぜい「副詞を抑えた方が評価が高まる傾向にある」というぐらいだろう。とはいえ、ここから興味深い事例もみえてくる。カート・ヴォネガットの長編のうち、もっとも評価の高い3冊『猫のゆりかご』、『スローターハウス5』、『チャンピオンたちの朝食』はヴォネガットの全作品中副詞を使わない小説の1、2、3位であるなどなど。副詞一つとってもみえてくるものは多い。

ファン・フィクションを分析対象にする

こうした分析で難しいのは分析対象のテキストデータを出版社なり作家なりと交渉して手に入れなければいけない(著作権が切れていてフリーで入手できるか)ので数があまり揃えられないところにあるが、本書の場合ネット上でダウンロードできるファンフィクションのテキストデータを用いているのがおもしろい(日本でいえば「小説家になろう」や「カクヨム」から引っ張ってくるようなもの。扱い方を間違えると容易く炎上するので、注意が必要だが……)。

副詞の分析でも、プロ作家とアマチュア作家(https://www.fanfiction.net/からとってきたもの)を対比させており、ファンフィクション作家の中央値は1万語あたり154語の副詞使用率で、プロ作家のサンプルと比べるとかなり高い割合である。多くの作家や教師によって副詞は良くないとされているので、これ自体はそう意外な話ではないが、やはりデータの裏付けがあるのは強い。

本記事ではおもに副詞の使用頻度に絞って紹介を行ったが、本書ではこの後にも男女間の使用単語の差、単語の使用頻度などから個人の指紋を見つけ出せるのか問題、句読点・感嘆符の使用頻度と作品のクォリティの相関など、文章表現上参考になりそうな話題が連続していくので、客観的なデータに裏打ちされた文章技法の本として読んでも勉強になるだろう。

おわりに

こうした文章の分析は、特別な研究者やプログラマしかできないのかといえばそうではない。オープンソースの形態素解析ライブラリ(たとえばRubyのMecab／Natto)が存在しているし、本書に出てくる分析例の多くは、プログラムに習熟していなくても簡単にできるレベルのものである。僕も時間が出来たら青空文庫収録の作品などを利用して書いてみようと思う。

類書としては下記もどうぞ。HONZ(冬木)の書評