LINEがあるのでキャリアメールを開くことはなくなってしまったが、たまに開くと山のようにスパムメールがたまっている。普段使いのGmailにもたまにスパムメールはきているようだが、自動判定され目に触れる前にほとんどの振り分けを行っていてくれる。
時にミスって重要なメールを迷惑メールフォルダに入れているのはご愛嬌だが、もちろん普段は助かっている。その振り分けを見ながら、「きっと、背後では何かをやっていてくれるんだろうな」というぼんやりとした想像ぐらいはするが、背景についでまで考えることはあまりない。
これは僕の話だが、そんな人がほとんどではないだろうか。
たとえば、「なぜ、スパムメールなんていうものが存在するのだろう」「スパムと非スパムの境界線はどこにあり、どのように判断しているのだろう。」「そもそも、スパムを定義することはできるのだろうか」などとは、なかなか考えないものだ。しかし、現在我々が時として目にするスパムは日夜進歩している撃退アルゴリズムをくぐり抜けた歴戦の勇士であり、背後には思ってもみなかった攻撃側の労苦と、防衛側の知性のせめぎ合いが存在しているのである。
本書『スパム[spam]:インターネットのダークサイド』は、そんなスパムの裏側に迫った一冊だ。『スパムの歴史はコンピュータネットワーク上に集まる人々の歴史の裏返しである。なぜならスパムの計略は人々を標的とするからだ。』という言葉通り、スパムは一部の軍関係者と研究者のみが触っていた時代から存在し、その後も形態を次々と変え、現在もインターネットと密接に結びついている。形を変え続ける概念を定義することは物凄く難しいことであるが、本書はスパムの歴史を追うと同時に、本質的に困難なはずの「スパムの定義」にまで踏み込んでいく。
スパムについて知ることの何が面白いって、インターネットの発展と共にその姿を変化させていく歴史や、実際にどのような手法を使うことでいくら儲かるんだろうという単純な疑問への答えもさることながら、スパムを仕掛ける側と防衛する側の高度ないたちごっこがたまらなく魅力的である。よくもまあそんな事を考えるなという方法で相手を出し抜こうとし、さらにそれを受ける側もアルゴリズムを駆使して対応する、不毛ながらもそこに人間の知性をみた。
もっといいのは振り込め詐欺メール──先に述べた「ナイジェリアのスパム」──で、これは二〇万通のメールに対して二〇ドルかかり(……)、二パーセントか三パーセントの返信率で、被害者一人あたり一九二一・九九ドルの収入がある。スパム業者が本当に大きな獲物を狙わなくても、仕事の量は増えるが、最終的に二〇万ドルの利益を達成することが予想できる。
スパムメールを例にとれば、送る側は極論の話ではあるが100人に送るのも100万人に送るのも大したコスト差なく実行でき、引用例よりさらに低い返信率でも利益が出るから、送れば送るほど利益が出る。しかし、至極単純に考えると、防衛側がスパムメールをそもそも目に入ることなく弾くことができれば、スパムメールは一切の利益が出ないから根絶できるはずだ。当然ながら、それが簡単にはうまくいかないからいまだにスパムがはびこっているわけではあるが。
どのような攻防があるのか
たとえばメールの振り分けについていえば、ベイズ分類プログラム──スパムメールと非スパムメールをそれぞれのフォルダに振り分けることによって、両者のメールに存在する特徴的な語彙差を学習し続け仕分けを行う──は有効ではあるが、万能ではない。正当なメールと判定されたスパムメールを削除するのは人間には大した手間ではない(逆はコストが高い)為に、フィルタは基本的には「少し間違うことはあっても許容できる」側に傾けられる。
その穴につけこんでスパムを送る側は幾つもの対抗策を行う。たとえばもっとも単純なものでは、「さらに大量に送りつける」。あるいは、振り分けられることを前提とした文章、振り分けを突破するような文章をつくることである。これがなかなか面白いのだ。
1.理論的には、スパム的な言語とともに自然で受け入れられる単語をメールにたくさん入れ、メールがスパムメールではないと判定される確率を上げることによって、フィルタをくぐり抜けることができるだろう。リンクのない、わけのわからないメールはこのアイデアの試験装置だった。何がはじかれ、何が通過するかを見るために、無数の変種が送信された。「私はでも/実際に食べものをつまらせ、いつも戦争のラッパ/が響いた! この不動は蛇の毒を塗った投矢をする、/私は笑ったことだろう」。
このようなメールがいったんくぐり抜けてしまうと、今度は受信者側にジレンマがやってくる。スパムと分類せず削除したら正当なメールとしてプログラムは受け取り、逆にスパムに分類した場合、スパムに判定される一般的な無害な単語への警戒度が無意味に上がって判別制度がオチてしまう。ここにあるのはプログラムvs人類の戦いの一つの在り方だといえるだろう。
いろいろなスパムの在り方
スパムの在り方は何もメールだけではない。
それはたとえばSEO対策を万全にした、検索順位だけは高い中身のない広告サイトである。Googleが採用した被リンク数と質によってページランクを変動させるアルゴリズムに対抗するために、検索エンジンスパイダーに合わせて作られた無数のゴミページを生成し続け、広告として押しあげたいページを検索上位に持ってくる事で利益を得る。当然質の悪い情報を読ませられた検索者は実質的に不利益を被っているのだが、そうとはなかなか気づかない。
こうした事態への対抗手段も当然存在している。たとえば、記事の質を判定するような仕組みだ。しかし現代では、利益が出るラインを計算するアルゴリズムに基づいて、人間の書き手にコンテンツを依頼したりする。そうすれば、単純な判定はもはや不可能である。こんな風に、アルゴリズムが主導し、人間が労働をする組み合わせは有効であるだけに例は多い。会員登録の際によく見られる読みづらい文字を入力させる認識システムも、突破させる為だけに雇われている人間が(いるところには)いるのである。あまりにむごいではないか。
この気の毒な人々の仕事は、通常のデータ入力の仕事さえ、これと比べればきわめて快適にみえるほどで、賃金は基本的に人間であること、つまり理論的には人間であることを明らかにすることに対して支払われている。
語彙コントロールでフィルタを免れるように工作し、ページランクや文字認識などのスパム妨害に対しては時には人力を動員する。スパムを仕掛ける側がとってくる戦略の基本は、『正当なメディアによる産物と正真正銘のスパムとの区別を曖昧にする』、つまりスパムだと判断されないようにすることであり、逆に防衛側はスパムを出来る限り具体的に定義・分類することが重要になる。スパムの歴史とは、より巧妙に隠れ、より細かく定義する戦いの歴史といえよう。
スパムと無縁の人間なんていない
端的にいって、インターネットを体験していてスパムに無関係な人は一人もいないのであり、本書は見えているのに見えていない、スパムの世界を明らかにしてくれる。メール、検索、現代ではTwitterやSNSなどその姿を変えながらインターネット史と常に共にあったスパムを知ると共に、どのような対抗策が行われてきたかを知ることのできる最良の一冊だ。