こんにちは。知ってる人は知っているマイナーシリーズ「WEB/SEO関連資料紹介」です。
動きの早いWEB界隈でも更に動きが早いSEOなどについて文献を紹介しています。SEOだけではないですが、個人的な信条から動きが早い分野だからこそ紙媒体の情報をとりあげている次第です。
さて、今回はスパムについてしらべてみました。といっても過去においてはスパムと言えばスパムメールですので、SEO的なスパムとは少し違いがあります。ただ、これはこれで示唆に富む内容ではありますが…今回はスパムメールは割愛させてい頂きます。
前提
主にGeNiiで検索した内容を記事にしています。
凡例
以下に凡例を記載します。
- 本文を読める文献は【本文】と記載
- 本文データ無しや会員のみ閲覧可能は【抄録】と記載
- 本文も抄録もなしは【書誌事項のみ】と記載
文献一覧
[Title] Webサーチエンジンの基本技術と最新動向(下)最新技術
[Authors] 福島 俊一
[Bibliographic] 情報管理 46(7), 436-445, 2003
[Readable] 本文
「T本稿は「Webサーチエンジンの基本技術と最新動向」と題した2部構成論文の後編である。前編ではWebサーチエンジンの背後にある基本的な情報検索技術を解説した。」と抄録に書かれており、その中の一つとしてスパムのことが書かれています。
この当時のスパムとしては「隠しテキストスパム」「詰め込みテキストスパム」「複数ページスパム」「リンクスパム」「リダイレクト悪用」が挙げられています。本文は読めるのですが、スパムに関しては触り程度の感じですね。1つ驚いたのは、この2003年から既に「SEOコンサルタント」という言葉とポジションがあったことです。どの程度の一般的に知られていたのかはわかりませんが、研究者には知られていたようですね。
[Title] エージェントに基づくウェブページ分類の実験評価(1)(「21世紀の知識情報科学に向けて」,及び一般)
[Authors] 荒谷 寛和/藤田 茂/菅原 研次
[Bibliographic] 電子情報通信学会技術研究報告. AI, 人工知能と知識処理 103(243), 49-54, 2003-07
[Readable] 抄録
「本稿では,ウェブ検索エンジンの多くに発生するトピックドリフト問題の解決に一つの手法を与える,エージェントに基づくウェブページの分類手法の提案と評価実験について述べる.」と抄録に書かれています。「検索エンジンが特定のアルゴリズムに従ってウェブページの順位付けを行う限りは解決が困難であると考えられる.」ともあり、このスパムに対する方法を提案しています。
トピックドリフト問題というのは、検索結果に意図的に関連性の低いページを上位表示させる問題のようですね。今回はじめて目にした(と思います)単語ですが、現在は使われていない単語でしょうか。意味的には使われていてもいいような…。
[Title] ロボット型サーチエンジン用ランキング手法の改善
[Authors] 佐々木 亮/児玉 英一郎/宮崎 正俊
[Bibliographic] 情報処理学会研究報告. EVA, [システム評価] 2003(26), 39-44, 2003-03-07
[Readable] 抄録
「トピックドリフト問題を表層的トピックドリフト問題と深層的トピックドリフト問題の2つに独自に分類し,それぞれについて説明する.」と抄録に書かれています。
前段のトピックドリフト問題に関連する内容です。「,表層的トピックドリフト問題の解決に当たり名詞孤立度を提案する.」とあり、初見の単語ですが「名詞孤立度」というものを使うようですね。内容が読めないので確実なことは言えませんが、該当部分の内容から関係が薄い、つまり孤立している単語を抽出しその数などで判定するのかもしれません。
[Title] 部分文字列の数え上げによるブログスパムの検出(マイニングとフィルタリング)
[Authors] 成澤 和志/山田 泰寛/池田 大輔
[Bibliographic] 情報処理学会研究報告. 情報学基礎研究会報告 2006(59), 45-52, 2006-05-30
[Readable] 抄録
「スパム検出に関する研究は内容解析やリンク解析によるものが多く、複雑な処理やアルゴリズムを使用する。我々はブログスパムの内容ではなく、コピーされ大量に生成される性質に着目した手法を提案する。」と抄録に書かれています。少し前に頻繁に目にしていた内容ですね。
抄録を読むに、統計的な数値のみで判定するみたいなイメージでしょうか。「自然言語の知識を必要としない、高速なスパム検出の技術」とも書かれています。内容に依存しないという考え方は一見おおざっぱな印象をもちますが、大量にコピーされるという特性に着目すればその手法に対しての効果が高いのかもしれません。
[Title] スパムブログの推定と抽出
[Authors] 石田 和成
[Bibliographic] 日本データベース学会letters 6(4), 37-40, 2008-03
[Readable] 書誌事項のみ※本文あり
気になる内容なのですが、CiNiiでは書誌事項のみです。が、調べてみたら掲載誌の発行元である日本データベース学会のサイトにありました。太っ腹ですね…。ここのサイトで検索したら相当おもしろい情報が手に入るのではないでしょうか?
内容を読むと、かなり濃いです。スパムシードと共参照クラスターというものを用いてのスパムブログ抽出方法が書かれています。しっかりと調査を行っておられるようで、数値やグラフや図式などで詳細に説明されています。現在本文が読めて、この関係の本文でこれほど細かい内容はあまりみたことがありません。興味のある方は一読をお勧めします。
[Title] 5J-6 キーワードのバースト特性を利用したスパムブログデータセットの作成と分析(情報爆発時代におけるWebおよびblogマイニング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
[Authors] 佐藤 有記/宇津呂 武仁/福原 知宏/河田 容英/村上 嘉陽/中川 裕志/神門 典子
[Bibliographic] 全国大会講演論文集 第70回平成20年(5), “5-59”-“5-60”, 2008-03-13
[Readable] 書誌事項のみ※本文は追記にて
この論文も本文が読めないはずのものです。が、タイトルを検索するとで出てきます。判断がつかなかったのですが、もしかしたら見えてはいけないところが見えてるのかもと思わなくも無く。とはいえ専門的な研究室のようですからこんなミスも無いでしょうし…。
すでに公開された論文ですし、こうして検索で表示されている点を鑑みてこの記事に記載することにしました。本文をご覧になりたい方は論文名に含まれる文章で検索してみてください。普通に検索結果にでてきますので。ちなみに、検索結果にはこれ以外にも興味深いタイトルもみえます。内容的には前段の論文に比べて密度が薄いかもしれません。
[Title] 内容の類似性を用いたトラックバックスパム判別
[Authors] 藤村 浩太/堀 良彰/櫻井 幸一
[Bibliographic] 情報処理学会研究報告. CSEC, [コンピュータセキュリティ] 2008(45), 19-24, 2008-05-15
[Readable] 抄録
「スパムで無い正当なトラックバックはトラックバック先の記事と趣旨が同じ事が多いことと,トラックバックスパムの多くはトラックバック先の記事の内容を踏まえていないことを利用したトラックバックスパム判別手法について実験を行った.」と抄録に書かれています。
結果として「結果,記事の類似性が低いときトラックバックスパム率が高くなることがわかった.」模様です。考えてみれば当然ですね。問題は類似性の判断というあたりでしょうか。ここの精度が高ければSEO目的のトラックバックスパムは排除できそうな気はします。反面、アクセス増加目的の意図である場合、類似の内容であればトラックバックはスパムといっていいものかどうか…。ただのトラックバックとも言えますし。
[Title] 接尾辞木を用いた圧縮尺度計算による効率よいスパムポスト検出手法(ポスターセッション,iDBフォーラム2008(招待講演・ポスター英語ディスカッション))
[Authors] 上村 卓史/池田 大輔/有村 博紀
[Bibliographic] 電子情報通信学会技術研究報告. DE, データ工学 108(211), 15-16, 2008-09-14
[Readable] 抄録
「本稿では,ブログや掲示板を対象とした内容ベースの効率よいスパムポスト検出手法を提案する.本手法は,与えられた文書集合に対して接尾辞木を用いた確率モデル(確率接尾辞木)を構築し,この文書集合上の推定された出現確率を利用して検出を行う.」と抄録に書かれています。
接尾辞木はどこかで見た気もしますが、意味は全然思い出せませんでした。Weblioで調べると結局wikipediaから引っ張って来た内容だったのですが、意味としては「接尾辞木(せつびじき)またはサフィックス木(英: Suffix tree)は、与えられた文字列の接尾部を木構造(基数木)で表すデータ構造であり、多くの文字列操作の高速な実装に利用されている。」出そうです。「松浦研究室ホームページ -接尾辞木-」というサイトさんの内容がもう少し分かりやすいかもしれません。…どちらにせよ理解できている自信はありませんが。
結び
冒頭に書きましたが、今回はスパム関連の論文記事を探してみました。
今回のいちばんの収穫は、日本データベース学会さんの素晴らしいサイトを見つけたことです。なんと、恐らく最新版である2012年6月発行の雑誌から2002年10月までの本文を公開されておられます。
2012年6月の見出しを見るだけでも、「コミュニティQAを用いたクエリ拡張のためのコンテキスト抽出に関する一考察 」 「ネットショッピングにおける商品選択条件の推定」「モバイル協調検索のためのクエリ推薦・提示手法 」 などなど興味深いタイトルがならんでいます。
このブログのこのシリーズでは情報処理学会さんの記事にお世話になっていますが、今後は日本データベース学会さんの方にもお世話になるかもしれません。どこぞの全日本○○○協会にも見習って欲しいものです。
0人がこの記事を評価
役に立ったよという方は上の「記事を評価する」ボタンをクリックしてもらえると嬉しいです。
連投防止のためにCookie使用。SNSへの投稿など他サービスとの連動は一切ありません。