Semantic Connection based Topic Evolution (AAAI17) を読んだ

AAAI17の中で、以前気になる候補として挙げた論文のうちの1つを読んだので軽いまとめ。

2Pなので軽く読めるはず(僕は論文読むの苦手なので時間がかかった)

Semantic Connection based Topic Evolution (AAAI17) 

概要

 従来の手法はトピックモデルに基づいてトピック数を与えたり制約があったが、

 本手法ではsemantic-connection(文章の類似度や時間減衰由来)に基づき、適切なトピック数を決められるのでベースラインよりもトピックの質の面でも、変化の感度の点でも勝っている。 

手法

手法については多くは書かれていないが、アルゴリズムは載っている。

端的に言うと文章を時間毎に区切って、窓幅を設けて、LDAを回してみたいなことをやっている。

 

与えられるものとしては、

  • 文章データセット(D)
  • (文章データの)窓幅(wz)
  • (KLdivの)閾値(T)

 

アルゴリズムに基づくと大まかに分けて3つのシーケンスを踏む。

  1. LDAを用いて文章のトピック分布(θ)を得る。
  2. 各文章に対して得られたトピック分布(θ)のsymmetricalなKLdivを計算し,Semantic Connection Graph(SCG)を作成する
  3. 2.で得られたSCGをSemantic Connection Feature(SCF)へと変換する。この際にDeepWalkと呼ばれる教師なし深層学習を用いる。

実験

対称とするデータ:Twitter(2014年12月のデータ)

比較手法:On−Line LDA

結果の画像とかは元論文見てください。

トピックの二次元平面上での距離がトピックの差異(類似度?)をそのまま表しているらしい。

結論

 semantic-connectionに基づく可視化はトピック数の制約により引き起こる欠陥を解決した。

 Twitterのデータでの有用性が下記の点で示された。

  • トピックの発展の可視化
  • トピック数の決定
  • 冗長なトピックの回避

僕の所感

LDAはトピック数givenだからなんとかして結合しようみようというアプローチは何個か見たことある。

その際はトピック単語分布(Φ)のcos類似度だったりと様々だった気がする。

今回は既存研究のDeepWalkとかいうのを用いているのが新規性なのかなと感じた。

従来手法と本手法の結果がどちらも載っていたが、どう優れているのかが一見わかりにくい

(本手法の結果は二次元平面でトピックが図持されているけどわかりにくい)

可視化に関しても結局その知識がない人がみるとわからないのでは?と思ってしまう一面がある。

(僕は無知なので対称的なKLdivという概念を初めて知った)