言語処理学会第23回(NLP17)、気になる論文ピックアップ

結構時間が空いてしまったけれども、言語処理学会で発表されたもので気になるものをリストアップしておく。(時間が空いたら軽く読む

 

・変換規則と文章の分散表現に基づく自動文章生成手法の提案

・類似度と連想度を用いた隠喩表現判定に関する研究

マイクロブログを対象とした形態素解析誤りの自動検出と誤り分析
・用例文拡張辞書を利用したトピックモデルに基づく新語義検出

ソーシャルメディアにおける俗語の検出
・従属性に基づく事態間関係知識の粒度調整
・鉄道トラブルに関する tweet の自動抽出手法

・マルチモーダル情報に基づく見守りシステム開発への取り組み
・賛否表明パターンと行列分解に基づく賛否モデリング

モンテカルロ木探索を用いた早口言葉生成
・時系列数値データからの概況テキストの自動生成
・Sentence Embeddingsを導入した潜在トピックモデル
・用例文拡張辞書を利用したトピックモデルに基づく新語義検出
・抽出型文書要約における分散表現の学習
・単語分かち書き辞書 mecab-ipadic-NEologd の実装と情報検索における効果的な使用方法の検討

Semantic Connection based Topic Evolution (AAAI17) を読んだ

AAAI17の中で、以前気になる候補として挙げた論文のうちの1つを読んだので軽いまとめ。

2Pなので軽く読めるはず(僕は論文読むの苦手なので時間がかかった)

Semantic Connection based Topic Evolution (AAAI17) 

概要

 従来の手法はトピックモデルに基づいてトピック数を与えたり制約があったが、

 本手法ではsemantic-connection(文章の類似度や時間減衰由来)に基づき、適切なトピック数を決められるのでベースラインよりもトピックの質の面でも、変化の感度の点でも勝っている。 

手法

手法については多くは書かれていないが、アルゴリズムは載っている。

端的に言うと文章を時間毎に区切って、窓幅を設けて、LDAを回してみたいなことをやっている。

 

与えられるものとしては、

  • 文章データセット(D)
  • (文章データの)窓幅(wz)
  • (KLdivの)閾値(T)

 

アルゴリズムに基づくと大まかに分けて3つのシーケンスを踏む。

  1. LDAを用いて文章のトピック分布(θ)を得る。
  2. 各文章に対して得られたトピック分布(θ)のsymmetricalなKLdivを計算し,Semantic Connection Graph(SCG)を作成する
  3. 2.で得られたSCGをSemantic Connection Feature(SCF)へと変換する。この際にDeepWalkと呼ばれる教師なし深層学習を用いる。

実験

対称とするデータ:Twitter(2014年12月のデータ)

比較手法:On−Line LDA

結果の画像とかは元論文見てください。

トピックの二次元平面上での距離がトピックの差異(類似度?)をそのまま表しているらしい。

結論

 semantic-connectionに基づく可視化はトピック数の制約により引き起こる欠陥を解決した。

 Twitterのデータでの有用性が下記の点で示された。

  • トピックの発展の可視化
  • トピック数の決定
  • 冗長なトピックの回避

僕の所感

LDAはトピック数givenだからなんとかして結合しようみようというアプローチは何個か見たことある。

その際はトピック単語分布(Φ)のcos類似度だったりと様々だった気がする。

今回は既存研究のDeepWalkとかいうのを用いているのが新規性なのかなと感じた。

従来手法と本手法の結果がどちらも載っていたが、どう優れているのかが一見わかりにくい

(本手法の結果は二次元平面でトピックが図持されているけどわかりにくい)

可視化に関しても結局その知識がない人がみるとわからないのでは?と思ってしまう一面がある。

(僕は無知なので対称的なKLdivという概念を初めて知った)

AIII17、気になる論文リストアップ

2月の頭辺りから始まるAAAIというアメリカの人工知能学会のAccepted Paperの一覧から

気になる論文候補をリストアップ(備忘録)

www.aaai.org

まだ、論文の方は見れないっぽいのでとりあえずタイトルだけで判断してみた。

  • 632: Probabilistic Non-negative Matrix Factorization and its Robust Extensions for Topic Modeling Minnan Luo, Feiping Nie, Xiaojun Chang, Yi Yang, Alexander Hauptmann and Qinghua Zheng
  • 1063: Don't Forget the Quantifiable Relationship between Words: Using Recurrent Neural Network for Short Text Topic Discovery Heng-Yang Lu, Lu-Yao Xie, Ning Kang, Chong-Jun Wang and Jun-Yuan Xie
  • 1095: Collaborative Dynamic Sparse Topic Regression with User Profile Evolution for Item Recommendation Li Gao, Jia Wu, Chuan Zhou and Yue Hu
  • 3454: Semantic Connection based Topic Evolution Jiamiao Wang
  • 3476: Authorship Attribution with Topic Drift Model Min Yang

トピックモデルについて扱ってそうなもので、興味深い奴をリストアップしてみた。

大きな学会ともなると論文の母数が多いなぁと言うのが所感。