Fire Engine

化学の修士号→消防士→ITエンジニア(2016年11月〜)

自然言語処理

はてなブックマークから特徴語を抽出し、ユーザーの興味・関心を分析する。

以前、文章から特徴語の抽出や特徴ベクトルを生成するモジュールを作りました。 hirotsuru.hatenablog.com 今回は、これを使って個人のはてなブックマークから特徴語を抽出し、興味・関心を分析できるのかやってみたいと思います。 はてなブックマークについ…

Rubyで文章を特徴ベクトルに変換するモジュールを作った。

最近、自然言語処理関係に興味を持ち、いろいろやっています。今回作ったものは、例えば、人工知能に関する文章をプログラムに渡すと、 { "人工知能": 3.4, "自動運転": 2.8, "研究": 1.5, ・・・・ } といったように、文章の特徴を表す単語(以下、特徴語と…

形態素解析エンジンMecabの辞書を更新する(mecab-ipadic-NEologdの導入)

先日、Rubyで2つの文章間の類似度を計算するモジュールについての記事を書きました。 hirotsuru.hatenablog.com 形態素解析、すなわち文章を単語に分割することは、文章を解析する上で、最初のステップとなります。この単語分割の際に用いる辞書は、日々生…

Rubyで文章間の類似度を計算するモジュールを作ってみた(TF-IDFとCos類似度による推定)

最近、自然言語処理に興味を持ち始めました。今回は、二つの文章(テキストファイル)の類似度を計算するモジュールを作ってみました。いずれは、これを発展させていって、機械学習とかも組み込んで、Webサイトをユーザの嗜好に応じて推薦してくれるシステム…