ブログ100件集めるのは大変だと思います。
集合知プログラミングの第3章においてブログを100件用意して、各ブログのフィードから単語の出現頻度を測定。
結果からどのブログがどれだけ似ているかなー?と量る部分に入りました。
chromeのはてな拡張を入れて、Googleで site:hatenablog.com プログラミング と検索してはてブがそれなりに付いているブログを集めようとしたけれどまるっきり集まらず、断念・・・。
代わりに人気エントリーから何日か掛けて100件集める方法に。
このグループを発見する手法は階層的クラスタリングを呼ばれているようで、
- 測定結果から似ている二者を1つのクラスタにまとめる。
この作業を延々とクラスタに対して繰り返すことで最後は100個のブログを1つのクラスタにするところまで進みます。
その後1つにまとまったクラスタをデンドログラムと呼ばれる形で表示してやると、クラスタ内のブログがどれだけ似ているのかひと目で分かるって寸法のようで。
今日はp34~p39中盤まで完了。遅々として進まん・・・。オライリーさん情報密度高いなー相変わらず。