| Line | |
|---|
| 1 | WikipeJaGo - ウィキペディア(日本語版)のXMLデータからキーワードを抽出するツール群 |
|---|
| 2 | |
|---|
| 3 | |
|---|
| 4 | ウィキペディア(日本語版)のXMLデータをダウンロードして使います。 |
|---|
| 5 | 下記のようにして入手してください。数百Mバイト。大きいです。 |
|---|
| 6 | |
|---|
| 7 | wget http://download.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.bz2 |
|---|
| 8 | |
|---|
| 9 | |
|---|
| 10 | ■ ext-wpj-person.pl |
|---|
| 11 | |
|---|
| 12 | Input: Wikipedia JA XML |
|---|
| 13 | Output: person name file |
|---|
| 14 | |
|---|
| 15 | 人名リストを作ります(person name file)。 |
|---|
| 16 | |
|---|
| 17 | bunzip2 -c jawiki-latest-pages-articles.xml.bz2 | ext-wpj-person.pl > wj-person.txt |
|---|
| 18 | |
|---|
| 19 | |
|---|
| 20 | ■ ext-wpj-words.pl |
|---|
| 21 | |
|---|
| 22 | Input: Wikipedia JA XML |
|---|
| 23 | Output: keyword tsv file, df file |
|---|
| 24 | |
|---|
| 25 | キーワードとそのページに出てきたキーワードからなるTSVを作ります(keyword tsv file)。 |
|---|
| 26 | また、キーワードのDF(他のページに現れる頻度)をカウントし別ファイルに出力します(df file)。 |
|---|
| 27 | |
|---|
| 28 | bunzip2 -c jawiki-latest-pages-articles.xml.bz2 | prog.pl -d wj-word.df > wj-word.txt |
|---|
| 29 | |
|---|
| 30 | 出力先 df file は -d オプションで指定。keyword tsv file は stdout に出ます。 |
|---|
| 31 | |
|---|
| 32 | |
|---|
| 33 | ■ mkrel-wpj.pl |
|---|
| 34 | |
|---|
| 35 | Input: keyword tsv file, df file, person name file(optional) |
|---|
| 36 | Ooutput: keyword with DF tsv file |
|---|
| 37 | |
|---|
| 38 | keyword tsv file の各エントリの各単語に DF を付与し、DF 順にソートします。 |
|---|
| 39 | person name file も指定すると、このファイルにある単語(人名)以外を無視します。 |
|---|
| 40 | |
|---|
| 41 | mkrel-wpj.pl -d wj-word.df wj-word.txt > wj-rel.tsv |
|---|
| 42 | mkrel-wpj.pl -d wj-word.df -p wj-person.txt wj-word.txt > wj-person-rel.tsv |
|---|
| 43 | |
|---|
| 44 | |
|---|
| 45 | § |
|---|
| 46 | |
|---|
| 47 | 詳しくはソースコードをご覧下さい!!! |
|---|
| 48 | |
|---|