root/lang/perl/misc/wikipejago/README

Revision 3802, 1.6 kB (checked in by yto, 18 months ago)

start WikipeJaGo? project

Line 
1WikipeJaGo - ウィキペディア(日本語版)のXMLデータからキーワードを抽出するツール群
2
3
4ウィキペディア(日本語版)のXMLデータをダウンロードして使います。
5下記のようにして入手してください。数百Mバイト。大きいです。
6
7  wget http://download.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.bz2
8
9
10■ ext-wpj-person.pl
11
12Input: Wikipedia JA XML
13Output: person name file
14
15人名リストを作ります(person name file)。
16
17  bunzip2 -c jawiki-latest-pages-articles.xml.bz2 | ext-wpj-person.pl > wj-person.txt
18
19
20■ ext-wpj-words.pl
21
22Input: Wikipedia JA XML
23Output: keyword tsv file, df file
24
25キーワードとそのページに出てきたキーワードからなるTSVを作ります(keyword tsv file)。
26また、キーワードのDF(他のページに現れる頻度)をカウントし別ファイルに出力します(df file)。
27
28  bunzip2 -c jawiki-latest-pages-articles.xml.bz2 | prog.pl -d wj-word.df > wj-word.txt
29
30出力先 df file は -d オプションで指定。keyword tsv file は stdout に出ます。
31
32
33■ mkrel-wpj.pl
34
35Input: keyword tsv file, df file, person name file(optional)
36Ooutput: keyword with DF tsv file
37
38keyword tsv file の各エントリの各単語に DF を付与し、DF 順にソートします。
39person name file も指定すると、このファイルにある単語(人名)以外を無視します。
40
41  mkrel-wpj.pl -d wj-word.df wj-word.txt > wj-rel.tsv
42  mkrel-wpj.pl -d wj-word.df -p wj-person.txt wj-word.txt > wj-person-rel.tsv
43
44
45§
46
47詳しくはソースコードをご覧下さい!!!
48
Note: See TracBrowser for help on using the browser.