Changeset 6031 for platform/tdiary/lib

Show
Ignore:
Timestamp:
02/02/08 15:11:57 (10 months ago)
Author:
hsbt
Message:

platform/tdiary/tdiary/lib/bayes.rb: backport from official repos.

Files:
1 modified

Legend:

Unmodified
Added
Removed
  • platform/tdiary/lib/bayes.rb

    r5703 r6031  
    33 
    44require "pstore" 
    5 require "uri" 
    65 
    76module Bayes 
     
    1716                        KCODE = "e" 
    1817                        KATAKANA = "\xa5\xa2-\xa5\xf3" 
     18      BAR = "\xa1\xbc" 
    1919                        KANJI = "\xb0\xa1-\xfc\xfe" 
    20                         RE_KATAKANA = /[#{KATAKANA}]{2,}/eo 
     20                        RE_KATAKANA = /[#{KATAKANA}#{BAR}]{2,}/eo 
    2121                        RE_KANJI = /[#{KANJI}]{2,}/eo 
    2222 
     
    3333                        end 
    3434                        KATAKANA = utf_range(0x30a0, 0x30ff) 
     35      BAR = c2u(0x30fc) 
    3536                        KANJI = utf_range(0x4e00, 0x9faf) 
    36                         RE_KATAKANA = /[#{KATAKANA}]{2,}/uo 
     37                        RE_KATAKANA = /[#{KATAKANA}#{BAR}]{2,}/uo 
    3738                        RE_KANJI = /[#{KANJI}]{2,}/uo 
    3839 
     
    8586 
    8687                                h = host 
    87                                 while /^(.*?)[._-](.*)$/=~h 
     88                                while /^(.*?)[\.\-_](.*)$/=~h 
    8889                                        h = $2 
    8990                                        push($1, prefix) 
     
    9596 
    9697                def add_url(url, prefix=nil) 
    97                         if URI.regexp(%w[http https ftp]) === url 
    98                                 url  = URI.parse url 
    99                                 host = url.host                       # $4 
    100                                 path = url.path.gsub(%r{^/+|/+$}, '') # $7 
     98                        if %r[^(?:https?|ftp)://(.*?)(?::\d+)?/(.*?)\/?(\?.*)?$] =~ url 
     99                                host = $1 
     100                                path = $2 
    101101 
    102102                                add_host(host, prefix) 
     
    106106 
    107107                                        p = path 
    108                                         re = %r[^(.*)[/._-](.*?)$] 
     108                                        re = %r[^(.*)[/\-\._](.*?)$] 
    109109                                        while re=~p 
    110110                                                p = $1