Changeset 6084

Show
Ignore:
Timestamp:
02/03/08 06:24:05 (5 years ago)
Author:
drry
Message:

platform/tdiary/lib/bayes.rb
platform/tdiary/plugin/spambayes.rb: [5073], [6031]. white space changes.

Location:
platform/tdiary
Files:
2 modified

Legend:

Unmodified
Added
Removed
  • platform/tdiary/lib/bayes.rb

    r6031 r6084  
    33 
    44require "pstore" 
     5require "uri" 
    56 
    67module Bayes 
     
    1617                        KCODE = "e" 
    1718                        KATAKANA = "\xa5\xa2-\xa5\xf3" 
    18       BAR = "\xa1\xbc" 
     19                        BAR = "\xa1\xbc" 
    1920                        KANJI = "\xb0\xa1-\xfc\xfe" 
    2021                        RE_KATAKANA = /[#{KATAKANA}#{BAR}]{2,}/eo 
     
    3334                        end 
    3435                        KATAKANA = utf_range(0x30a0, 0x30ff) 
    35       BAR = c2u(0x30fc) 
     36                        BAR = c2u(0x30fc) 
    3637                        KANJI = utf_range(0x4e00, 0x9faf) 
    3738                        RE_KATAKANA = /[#{KATAKANA}#{BAR}]{2,}/uo 
     
    8687 
    8788                                h = host 
    88                                 while /^(.*?)[\.\-_](.*)$/=~h 
     89                                while /^(.*?)[-_.](.*)$/=~h 
    8990                                        h = $2 
    9091                                        push($1, prefix) 
     
    9697 
    9798                def add_url(url, prefix=nil) 
    98                         if %r[^(?:https?|ftp)://(.*?)(?::\d+)?/(.*?)\/?(\?.*)?$] =~ url 
    99                                 host = $1 
    100                                 path = $2 
     99                        if URI.regexp(%w[http https ftp]) === url 
     100                                url  = URI.parse url 
     101                                host = url.host                       # $4 
     102                                path = url.path.gsub(%r{^/+|/+$}, '') # $7 
    101103 
    102104                                add_host(host, prefix) 
     
    106108 
    107109                                        p = path 
    108                                         re = %r[^(.*)[/\-\._](.*?)$] 
     110                                        re = %r[^(.*)[-_./](.*?)$] 
    109111                                        while re=~p 
    110112                                                p = $1 
  • platform/tdiary/plugin/spambayes.rb

    r6042 r6084  
    293293                token_list.uniq.each do |t| 
    294294                        k = case t 
    295                                 when /^A (.*)/ 
    296                                         :addr 
    297                                 when /^M (.*)/ 
    298                                         :mail 
    299                                 when /^N (.*)/ 
    300                                         :name 
    301                                 when /^R (.*)/ 
    302                                         :referer 
    303                                 when /^U (.*)/ 
    304                                         :url 
    305                                 else 
    306                                         :body 
    307                                 end 
     295                            when /^A (.*)/ 
     296                              :addr 
     297                            when /^M (.*)/ 
     298                              :mail 
     299                            when /^N (.*)/ 
     300                              :name 
     301                            when /^R (.*)/ 
     302                              :referer 
     303                            when /^U (.*)/ 
     304                              :url 
     305                            else 
     306                              :body 
     307                            end 
    308308 
    309309                        tl[k] ||= []