ページ 11

日本語の検索がおかしい

Posted: 2009年8月24日(月) 08:50
by sama55
sodxさん、検索ボックスのビジュアル対応ありがとうございます。

これ、日本語の検索おかしいですよね(気付くのが遅くてすみません)。

ここ を見ると、phpbb3には日本語検索用MOD(Japanese search mod 1.1.1)が標準実装されてるようですが、それらしいものはなく"fulltext native"で検索されてる気がします。Japanese search mod 1.1.1をセットアップしてみます。

Re: 日本語の検索がおかしい

Posted: 2009年8月24日(月) 10:04
by sama55
sama55 さんが書きました:Japanese search mod 1.1.1をセットアップしてみます。
Japanese search mod 1.1.1をセットアップしました。良好な感触を得てます。

[設定仕様]
検索バックエンド : Fulltext native ja
インデックスエンジン: TinySegmenter ※Nativeより検索速度は劣るようですが”分かち書き”処理がこちらの方が直感的
全文検索 : あり
記事のインデクス化 : あり
インデクス(単語/語句)の最小文字数 : 2
インデクス(単語/語句)の最大文字数 : 15
検索インデックス : Fulltext native ja

Re: 日本語の検索がおかしい

Posted: 2009年8月24日(月) 12:29
by yama
これいいですね。デフォルトだと「活用」で検索すると「活 用」というふうになぜかスペースで分断されたりして、そのうち直さにゃいかんな・・と思いつつ腰が引けてましたw

今後のことで検討ですが、基本的にはGoogle CSEのほうが「大雑把な精度」は優れていると思います。直感的に「探してた情報はこれでしょ?」というのを引っ張ってくるのはさすがに専門。phpbbの検索機能は、検索エンジン側の「判断」を介しない「精密な検索」が必要な場合に引っ張ってこれるとよいかなと思います。そうやって使い分けるとサーバの負荷分散にもなるし。

Re: 日本語の検索がおかしい

Posted: 2009年8月24日(月) 14:43
by sama55
yama さんが書きました:今後のことで検討ですが、基本的にはGoogle CSEのほうが「大雑把な精度」は優れていると思います。直感的に「探してた情報はこれでしょ?」というのを引っ張ってくるのはさすがに専門。phpbbの検索機能は、検索エンジン側の「判断」を介しない「精密な検索」が必要な場合に引っ張ってこれるとよいかなと思います。そうやって使い分けるとサーバの負荷分散にもなるし。
Googleのカスタム検索ですか・・・どういうタイミング(頻度)で索引を作ってくれるのでしょうね。
記事が溜まる前に最速にもっていきたいですよね。サーバ上の検索エンジンとしては、Tritonnというのがえらく速いようですが共用サーバでは無理?サイトがでかくなるとエンジンの差し替えによる索引の再生成は大仕事(サーバ管理者に怒られる可能性も・・・)。やはりGoogle雲にお世話になるべきか・・・

Re: 日本語の検索がおかしい

Posted: 2009年8月25日(火) 14:05
by kazuike
phpBBの検索機能を確認したわけではありませんので、一般論として。
オープンソースシステムにおまけで付いている検索機能は、日本語で使うとかなり違和感を感じます。
単語の区切りや、かなの扱いが、欧米というか、コンピュータのデフォルトの文字処理と、日本語は全く違うので、ぴったりくるということは、あまり無いです。
また、日ごろ、GoogleやYahoo!のように、評価で結果の表示順が変わる検索に慣れていると、検索上位に来る結果が、全然的外れで、検索効率が非常に悪かったりします。
ですので、餅屋は餅屋、更新タイミングのずれのデメリットを考えても、Googleなど、それなりのサービスを使う方が良いと思います。

あと、もうひとつ、
外部から見えている(リンクされている)ページしか検索してくれないというのも、外部の検索サービスを使うメリットだったりします。
(内々で、ちょっとページを作って…、みたいなことをしてても大丈夫)

もちろん、サーバのリソースを使わないというのも、大きなメリットです。

Re: 日本語の検索がおかしい

Posted: 2009年8月25日(火) 14:19
by kazuike
検索ネタついでに、phpBBとは直接関係ないですが、
modxでは、FTPで直接アップした静的なページと共存できるので、そういった場合、内部の検索機能は使えませんね。
弊社では、たいていの場合、静的なページを共存させている(というか、こっちが多かったりする)ので、GoogleとかYahoo!とか、外部の検索サービスを使っています。

Re: 日本語の検索がおかしい

Posted: 2009年8月25日(火) 15:49
by sama55
悩みますねー

フォーラム内の作りに沿った絞込みは標準検索。検索精度や情報量、順序などはGoogle。それぞれ良い面と悪い面がありそうです。
私は、本家フォーラムのリニューアルと同時にGoogle検索がなくなったことが気になってます。
単に設置の仕方がまずかっただけかもしれませんが・・・

 ・表示される情報が多すぎる(デフォルトはフォーラムの外も含めてたのかなー)
 ・期待する順序で表示されない(順序性が指定できない)
 ・言語がごちゃまぜになる
 ・同じコンテンツが違う形式でダブる(これはきっとSMFの問題)

などの問題があった気がします。
設置してみないとはっきりした判断は下せないので、まずは「やってトライ」ですかね。

[2009.09.11 追記]
わかちがきの認識方法を改善(日本語専用検索ロジックを導入)。
Googleカスタム検索を導入 : 2.MODx関連情報検索