apache lucene-建立自己的搜尋引擎-索引檔

apachelucene是一套opensource的Search-Engine,搜尋效果比直接使用資料庫條件like還要來的好,而且也不會佔用到資料庫的資源,只需要使用到硬碟的IO,所以可以把搜尋引擎另外做到另一個硬碟,或是放到另一台主機上,單獨成搜尋引擎Server,設計成Multi-Tires架構。

在使用apache lucene時,需要先把資料建立成索引檔,搜尋時則直接取用索引資料,來加快查詢的速度,不同類型的資料可以依需求建立成不同的搜尋索引檔,以下範例是如何建立一組索引檔。

索引檔內容如下圖:




需要使用到的jar classpath為lucene-x.x.x.jar,可由官網下載,此範例使用2.3版本,新版本可能用法會不太一樣,如果需要中文的切詞器,可以找到庖丁解字這個opensource的framework。

原始碼如下:

如此就可以在d:\index看到索引資料檔。

One comment on “apache lucene-建立自己的搜尋引擎-索引檔

4 Pings/Trackbacks 於 "apache lucene-建立自己的搜尋引擎-索引檔"

  1. [...] 搜尋引擎最重要的功能就是查詢資料了,當建立好索引檔後,就可以針對索引檔內容進行查詢,索引資料可分為有做分詞及未做分詞,未做分詞的索引資料,只有全部內容均相同才會找到此筆資料,有做分詞者,則依分詞類型,可能有單字索引,雙字索引或中文字詞索引等,索引做的越好,搜尋到的資料會越精準。 [...]

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *

*