apache lucene-取得html內容建立索引檔

之前有介紹過怎麼讀取檔案來製作lucene的索引檔,這裡再提供另一個類似的方法,先從網路上取得網頁的html內容,有點像網路的爬蟲,爬取資料後再來建立索引檔。

程式有簡單的html資料取得的方式,需要更進階的方法可以參考URLConnection來實作get及post動作這一篇。

原始碼如下:

取得網頁資料建立索引內容




另外寫一個搜尋程式,來查詢剛才建立的索引內容,比較詳細的說明可以參考apache lucene建立搜尋




2 comments on “apache lucene-取得html內容建立索引檔

  1. 分詞修改有些問題想請教您
    我有使用您網站上面的教學
    為標準分詞器
    現在我想自己加索引不知道該怎麼去增加且修改

    是否能夠看到下面兩個例子的表格顯示???
    ----------------------------------------------------
    索引資料
    例:

    filename Content time

    http://www.sju.edu.tw 聖約翰科技大學 2011/06/05

    ----------------------------------------------------------

    權重
    例:

    字彙 數量

    聖 2
    約 1
    翰 5
    是 10

    ----------------------------------------------------------

發表迴響