blog.Ring.idv.tw

Nutch - 打造一個屬於自己的搜尋引擎

Nutch - 打造一個屬於自己的搜尋引擎

首先請先至Nutch官網下載「nutch-0.9.tar.gz」~

安裝步驟

請先解壓縮「nutch-0.9.tar.gz」

tar zxvf nutch-0.9.tar.gz

然後建立一個爬行器的爬行清單檔案~ 這裡以筆者的部落格為範例:

cd nutch-0.9
echo http://blog.ring.idv.tw/index.ser > urls

修改「conf/crawl-urlfilter.txt」中的「MY.DOMAIN.NAME」改成下述:

+^http://([a-z0-9]*.)*ring.idv.tw/

修改「conf/nutch-site.xml」,加上一個「http.agent.name」的參數值:

<property>  
<name>http.agent.name</name>  
<value>crawler</value>  
</property>  

啟動Crawler開始抓網頁~ 預設啟動十個Thread來爬~

bin/nutch crawl urls -dir ring -depth 5 -topN 50 &

抓完網頁的相關資料並建立索引之後~ 就要開始部署搜尋引擎了~

請將「nutch-0.9.war」搬移至你JBossTomcat部署的資料夾下

mkdir nutch.war
mv nutch-0.9.war nutch.war
unzip nutch-0.9.war

修改「nutch.war/WEB-INF/classes/nutch-site.xml」,為它加上要搜尋的資料夾,也就是我們剛剛透過Crawler所建立的那些索引檔~

<property>  
<name>searcher.dir</name>  
<value>/usr/local/data/nutch-0.9/ring</value>  
</property>  

修改「server.xml」,如果你的環境是JBoss 4.2.2GA的話~ 請參考下述做法:

cd JBoss-4.2.2.GA/server/default/deploy/jboss-web.deployer
vi server.xml

找到「<Connector port="8080"」這一行,為它加上「URIEncoding="UTF-8" useBodyEncodingForURI="true"」即可~ 避免利用Get傳送方式導致編碼錯誤~

最後啟動你的JBoss來玩嚕~

參考資源

Nutch 笔记(一):Quick Start

Nutch 0.9 安裝心得(小攻略)

相關資源

Introduction to Nutch, Part 1: Crawling

Introduction to Nutch, Part 2: Searching

Nutch 笔记(二):Craw more urls and Recrawl

Nutch 初体验之二

2008-03-16 16:41:58

Leave a Comment

Copyright (C) Ching-Shen Chen. All rights reserved.

::: 搜尋 :::

::: 分類 :::

::: 最新文章 :::

::: 最新回應 :::

::: 訂閱 :::

Atom feed
Atom Comment