blog.Ring.idv.tw

Katta - distribute lucene indexes in a grid

Katta - distribute lucene indexes in a grid


在資訊檢索的領域中~ 「Lucene」算是表現最為突出的一個全文檢索函式庫,想當然~ 本站的搜尋功能就是用「Lucene」來建構的~

不過~ 雖然Lucene相當好用~ 但... 如果「index」太大呢?或者「index」比一整顆硬碟還大呢?是否需要負載平衡來分散處理?...

Katta」就是要改善這樣的問題~ 所以它系建構在「Hadoop」和「Zookeeper」之上~ 採用「Apache Version 2 License」,並在今年的9月17日釋出了「katta-0.1.0」版~

上圖就是我在Cygwin的環境下照著「katta : Getting started」所跑出來的測試結果~ 總之又是一個值得關注的Project~ 期待它能隨著Zookeeper的腳步加入Apache的計畫之下~

katta是什麼呢?

環尾狐猴

相關資源

How Katta works.

Install and configure Katta

find23.net: katta-overview(pdf)

find23.net: katta, pig and hadoop in production - experience report slides

2008-09-29 19:11:27

2 comments on "Katta - distribute lucene indexes in a grid"

  1. 1. who am i 說:

    但是 Doug Cutting 有負責另一個類似的項目 Bailey
    不知道差別在哪裡
    台灣還蠻少人關注這個項目的,反倒是對岸的資訊比較多。
    我這邊有做用 Hadoop M/R 來建立 index(100G)
    另外有實作分散搜尋的 Lucene
    Zookeeper 的部分還在想要怎麼整合進來

    而另外 Hadoop 的唯一 NameNode 是企業應用上 HA 必須解決的問題,目前還在想辦法整合中。
    有機會可以討論討論。

    2008-10-21 14:27:37

  2. 2. Shen 說:

    Bailey Project到目前為止還沒有任何的釋出動作,我也不曉得它還有沒有持續在進行~

    另外就我目前所知道的,NameNode仍然是SPOF,至於實際整合Zookeeper,我手邊目前沒有可以讓我玩的機器,所以我也還沒試過,有機會可以保持分享討論!謝謝。

    2008-10-22 01:28:54

Leave a Comment

Copyright (C) Ching-Shen Chen. All rights reserved.

::: 搜尋 :::

::: 分類 :::

::: Ads :::

::: 最新文章 :::

::: 最新回應 :::

::: 訂閱 :::

Atom feed
Atom Comment