Integration of Solr with Hadoop

2014年5月25日星期日

筆記出清，研究到一半，然後要改用Elastricsearch了~:P

重點整理：

關於Solr over HDFS的歷史( Katta —> Blur )，不過Blur目前還是遇到許多問題，如： miss extra search feature
Cloudera search & Solr 有取用許多 Blur 的source code
SolBase (Slor + Hbase)
Hbase-3529 (Add search to HBase) —> Lucene-2312 Search on indexWrite’s RAM buffer
SOLR-1301 (Add a Solr contrib that allows for building Solr indexes via Hadoop's Map-Reduce)
SOLR-1045 (Build Solr index using Hadoop MapReduce)
Solr 靠的事 local file system cache，而 Blur 則是開發了 HdfsDirectory that works on top of a BlockDirectory ，如果Solr node 跟 HDFS data node 放在一起，當資料寫下去的時候主要還是寫到local copy ，這時才會另外replicate 兩份出去，除非遇到fair over 不然通常會使用local copy，就算真的要使用外面的replicate 也有block cache的機制，大概會損失10~15% 的效能。
另一種應用ngdata，利用Hbase Replicate 的機制，把另一份資料copy 到solr 去建立，詳情參考Cloudera Search