參考The First Class Integration of Solr with Hadoop 的投影片
筆記出清,研究到一半,然後要改用Elastricsearch了~:P
重點整理:
- 關於Solr over HDFS的歷史( Katta —> Blur ),不過Blur目前還是遇到許多問題,如: miss extra search feature
- Cloudera search & Solr 有取用許多 Blur 的source code
- SolBase (Slor + Hbase)
- Hbase-3529 (Add search to HBase) —> Lucene-2312 Search on indexWrite’s RAM buffer
- SOLR-1301 (Add a Solr contrib that allows for building Solr indexes via Hadoop's Map-Reduce)
- SOLR-1045 (Build Solr index using Hadoop MapReduce)
- Solr 靠的事 local file system cache,而 Blur 則是開發了 HdfsDirectory that works on top of a BlockDirectory ,如果Solr node 跟 HDFS data node 放在一起,當資料寫下去的時候主要還是寫到local copy ,這時才會另外replicate 兩份出去,除非遇到fair over 不然通常會使用local copy,就算真的要使用外面的replicate 也有block cache的機制,大概會損失10~15% 的效能。
- 另一種應用ngdata,利用Hbase Replicate 的機制,把另一份資料copy 到solr 去建立,詳情參考Cloudera Search
此外在Solr 與Hadoop 的整合上,有用到些技術和延伸出哪些專案呢?
- CDK Morphlines Tika Decompress
- NGDATA / hbase-indexer
- Lily HBase Indexer - indexing HBase, one row at a time
延伸閱讀:
[1] Running Solr on HDFS
沒有留言 :
張貼留言