2014年5月25日 星期日

Integration of Solr with Hadoop


參考The First Class Integration of Solr with Hadoop 的投影片






筆記出清,研究到一半,然後要改用Elastricsearch了~:P



重點整理:
  • 關於Solr over HDFS的歷史( Katta —> Blur ),不過Blur目前還是遇到許多問題,如: miss extra search feature
  • Cloudera search & Solr 有取用許多 Blur 的source code
  • SolBase (Slor + Hbase)
  • Hbase-3529 (Add search to HBase) —> Lucene-2312 Search on indexWrite’s RAM buffer
  • SOLR-1301 (Add a Solr contrib that allows for building Solr indexes via Hadoop's Map-Reduce)
  • SOLR-1045 (Build Solr index using Hadoop MapReduce)
  • Solr 靠的事 local file system cache,而 Blur 則是開發了 HdfsDirectory that works on top of a BlockDirectory ,如果Solr node 跟 HDFS data node 放在一起,當資料寫下去的時候主要還是寫到local copy ,這時才會另外replicate 兩份出去,除非遇到fair over 不然通常會使用local copy,就算真的要使用外面的replicate 也有block cache的機制,大概會損失10~15% 的效能。
  • 另一種應用ngdata,利用Hbase Replicate 的機制,把另一份資料copy 到solr 去建立,詳情參考Cloudera Search



此外在Solr 與Hadoop 的整合上,有用到些技術和延伸出哪些專案呢?


延伸閱讀:

[1] Running Solr on HDFS





張貼留言