Elasticsearch/スキーマ設計の履歴(No.5)

履歴一覧
差分を表示
現在との差分を表示
ソースを表示
Elasticsearch/スキーマ設計へ行く。
- 1 (2016-06-10 (金) 10:48:47)
- 2 (2016-06-10 (金) 10:58:40)
- 3 (2016-06-13 (月) 11:45:05)
- 4 (2016-06-15 (水) 11:37:44)
- 5 (2016-06-15 (水) 18:04:04)
- 6 (2016-06-16 (木) 13:48:39)
- 7 (2016-06-20 (月) 02:13:25)

Indexやらanalyzerやらmappingやらのお話

analyzer
参考サイト

analyzer†

analyzerとはtokenizer,filterなどをひとまとまりに定義したもの。tokenizerはluceneのものもある

tokenizer一覧†

standard	一文字だけ
edgeNGram
nGram
simple	スペース区切り

↑

NGram Tokenizer†

nGram

↑

Whitespace Tokenizer†

空白区切り

↑

Pattern Tokenizer†

↑

Lowercase Tokenizer†

Letter Tokenizerの後にLower case Token Filterをかけたものと全く一緒だが、パフォーマンス場はこちらが有利。

↑

Letter Tokenizer†

テキストじゃない部分(空白やらピリオドやら)で分割する。ほとんどのヨーロッパ言語ではうまくいくがアジア系の言語だとひどいことになる。

↑

Keyword Tokenizer†

keywordが全入力を一つの単位として扱う。

kuromoji

日本語の形態素解析

↑

analyzerの挙動確認†

インデックスtestのデフォルトアナライザー

 curl 'localhost:9200/test/_analyze?pretty' -d 'こんにちは世界'

アナライザーの指定も可能

curl 'localhost:9200/test/_analyze?pretty=1&analyzer=my_ngram_analyzer' -d 'Database + fulltext=search'

↑

参考サイト†

↑

mapping†

↑

mappingの基礎†

UserAgentなどの用に空白で区切られた文字列をデフォルトで取り込むと解析されてしまい、ブラウザごとのシェアなどが正しく判定できない。全文一致のみ利用するのであればnot_analyzedを指定する。ただしそれだけだと今後は部分一致ができなくなるので部分一致用の設定も入れてあげる必要がある。Multi-Fieldと呼ばれていたが2.0以降ではやり方が違う。

フィールドごとに型定義をし、analyzerの設定も行う

"mappings": {
   "company": {
     "_source": {
       "enabled": true
     },
     "_all": {
       "enabled": true,
       "analyzer": "kuromoji_analyzer"
     },
     "properties": {
       "id": {
         "type": "integer",
         "index": "not_analyzed"
       },
       "name": {
         "type": "string",
         "index": "analyzed",
         "analyzer": "ngram_analyzer"
       },
       "location": {
         "type": "string",
         "index": "analyzed",
         "analyzer": "kuromoji_analyzer"
       }
     }
   },
   "project": {
     "_source": {
       "enabled": true
     },
     "_all": {
       "enabled": true,
       "analyzer": "kuromoji_analyzer"
     },
     "_parent": {
       "type": "company"
     },
     "properties": {
       "id": {
         "type": "integer",
         "index": "not_analyzed"
       },
       "title": {
         "type": "string",
         "index": "analyzed",
         "analyzer": "kuromoji_analyzer"
       }
     }
   }
 }

↑

参考サイト†

http://engineer.wantedly.com/2014/02/25/elasticsearch-at-wantedly-1.html

Counter: 3190, today: 1, yesterday: 1

Elasticsearch/スキーマ設計 の履歴(No.5)

analyzer†

tokenizer一覧†

NGram Tokenizer†

Whitespace Tokenizer†

Pattern Tokenizer†

Lowercase Tokenizer†

Letter Tokenizer†

Keyword Tokenizer†

analyzerの挙動確認†

参考サイト†

mapping†

mappingの基礎†

参考サイト†

Elasticsearch/スキーマ設計の履歴(No.5)