elasticsearch的python增删查改实例分析

痛定思痛。 2022-03-29 12:24 233阅读 0赞

Reference: http://bigg.top/2015/11/29/elasticsearch%E7%9A%84python%E5%A2%9E%E5%88%A0%E6%9F%A5%E6%94%B9%E5%AE%9E%E4%BE%8B%E5%88%86%E6%9E%90/

  • ES的部署请查看相关文档,我这里就不在赘叙。提醒,官方建议ES的在60G以上内存的环境下运行,如果你的服务器的内存是16G,建议至少需要4台机器。
  • ES连接到服务器比较容易,如下:






  1. import elasticsearch

    class ES(object):
    @classmethod
    def connect_host(cls):
    hosts=[{ host”: xx.xxx.x.xx”},
    { host”: xx.xxx.x.xx”},
    { host”: xx.xxx.x.xx”},
    { host”: xx.xxx.x.xx”},]
    es = elasticsearch.Elasticsearch(
    hosts,
    sniff_on_start=True,
    sniff_on_connection_fail=True,
    sniffer_timeout=600
    )
    return es

查询操作

  • 通过对RESTAPI的改造,可以很容易实现查询功能。如下,实现了对一个domain相关doc的查询,筛选条件包括起止时间,数据排列顺序和限制查询数据的个数。






  1. def es_query(domain=””, start=None, end=None, reverse=False, limit_cnt=20, category=0):
    es = ES.connect_host()
    now = datetime.datetime.now()
    if reverse:
    order = desc
    else:
    order = asc
    if not start:
    start = now - datetime.timedelta(weeks=2000)
    if not end:
    end = now
    range_body = {
    range”: {
    time”: {
    gte”: start,
    lte”: end
    }
    }
    }
    and_list = [range_body]
    domain_body = {
    term”: {
    domain”: domain
    }
    }
    category_body = {
    term”: {
    category”: category
    }
    }
    if domain:
    and_list.append(domain_body)
    if category:
    and_list.append(category_body)
    q_body = {
    size”: limit_cnt,
    sort”: [
    {
    time”: {
    order”: order
    }
    }
    ],
    query”: {
    filtered”: {
    query”: { matchAll”: {}},
    filter”: {
    and”: and_list
    }
    }
    }
    }
    res = es.search(body=q_body)
    ret = []
    for hit in res[hits”][hits”]:
    value = {}
    src = hit[_source”]
    if src:
    try:
    the_time = src[time”]
    if len(the_time) < 20:
    value[time”] = datetime.datetime.strptime(the_time, “%Y-%m-%dT%H:%M:%S”)
    else:
    value[time”] = datetime.datetime.strptime(the_time, “%Y-%m-%dT%H:%M:%S.%f”)
    ret.append(value)
    except Exception as e:
    print str(e)
    ret = []
    print Query xxxxx data failed!”
    return ret
  • 其中,reverse表示数据排列的顺序,linit_cnt表示限制数量。其中涉及range,sort,size,filter,and等来执行es.search操作。最后一个for循环是一个取数据的过程。
  • 在实际应用过程中,对于一个复杂的查询,第一次操作失败率很高,如果查询结果有几千个,第一次的query查询到的success个数通常只有1/3左右。当然,当你用该查询条件再次查询时,可以瞬间得到完全成功的结果,所以在你对查询成功个数要求比较高的情况下,建议多次发起请求,这样可以得到比较完整的结果。

删除操作

  • ES的查询分为按index删除和按doc删除。按index查询相对比较容易理解,即删除该索引下的所有数据,删除之后该索引就不存在了。但是有时我们会碰到一些按照doc的情况,即按照一定的query条件查询到相关的doc,然后删除相关的所有记录。ES官方不推荐进行这种操作,而且还有一定的失败率。如果一定需要这方面的功能,证明你的数据不适合用ES进行存储。
  • 由于我当时对ES的认识不够,把大量的数据存储在了ES,因此对doc的删除操作需求比较大,写了一个删除操作功能(仅供参考,不建议使用,如果需要删除,建议存储数据之前设计好数据结构,方便以index为单位删除)






  1. def es_delete(domain, m_type=xxxx”):
    m_data = {
    query”: {
    query_string”: {
    query”: domain: %s AND type: %s % (domain, m_type)
    }
    }
    }
    data = json.dumps(m_data)
    request = urllib2.Request(QUERY_URI, data)
    request.get_method = lambda: DELETE
    urllib2.urlopen(request)
    print Deleted the data!”

更新操作

  • ES不适合对大量的数据(doc)进行修改,与删除一样,这是官方极度不推荐的。当然,按照一定的查询条件更新某些doc也是可以实现的。如果你和我一样,遇到了比较极端的情形或是一个强迫症患者。请组合以上两个操作,写一个比较复杂的query执行删除操作,然后把新的数据(doc)插入到对应的索引和类型中。

插入操作

  • 插入操作是ES的最基本操作,ES提供了最基本的插入功能,ES入库时需要批量的插入操作。举个简单的插入操作例子:






  1. es = ES.connect_host()
    es.index(index=data_index, doc_type=xxxx”, body=data, request_timeout=10000)
  • 其中,index表示索引,doc_type表示数据类型,body表示具体的doc数据,最后一个参数表示超时时间。如果是日志文件或其它记录内容,建议index设置为时间或时间的组合体,如log_2015_11_29。数据类型即当前索引下数据的分类名称,可以把当前的数据按照不同的类型分类,同时也方便了查询,查询时可以很方便的过滤需要的类型。

相关参考

之前时间比较闲,翻译了部分与Python相关的ElasticSearch文档,如有疑问,欢迎回复评论,相互讨论学习。

  • ElasticSearch的优化方法
  • ElasticSearch的文档删除API
  • ElasticSearch通过查询删除文档的API
  • ElasticSearch的更新索引设置

发表评论

表情:
评论列表 (有 0 条评论,233人围观)

还没有评论,来说两句吧...

相关阅读

    相关 ElasticSearch5.X 增删

    ES支持近实时的索引、更新、查询、删除文档,近实时就意味着刚刚索引的数据需要1秒钟后才能搜索到,这也是与传统的SQL数据库不同的地方。 索引/替换文档 之前已经试过

    相关 Elasticsearch增删

    Elasticsearch的增删改查: 面向文档 document数据格式 1. 应用系统的数据结构都是面向对象的,复杂的 2. 对象数据存储到数据库中,只能拆

    相关 Elasticsearch增删

    面向文档 document数据格式 1. 应用系统的数据结构都是面向对象的,复杂的 2. 对象数据存储到数据库中,只能拆解开来,变为扁平的多张表,每次查询的时候还得