Python数据分析实战:降雨量统计分析报告分析

Bertha 。 2023-01-03 04:46 235阅读 0赞

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

以下文章来源于菜J学Python ,作者小小明

最近遇到一个有点烧脑的需求,其实也不算烧脑,主要是判断条件过多,对于我这种记忆力差,内存小的人来说容易出现内存溢出导致大脑宕机。也可能是因为我还没有找到能减小大脑内存压力的方法。

先看看需求吧:

Python数据分析实战:降雨量统计分析报告分析

主要就是要根据左侧的表格自动生成右侧的Word统计报告,实际的各种可能性情况远比图中展示的要更加复杂。

好了,直接开始干代码吧!

1数据读取

  1. import pandas as pd
  2. df = pd.read_csv("11月份数据.csv", encoding='gbk')
  3. # 当前统计月份
  4. month = 11
  5. df = df.query('月份==@month')
  6. df.head(10)

预览数据:

Python数据分析实战:降雨量统计分析报告分析

2异常数据过滤

查看缺失值数量:

  1. pd.isnull(df).sum()

结果:

  1. 区域 0
  2. 月份 0
  3. 降雨量(mm) 0
  4. 降雨距平(mm) 1
  5. 观测站 0
  6. dtype: int64

仅一个缺失值数据,可直接删除:

  1. df.dropna(inplace=True)

3计算观测站降雨量相对往年的变化

计算降雨量比往年高,跟往年比无变化,以及比往年低的次数分别是多少:

  1. rainfall_high = df.eval('`降雨距平(mm)` > 0').value_counts().get(True, 0)
  2. rainfall_equal = df.eval('`降雨距平(mm)` == 0').value_counts().get(True, 0)
  3. rainfall_low = df.eval('`降雨距平(mm)` < 0').value_counts().get(True, 0)
  4. print(rainfall_high, rainfall_equal, rainfall_low)
  5. 13 1 18

上面的结果中rainfall_high表示降雨量比往年平均水平高的次数,rainfall_equal表示降雨量比往年平均水平持平的次数,rainfall_low表示降雨量比往年平均水平低的次数。

于是分情况讨论生成第一段的报告:

  1. p1 = f"{month}月份"
  2. if rainfall_low == 0 or rainfall_high == 0:
  3. if rainfall_equal != 0:
  4. p1 += f"除{rainfall_equal}个观测站降雨量较往年无变化外,"
  5. if rainfall_high == 0:
  6. p1 += f"各气象观测站降雨量较往年均偏低。"
  7. elif rainfall_low == 0:
  8. p1 += f"各气象观测站降雨量较往年均偏高。"
  9. else:
  10. # 10%以内差异认为是持平
  11. if rainfall_high > rainfall_low*1.1:
  12. p1 += f"大部分气象观测站降雨量较往年偏高。"
  13. elif rainfall_low > rainfall_high*1.1:
  14. p1 += f"大部分气象观测站降雨量较往年偏低。"
  15. else:
  16. p1 += f"各气象观测站降雨量较往年整体持平。"
  17. p1

结果:

  1. '11月份大部分气象观测站降雨量较往年偏低。'

4计算各区域降雨量的极值

再生成第二段的报告:

  1. p2 = ""
  2. t = df['降雨量(mm)']
  3. p2 += f"各区域降雨量在{t.min()}~{t.max()}mm之间,其中{df.loc[t.argmax(), '区域']}区域的降雨量最大,为{t.max()}mm。"
  4. p2

结果:

  1. '各区域降雨量在0.0~16.0mm之间,其中51a45区域的降雨量最大,为16.0mm。'

5分观测站统计

让我脑袋疼的地方就是从这里的代码开始的,后面还有更复杂的需求就不公布了。

对每个观测站分别统计哪些区域偏高,哪些区域持平,哪些区域偏低:

  1. p3s = []
  2. for station, tmp in df.groupby('观测站'):
  3. t = tmp['降雨量(mm)']
  4. p3 = f"各区域降雨量在{t.min()}~{t.max()}mm之间,"
  5. rainfall_high_mask = tmp.eval('`降雨距平(mm)` > 0')
  6. rainfall_equal_mask = tmp.eval('`降雨距平(mm)` == 0')
  7. rainfall_low_mask = tmp.eval('`降雨距平(mm)` < 0')
  8. rainfall_high = rainfall_high_mask.value_counts().get(True, 0)
  9. rainfall_equal = rainfall_equal_mask.value_counts().get(True, 0)
  10. rainfall_low = rainfall_low_mask.value_counts().get(True, 0)
  11. # print(rainfall_high, rainfall_equal, rainfall_low)
  12. if rainfall_low == 0 or rainfall_high == 0:
  13. if rainfall_equal != 0:
  14. p3 += '除'
  15. p3 += '、'.join(tmp.loc[rainfall_equal_mask, '区域']+'区域')
  16. p3 += "降雨量较往年无变化外,"
  17. if rainfall_high == 0:
  18. p3 += f"各区域降雨量均较往年偏低"
  19. elif rainfall_low == 0:
  20. p3 += f"各区域降雨量均较往年偏高"
  21. t = tmp['降雨距平(mm)'].abs()
  22. p3 += f"{t.min()}~{t.max()}mm;"
  23. else:
  24. if rainfall_equal != 0:
  25. p3 += '除'
  26. p3 += '、'.join(tmp.loc[rainfall_equal_mask, '区域']+'区域')
  27. p3 += "降雨量较往年无变化,"
  28. # 10%以内差异认为是持平
  29. if rainfall_high > rainfall_low*1.1:
  30. if rainfall_equal == 0:
  31. p3 += '除'
  32. p3 += '、'.join(tmp.loc[rainfall_low_mask, '区域']+'区域')
  33. p3 += "降雨量较往年偏低"
  34. t = tmp.loc[rainfall_low_mask, '降雨距平(mm)'].abs()
  35. if t.shape[0] > 1:
  36. p3 += f"{t.min()}~{t.max()}mm"
  37. else:
  38. p3 += f"{t.min()}mm"
  39. p3 += "外,"
  40. t = tmp.loc[rainfall_high_mask, '降雨距平(mm)'].abs()
  41. p3 += f"其余各区域降雨量较往年偏高{t.min()}~{t.max()}mm;"
  42. elif rainfall_low > rainfall_high*1.1:
  43. if rainfall_equal == 0:
  44. p3 += '除'
  45. p3 += '、'.join(tmp.loc[rainfall_high_mask, '区域']+'区域')
  46. p3 += "降雨量较往年偏高"
  47. t = tmp.loc[rainfall_high_mask, '降雨距平(mm)'].abs()
  48. if t.shape[0] > 1:
  49. p3 += f"{t.min()}~{t.max()}mm"
  50. else:
  51. p3 += f"{t.min()}mm"
  52. p3 += "外,"
  53. t = tmp.loc[rainfall_low_mask, '降雨距平(mm)'].abs()
  54. p3 += f"其余各区域降雨量较往年偏低{t.min()}~{t.max()}mm;"
  55. else:
  56. if rainfall_equal != 0:
  57. p3 = p3[:-1]+'外,'
  58. p3 += f"各区域降雨量较往年偏高和偏低的数量持平,其中"
  59. p3 += '、'.join(tmp.loc[rainfall_low_mask, '区域']+'区域')
  60. p3 += "降雨量较往年偏低"
  61. t = tmp.loc[rainfall_low_mask, '降雨距平(mm)'].abs()
  62. if t.shape[0] > 1:
  63. p3 += f"{t.min()}~{t.max()}mm,"
  64. else:
  65. p3 += f"{t.min()}mm,"
  66. p3 += '、'.join(tmp.loc[rainfall_high_mask, '区域']+'区域')
  67. p3 += "降雨量较往年偏高"
  68. t = tmp.loc[rainfall_high_mask, '降雨距平(mm)'].abs()
  69. if t.shape[0] > 1:
  70. p3 += f"{t.min()}~{t.max()}mm;"
  71. else:
  72. p3 += f"{t.min()}mm;"
  73. p3s.append([station, p3])
  74. p3s[-1][-1] = p3s[-1][-1][:-1]+"。"
  75. p3s

可能是我还没有想出较好的封装方式导致代码变得这么复杂,如果有巧妙解决这个问题的朋友,希望能够加菜J学Python交流群一起探讨。

6将组织好的文本写入到word中

Word模板文件docxtemplate.docx的内容:

  1. 一、{
  2. { month }}月各气象观测站降雨量实况
  3. (一)降水
  4. {
  5. { p1 }}
  6. {
  7. { p2 }}
  8. {%p for station,p3 in p3s %}
  9. {
  10. { station }}:{
  11. { p3 }}
  12. {%p endfor %}

即:

Python数据分析实战:降雨量统计分析报告分析

Python渲染代码:

  1. from docxtpl import DocxTemplate
  2. tpl = DocxTemplate("docxtemplate.docx")
  3. context = {
  4. 'month': month,
  5. 'p1': p1,
  6. 'p2': p2,
  7. 'p3s': p3s,
  8. }
  9. tpl.render(context)
  10. tpl.save("11月降雨量报告.docx")

执行完毕,得到Word统计分析报告:

Python数据分析实战:降雨量统计分析报告分析

发表评论

表情:
评论列表 (有 0 条评论,235人围观)

还没有评论,来说两句吧...

相关阅读

    相关 Python数据分析面试实战

    ya~老amy来了,今儿给大家分享一个朋友面试数据分析的实战项目,建议大家也可以独立的做一做。 需求如下: ![在这里插入图片描述][watermark_type_ZmF

    相关 数据分析报告

    很多人在写数据分析报告的时候,往往更关注如何将报告做的更美观,例如:做漂亮的可视化图表,做很炫的PPT等。但当别人看你做的数据分析报告的时候,往往更关注这个报告对他是否有价值?