Python我们做数据分析的时候有时候获得数据是txt文件,这时候我们该怎么办呢?下面我给大家教一下这时候应该怎么做?
1.读取txt数据查看:我们就可以看到使用逗号隔开的数据。
""" 读取数据,查看数据 """
f_path=r'D:\\Python\\airpm25.txt'
with open(f_path,encoding = "UTF-8") as f:
data=f.read()
print(data)
运行结果:
2.将txt文件转换为xlsx文件,方便后面数据分析等操作
""" 将txt数据转换为xls(表格)文件,方便后面做数据分析 """
# -*- encoding: utf-8 -*-
import xlwt #需要的模块
def txt_xls(filename,xlsname):
#文本转换成xls的函数
#param filename txt文本文件名称、
#param xlsname 表示转换后的excel文件名
try:
f = open(r"D:\\Python\\airpm25.txt",encoding = "UTF-8")
xls=xlwt.Workbook()
#生成excel的方法,声明excel
sheet = xls.add_sheet('sheet1',cell_overwrite_ok=True)
x = 0
while True:
#按行循环,读取文本文件
line = f.readline()
if not line:
break #如果没有内容,则退出循环
for i in range(len(line.split(','))):
item=line.split(',')[i]
sheet.write(x,i,item) #x单元格经度,i 单元格纬度
x += 1 #excel另起一行
f.close()
xls.save(xlsname) #保存xls文件
except:
raise
if __name__ == "__main__" :
filename = "D:\\Python\\airpm25.txt"
xlsname = "D:\\Python\\data12.xlsx"
txt_xls(filename,xlsname)
转换完成,就会看到一个文件。
3.读取excel文件
#数据读取查看功能
import pandas as pd
data = pd.read_excel(r"D:\\Python\\data12.xlsx")
data.head()
读取文件:
4.我们看到上面的表格没有列名,第一行默认为列名了,我们如果做数据分析是不是很不方便,就需要我们添加一个标题,这时候应该怎么办呢?
import pandas as pd
df = pd.DataFrame(pd.read_excel('D:\\Python\\data12.xlsx'))
df.columns = ["ID", "PM", "city", "region"]
df.head()
运行结果:
5.数据筛选
a =df.loc[df['city'] =="合肥”]
print(a)
6.画柱状图
import matplotlib.pyplot as plt
plt.bar(a.region,a.PM,color = 'blue')
plt.rcParams['font.sans-serif']=['SimHei'] #显示中文标签
plt.rcParams['axes.unicode_minus']=False #解决负号“-”显示为方块的问题
plt.title("合肥PM2.5指数")
plt.xlabel("地区")
plt.ylabel("Pm2.5指数")
plt.show()
做数据Fenix会用到这些基础知识和极容易遇上这些错误。欢迎大家评论补充!