代码
我们提供的服务有:网站设计制作、成都网站制作、微信公众号开发、网站优化、网站认证、西华ssl等。为成百上千家企事业单位解决了网站和推广的问题。提供周到的售前咨询和贴心的售后服务,是有科学管理、有技术的西华网站制作公司
我们在Jupyter Notebook中新建一个Python 2笔记本,起名为topic-model。
为了处理表格数据,我们依然使用数据框工具Pandas。先调用它。
import pandas as pd
然后读入我们的数据文件datascience.csv,注意它的编码是中文GB18030,不是Pandas默认设置的编码,所以此处需要显式指定编码类型,以免出现乱码错误。
df = pd.read_csv("datascience.csv", encoding='gb18030')
我们来看看数据框的头几行,以确认读取是否正确。
df.head()
显示结果如下:
没问题,头几行内容所有列都正确读入,文字显式正常。我们看看数据框的长度,以确认数据是否读取完整。
df.shape
执行的结果为:
(1024, 3)
行列数都与我们爬取到的数量一致,通过。
下面我们需要做一件重要工作——分词。这是因为我们需要提取每篇文章的关键词。而中文本身并不使用空格在单词间划分。
我们首先调用jieba分词包。
import jieba
我们此次需要处理的,不是单一文本数据,而是1000多条文本数据,因此我们需要把这项工作并行化。这就需要首先编写一个函数,处理单一文本的分词。
def chinese_word_cut(mytext):
return " ".join(jieba.cut(mytext))
有了这个函数之后,我们就可以不断调用它来批量处理数据框里面的全部文本(正文)信息了。你当然可以自己写个循环来做这项工作。
下面这一段代码执行起来,可能需要一小段时间。请耐心等候。
df["content_cutted"] = df.content.apply(chinese_word_cut)
执行过程中可能会出现如下提示。没关系,忽略就好。
Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/8s/k8yr4zy52q1dh107gjx280mw0000gn/T/jieba.cache
Loading model cost 0.406 seconds.
Prefix dict has been built succesfully.
执行完毕之后,我们需要查看一下,文本是否已经被正确分词。
df.content_cutted.head()
一、python的错误处理:
在程序运行的过程中,如果发生了错误,可以事先约定返回一个错误代码,这样,就可以知道是否有错以及出错的原因。
在操作系统提供的调用中,返回错误码非常常见。比如打开文件的函数open(),成功时返回文件的描述符(就是一个整数),出错时返回-1用错误码来表示是否出错十分不便,因为函数本身应该返回的正常结果和错误码混在一起,造成调用者必须大量的代码来判断是否出错:def foo():
r = somefunction() if r == (-1): return (-1) return rdef bar():
r = foo() if r == (-1): print("Error") else: pass一旦出错,还要一级一级上报,直到某个函数可以处理该错误(比如,给用户输出一个错误信息)
所以,高级语言通常都内置了一套try...except...finally...的错误处理机制,python也不例外。try
让我们用一个例子来看看try的机制try: print("try....")
r = 10 / 0 print("result", r)except ZeroDivisionError as e: print("except:", e)finally: print("finally...")print("END....")
当我们认为某些代码可能会出错时,就可以用try来运行这段代码,如果执行出错,则后续代码不会继续执行
而是直接跳转至错误处理代码,即except语句块
执行完except后,如果有finally语句块,则执行finally语句块,至此,执行完毕。
上面的代码在计算10 / 0时 会产生一个除法运算错误:try....except: division by zerofinally...
END....从输出可以看到,当错误发生时,后续语句print("result:", r)不会被执行,except由于捕获到ZeroDivisionError因此被执行。
最后,finally语句被执行。然后,程序继续按照流程往下走。
如果把除数0 变成2,则执行结果如下try....
result 5.0finally...
END....由于没有错误发生,所以except语句块不会被执行,但是finally如果有则一定会被执行,当然finally也可以没有
你还可以猜测,错误应该有很多种类,日过发生了不同类型的错误,应该由不同的except语句块处理。
没错,可以有多个except来捕获不同类型的错误:try: print("try.....")
r = 10 / int("a") print("result:", r)except ValueError as e: print("ValueError:", e)except ZeroDivisionError as e: print("ZeroDivisionError:", e)finally: print("finally...")print("END...")
int()函数可能会抛出ValueError,所以我们用一个except捕获ValueError,用另一个except捕获ZeroDivisionError
此外,如果没有错误发生,可以再except语句块后面加一个else,当没有错误发生时,会自动执行else语句。try: print("try...")
r = 10 / int("2") print("result:", r)except ValueError as e: print("ValueError:", e)except ZeroDivisionError as e: print("ZeroDivisionError:", e)else: print("No error!")finally: print("finally...")print("END")
python的错误其实也是class,所有的错误类型都继承自BaseException,
所以在使用except时需要注意的是,它不但捕获该类型的错误,还把其子类也“一网打尽”。
比如:try:
foo()except ValueError as e: print("ValueError")except UnicodeError as e: print("UnicodeError")
第二个except永远也捕获不到UnicodeError, 因为UnicodeError是ValueError的子类
如果有,也是被第一个except给捕获了。
python所有的错误都是BaseException类派生的。
所有常见的错误类型和继承关系看这里:
使用try...exccept捕获错误还有一个巨大的好处,就是可以跨越多层调用,比如函数main()调用foo()
foo()调用bar(),结果bar()出错了,这时,只要main()捕获到了,就可以处理:def foo(s): return 10 / int(s)def bar(s): return foo(s) * 2def main(): try:
bar("0") except Exception as e: print("Error:", e) finally: print("finally...")
也就是说,不需要在每个可能出错的地方去捕获异常,只要在合适的层次去捕获就可以了。
这样一来,就大大减少了写 try...except...finally的麻烦。
二、调用堆栈
如果错误没有被捕获,他就会一直往上抛,最后被python解释器捕获,打印一个错误信息,然后程序退出。def foo(s): return 10 / int(s)def bar(s): return foo(s) * 2def main():
bar("0")
main()
执行结果为:
Traceback (most recent call last):
File "C:/Python36/test.py", line 10, in module
main()
File "C:/Python36/test.py", line 8, in main
bar("0")
File "C:/Python36/test.py", line 5, in bar return foo(s) * 2
File "C:/Python36/test.py", line 2, in foo return 10 / int(s)
ZeroDivisionError: division by zero
出错并不可怕,可怕的时不知道哪里出错了。解读错误信息时定位错误的关键。
我们从上往下可以看到整个错误的调用函数链。
错误第一行:
Traceback (most recent call last):
这告诉我们的是错误的跟踪信息。
File "C:/Python36/test.py", line 10, in module main()
说明调用main()出错了,在代码文件test.py中第10行,但是原因是第8行:
File"C:/Python36/test.py", line8, in main
bar("0")
调用bar("0")出错了,在代码文件test.py中第8行,但原因是第5行:
File"C:/Python36/test.py", line5, in barreturn foo(s) * 2调用return foo(s) * 2时出错了,在test.py中第5行,但原因是第2行
File "C:/Python36/test.py", line 2, in foo return 10 / int(s)
ZeroDivisionError: division by zero
这时我们找到了源头,原来在第2行调用return 10 / int(s)出错了,错误为ZeroDivisionError
三、记录错误
如果不捕获错误,自然可以让python解释器来打印出错误堆栈,但是程序也被结束了。
既然我们能捕获错误,就可以把错误堆栈打印出来,然后分析错误原因,同时,让程序继续执行下去。
python内置的logging模块可以非常容易地记录错误信息:import loggingdef foo(s): return 10 / int(s)def bar(s): return foo(s) * 2def main(): try:
bar("0") except Exception as e:
logging.exception(e)
main()print("END")
输出结果为:
ERROR:root:division by zero
Traceback (most recent call last):
File "C:/Python36/test.py", line 12, in main
bar("0")
File "C:/Python36/test.py", line 8, in bar return foo(s) * 2
File "C:/Python36/test.py", line 5, in foo return 10 / int(s)
ZeroDivisionError: division by zero
END
同样是出错,但程序打印完错误信息后会继续执行,并正常退出。
通过配置,logging还可以把错误记录到日志文件里,方便事后排查。
四、抛出错误
因为错误是class,捕获一个错误就是捕获到该class的一个实例。
因此,错误并不是凭空产生的,而是有意创建并抛出的。
python的内置函数会抛出很多类型的错误,我们自己编写的函数也可以抛出错误。
如果要抛出错误,首先根据需要,可以定义一个错误的class,选择好继承关系,然后用raise语句抛出一个错误的实例:class FooError(ValueError): passdef foo(s):
n = int(s) if n == 0: raise FooError("invalid value: %s" % s) return 10 / n
foo("0")
输出结果:
Traceback (most recent call last):
File "C:/Python36/test.py", line 10, in module
foo("0")
File "C:/Python36/test.py", line 7, in foo raise FooError("invalid value: %s" % s)
FooError: invalid value: 0
只有在必要的时候才定义我们自己的错误类型。
如果可以选择python已有的内置错误类型(比如ValueError, TypeError),尽量使用python内置的错误类型。
最后,我们来看另一种错误处理方式:def foo(s):
n = int(s) if n == 0: raise ValueError("invalid value: %s" % s) return 10 / ndef bar(): try:
foo("0") except ValueError as e: print("ValieError") raisebar()
在bar()函数中,我们明明已经捕获了错误,但是,打印一个ValueError之后
又通过raise语句抛出去了。这不是有病吗
其实,这种错误处理方式不但没病,而且相当常见。
捕获错误目的只是记录一下,便于或许追踪。
但是,由于当前函数不知道应该怎么处理该错误,所以,最恰当的方式是继续往上抛,让顶层调用者去处理。
好比一个员工处理不了一个问题时,就把问题一直往上抛,最终会抛给CEO去解决。
注意:raise语句如果不带参数,就会把当前错误原样抛出。
此外,在except中raise一个Error,还可以改写错误类型try: 10 / 0except ZeroDivisionError: raise ValueError("do not input zero!")
输出结果:
Traceback (most recent call last):
File "C:/Python36/test.py", line 4, in module raise ValueError("do not input zero!")
ValueError: do not input zero!只要是合理的转换逻辑就可以,但是,绝不应该把一个IOError转成毫不相干的valueError.
总结:
python内置的 try...except...finally 用来处理错误十分方便。
出错时,会分析错误信息并定位错误发生的代码位置才是关键的。
程序也可以主动抛出错误,让调用者来处理相应的错误。
但是应该在文档中写清楚可能会抛出哪些错误,以及错误产生的原因。
在Python中,pandas是基于NumPy数组构建的,使数据预处理、清洗、分析工作变得更快更简单。pandas是专门为处理表格和混杂数据设计的,而NumPy更适合处理统一的数值数组数据。
使用下面格式约定,引入pandas包:
pandas有两个主要数据结构:Series和DataFrame。
Series是一种类似于一维数组的对象,它由 一组数据 (各种NumPy数据类型)以及一组与之相关的 数据标签(即索引) 组成,即index和values两部分,可以通过索引的方式选取Series中的单个或一组值。
pd.Series(list,index=[ ]) ,第二个参数是Series中数据的索引,可以省略。
Series类型索引、切片、运算的操作类似于ndarray,同样的类似Python字典类型的操作,包括保留字in操作、使用.get()方法。
Series和ndarray之间的主要区别在于Series之间的操作会根据索引自动对齐数据。
DataFrame是一个表格型的数据类型,每列值类型可以不同,是最常用的pandas对象。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。DataFrame中的数据是以一个或多个二维块存放的(而不是列表、字典或别的一维数据结构)。
pd.DataFrame(data,columns = [ ],index = [ ]) :columns和index为指定的列、行索引,并按照顺序排列。
如果创建时指定了columns和index索引,则按照索引顺序排列,并且如果传入的列在数据中找不到,就会在结果中产生缺失值:
数据索引 :Series和DataFrame的索引是Index类型,Index对象是不可修改,可通过索引值或索引标签获取目标数据,也可通过索引使序列或数据框的计算、操作实现自动化对齐。索引类型index的常用方法:
重新索引 :能够改变、重排Series和DataFrame索引,会创建一个新对象,如果某个索引值当前不存在,就引入缺失值。
df.reindex(index, columns ,fill_value, method, limit, copy ) :index/columns为新的行列自定义索引;fill_value为用于填充缺失位置的值;method为填充方法,ffill当前值向前填充,bfill向后填充;limit为最大填充量;copy 默认True,生成新的对象,False时,新旧相等不复制。
删除指定索引 :默认返回的是一个新对象。
.drop() :能够删除Series和DataFrame指定行或列索引。
删除一行或者一列时,用单引号指定索引,删除多行时用列表指定索引。
如果删除的是列索引,需要增加axis=1或axis='columns'作为参数。
增加inplace=True作为参数,可以就地修改对象,不会返回新的对象。
在pandas中,有多个方法可以选取和重新组合数据。对于DataFrame,表5-4进行了总结
适用于Series和DataFrame的基本统计分析函数 :传入axis='columns'或axis=1将会按行进行运算。
.describe() :针对各列的多个统计汇总,用统计学指标快速描述数据的概要。
.sum() :计算各列数据的和
.count() :非NaN值的数量
.mean( )/.median() :计算数据的算术平均值、算术中位数
.var()/.std() :计算数据的方差、标准差
.corr()/.cov() :计算相关系数矩阵、协方差矩阵,是通过参数对计算出来的。Series的corr方法用于计算两个Series中重叠的、非NA的、按索引对齐的值的相关系数。DataFrame的corr和cov方法将以DataFrame的形式分别返回完整的相关系数或协方差矩阵。
.corrwith() :利用DataFrame的corrwith方法,可以计算其列或行跟另一个Series或DataFrame之间的相关系数。传入一个Series将会返回一个相关系数值Series(针对各列进行计算),传入一个DataFrame则会计算按列名配对的相关系数。
.min()/.max() :计算数据的最小值、最大值
.diff() :计算一阶差分,对时间序列很有效
.mode() :计算众数,返回频数最高的那(几)个
.mean() :计算均值
.quantile() :计算分位数(0到1)
.isin() :用于判断矢量化集合的成员资格,可用于过滤Series中或DataFrame列中数据的子集
适用于Series的基本统计分析函数,DataFrame[列名]返回的是一个Series类型。
.unique() :返回一个Series中的唯一值组成的数组。
.value_counts() :计算一个Series中各值出现的频率。
.argmin()/.argmax() :计算数据最大值、最小值所在位置的索引位置(自动索引)
.idxmin()/.idxmax() :计算数据最大值、最小值所在位置的索引(自定义索引)
pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。下表对它们进行了总结,其中read_csv()、read_table()、to_csv()是用得最多的。
在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载、清理、转换以及重塑。
在许多数据分析工作中,缺失数据是经常发生的。对于数值数据,pandas使用浮点值NaN(np.nan)表示缺失数据,也可将缺失值表示为NA(Python内置的None值)。
替换值
.replace(old, new) :用新的数据替换老的数据,如果希望一次性替换多个值,old和new可以是列表。默认会返回一个新的对象,传入inplace=True可以对现有对象进行就地修改。
删除重复数据
利用函数或字典进行数据转换
df.head():查询数据的前五行
df.tail():查询数据的末尾5行
pandas.cut()
pandas.qcut() 基于分位数的离散化函数。基于秩或基于样本分位数将变量离散化为等大小桶。
pandas.date_range() 返回一个时间索引
df.apply() 沿相应轴应用函数
Series.value_counts() 返回不同数据的计数值
df.aggregate()
df.reset_index() 重新设置index,参数drop = True时会丢弃原来的索引,设置新的从0开始的索引。常与groupby()一起用
numpy.zeros()