pythoncut函数,python lcut函数

如何用 Python 从海量文本抽取主题

代码

我们提供的服务有：网站设计制作、成都网站制作、微信公众号开发、网站优化、网站认证、西华ssl等。为成百上千家企事业单位解决了网站和推广的问题。提供周到的售前咨询和贴心的售后服务，是有科学管理、有技术的西华网站制作公司

我们在Jupyter Notebook中新建一个Python 2笔记本，起名为topic-model。

为了处理表格数据，我们依然使用数据框工具Pandas。先调用它。

import pandas as pd

然后读入我们的数据文件datascience.csv，注意它的编码是中文GB18030，不是Pandas默认设置的编码，所以此处需要显式指定编码类型，以免出现乱码错误。

df = pd.read_csv("datascience.csv", encoding='gb18030')

我们来看看数据框的头几行，以确认读取是否正确。

df.head()

显示结果如下：

没问题，头几行内容所有列都正确读入，文字显式正常。我们看看数据框的长度，以确认数据是否读取完整。

df.shape

执行的结果为：

(1024, 3)

行列数都与我们爬取到的数量一致，通过。

下面我们需要做一件重要工作——分词。这是因为我们需要提取每篇文章的关键词。而中文本身并不使用空格在单词间划分。

我们首先调用jieba分词包。

import jieba

我们此次需要处理的，不是单一文本数据，而是1000多条文本数据，因此我们需要把这项工作并行化。这就需要首先编写一个函数，处理单一文本的分词。

def chinese_word_cut(mytext):

return " ".join(jieba.cut(mytext))

有了这个函数之后，我们就可以不断调用它来批量处理数据框里面的全部文本（正文）信息了。你当然可以自己写个循环来做这项工作。

下面这一段代码执行起来，可能需要一小段时间。请耐心等候。

df["content_cutted"] = df.content.apply(chinese_word_cut)

执行过程中可能会出现如下提示。没关系，忽略就好。

Building prefix dict from the default dictionary ...

Loading model from cache /var/folders/8s/k8yr4zy52q1dh107gjx280mw0000gn/T/jieba.cache

Loading model cost 0.406 seconds.

Prefix dict has been built succesfully.

执行完毕之后，我们需要查看一下，文本是否已经被正确分词。

df.content_cutted.head()

python运行错误怎么办？

一、python的错误处理：

在程序运行的过程中，如果发生了错误，可以事先约定返回一个错误代码，这样，就可以知道是否有错以及出错的原因。

在操作系统提供的调用中，返回错误码非常常见。比如打开文件的函数open()，成功时返回文件的描述符（就是一个整数），出错时返回-1用错误码来表示是否出错十分不便，因为函数本身应该返回的正常结果和错误码混在一起，造成调用者必须大量的代码来判断是否出错：def foo():

r = somefunction() if r == (-1): return (-1) return rdef bar():

r = foo() if r == (-1): print("Error") else: pass一旦出错，还要一级一级上报，直到某个函数可以处理该错误（比如，给用户输出一个错误信息）

所以，高级语言通常都内置了一套try...except...finally...的错误处理机制，python也不例外。try

让我们用一个例子来看看try的机制try: print("try....")

r = 10 / 0 print("result", r)except ZeroDivisionError as e: print("except:", e)finally: print("finally...")print("END....")

当我们认为某些代码可能会出错时，就可以用try来运行这段代码，如果执行出错，则后续代码不会继续执行

而是直接跳转至错误处理代码，即except语句块

执行完except后，如果有finally语句块，则执行finally语句块，至此，执行完毕。

上面的代码在计算10 / 0时会产生一个除法运算错误：try....except: division by zerofinally...

END....从输出可以看到，当错误发生时，后续语句print("result:", r)不会被执行，except由于捕获到ZeroDivisionError因此被执行。

最后，finally语句被执行。然后，程序继续按照流程往下走。

如果把除数0 变成2，则执行结果如下try....

result 5.0finally...

END....由于没有错误发生，所以except语句块不会被执行，但是finally如果有则一定会被执行，当然finally也可以没有

你还可以猜测，错误应该有很多种类，日过发生了不同类型的错误，应该由不同的except语句块处理。

没错，可以有多个except来捕获不同类型的错误：try: print("try.....")

r = 10 / int("a") print("result:", r)except ValueError as e: print("ValueError:", e)except ZeroDivisionError as e: print("ZeroDivisionError:", e)finally: print("finally...")print("END...")

int()函数可能会抛出ValueError,所以我们用一个except捕获ValueError，用另一个except捕获ZeroDivisionError

此外，如果没有错误发生，可以再except语句块后面加一个else，当没有错误发生时，会自动执行else语句。try: print("try...")

r = 10 / int("2") print("result:", r)except ValueError as e: print("ValueError:", e)except ZeroDivisionError as e: print("ZeroDivisionError:", e)else: print("No error!")finally: print("finally...")print("END")

python的错误其实也是class，所有的错误类型都继承自BaseException,

所以在使用except时需要注意的是，它不但捕获该类型的错误，还把其子类也“一网打尽”。

比如：try:

foo()except ValueError as e: print("ValueError")except UnicodeError as e: print("UnicodeError")

第二个except永远也捕获不到UnicodeError, 因为UnicodeError是ValueError的子类

如果有，也是被第一个except给捕获了。

python所有的错误都是BaseException类派生的。

所有常见的错误类型和继承关系看这里：

使用try...exccept捕获错误还有一个巨大的好处，就是可以跨越多层调用，比如函数main（）调用foo（）

foo（）调用bar（），结果bar（）出错了，这时，只要main（）捕获到了，就可以处理：def foo(s): return 10 / int(s)def bar(s): return foo(s) * 2def main(): try:

bar("0") except Exception as e: print("Error:", e) finally: print("finally...")

也就是说，不需要在每个可能出错的地方去捕获异常，只要在合适的层次去捕获就可以了。

这样一来，就大大减少了写 try...except...finally的麻烦。

二、调用堆栈

如果错误没有被捕获，他就会一直往上抛，最后被python解释器捕获，打印一个错误信息，然后程序退出。def foo(s): return 10 / int(s)def bar(s): return foo(s) * 2def main():

bar("0")

main()

执行结果为：

Traceback (most recent call last):

File "C:/Python36/test.py", line 10, in module

main()

File "C:/Python36/test.py", line 8, in main

bar("0")

File "C:/Python36/test.py", line 5, in bar return foo(s) * 2

File "C:/Python36/test.py", line 2, in foo return 10 / int(s)

ZeroDivisionError: division by zero

出错并不可怕，可怕的时不知道哪里出错了。解读错误信息时定位错误的关键。

我们从上往下可以看到整个错误的调用函数链。

错误第一行：

Traceback (most recent call last):

这告诉我们的是错误的跟踪信息。

File "C:/Python36/test.py", line 10, in module main()

说明调用main（）出错了，在代码文件test.py中第10行，但是原因是第8行：

File"C:/Python36/test.py", line8, in main

bar("0")

调用bar("0")出错了，在代码文件test.py中第8行，但原因是第5行：

File"C:/Python36/test.py", line5, in barreturn foo(s) * 2调用return foo(s) * 2时出错了，在test.py中第5行，但原因是第2行

File "C:/Python36/test.py", line 2, in foo return 10 / int(s)

ZeroDivisionError: division by zero

这时我们找到了源头，原来在第2行调用return 10 / int(s)出错了，错误为ZeroDivisionError

三、记录错误

如果不捕获错误，自然可以让python解释器来打印出错误堆栈，但是程序也被结束了。

既然我们能捕获错误，就可以把错误堆栈打印出来，然后分析错误原因，同时，让程序继续执行下去。

python内置的logging模块可以非常容易地记录错误信息：import loggingdef foo(s): return 10 / int(s)def bar(s): return foo(s) * 2def main(): try:

bar("0") except Exception as e:

logging.exception(e)

main()print("END")

输出结果为：

ERROR:root:division by zero

Traceback (most recent call last):

File "C:/Python36/test.py", line 12, in main

bar("0")

File "C:/Python36/test.py", line 8, in bar return foo(s) * 2

File "C:/Python36/test.py", line 5, in foo return 10 / int(s)

ZeroDivisionError: division by zero

END

同样是出错，但程序打印完错误信息后会继续执行，并正常退出。

通过配置，logging还可以把错误记录到日志文件里，方便事后排查。

四、抛出错误

因为错误是class，捕获一个错误就是捕获到该class的一个实例。

因此，错误并不是凭空产生的，而是有意创建并抛出的。

python的内置函数会抛出很多类型的错误，我们自己编写的函数也可以抛出错误。

如果要抛出错误，首先根据需要，可以定义一个错误的class，选择好继承关系，然后用raise语句抛出一个错误的实例：class FooError(ValueError): passdef foo(s):

n = int(s) if n == 0: raise FooError("invalid value: %s" % s) return 10 / n

foo("0")

输出结果：

Traceback (most recent call last):

File "C:/Python36/test.py", line 10, in module

foo("0")

File "C:/Python36/test.py", line 7, in foo raise FooError("invalid value: %s" % s)

FooError: invalid value: 0

只有在必要的时候才定义我们自己的错误类型。

如果可以选择python已有的内置错误类型（比如ValueError, TypeError）,尽量使用python内置的错误类型。

最后，我们来看另一种错误处理方式：def foo(s):

n = int(s) if n == 0: raise ValueError("invalid value: %s" % s) return 10 / ndef bar(): try:

foo("0") except ValueError as e: print("ValieError") raisebar()

在bar（）函数中，我们明明已经捕获了错误，但是，打印一个ValueError之后

又通过raise语句抛出去了。这不是有病吗

其实，这种错误处理方式不但没病，而且相当常见。

捕获错误目的只是记录一下，便于或许追踪。

但是，由于当前函数不知道应该怎么处理该错误，所以，最恰当的方式是继续往上抛，让顶层调用者去处理。

好比一个员工处理不了一个问题时，就把问题一直往上抛，最终会抛给CEO去解决。

注意：raise语句如果不带参数，就会把当前错误原样抛出。

此外，在except中raise一个Error，还可以改写错误类型try: 10 / 0except ZeroDivisionError: raise ValueError("do not input zero!")

输出结果：

Traceback (most recent call last):

File "C:/Python36/test.py", line 4, in module raise ValueError("do not input zero!")

ValueError: do not input zero!只要是合理的转换逻辑就可以，但是，绝不应该把一个IOError转成毫不相干的valueError.

总结：

python内置的 try...except...finally 用来处理错误十分方便。

出错时，会分析错误信息并定位错误发生的代码位置才是关键的。

程序也可以主动抛出错误，让调用者来处理相应的错误。

但是应该在文档中写清楚可能会抛出哪些错误，以及错误产生的原因。

Python pandas用法

在Python中，pandas是基于NumPy数组构建的，使数据预处理、清洗、分析工作变得更快更简单。pandas是专门为处理表格和混杂数据设计的，而NumPy更适合处理统一的数值数组数据。

使用下面格式约定，引入pandas包：

pandas有两个主要数据结构：Series和DataFrame。

Series是一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（即索引）组成，即index和values两部分，可以通过索引的方式选取Series中的单个或一组值。

pd.Series(list,index=[ ]) ，第二个参数是Series中数据的索引，可以省略。

Series类型索引、切片、运算的操作类似于ndarray，同样的类似Python字典类型的操作，包括保留字in操作、使用.get()方法。

Series和ndarray之间的主要区别在于Series之间的操作会根据索引自动对齐数据。

DataFrame是一个表格型的数据类型，每列值类型可以不同，是最常用的pandas对象。DataFrame既有行索引也有列索引，它可以被看做由Series组成的字典（共用同一个索引）。DataFrame中的数据是以一个或多个二维块存放的（而不是列表、字典或别的一维数据结构）。

pd.DataFrame(data,columns = [ ],index = [ ]) ：columns和index为指定的列、行索引，并按照顺序排列。

如果创建时指定了columns和index索引，则按照索引顺序排列，并且如果传入的列在数据中找不到，就会在结果中产生缺失值：

数据索引：Series和DataFrame的索引是Index类型，Index对象是不可修改，可通过索引值或索引标签获取目标数据，也可通过索引使序列或数据框的计算、操作实现自动化对齐。索引类型index的常用方法：

重新索引：能够改变、重排Series和DataFrame索引，会创建一个新对象，如果某个索引值当前不存在，就引入缺失值。

df.reindex(index, columns ,fill_value, method, limit, copy ) ：index/columns为新的行列自定义索引；fill_value为用于填充缺失位置的值；method为填充方法，ffill当前值向前填充，bfill向后填充；limit为最大填充量；copy 默认True，生成新的对象，False时，新旧相等不复制。

删除指定索引：默认返回的是一个新对象。

.drop() ：能够删除Series和DataFrame指定行或列索引。

删除一行或者一列时，用单引号指定索引，删除多行时用列表指定索引。

如果删除的是列索引，需要增加axis=1或axis='columns'作为参数。

增加inplace=True作为参数，可以就地修改对象，不会返回新的对象。

在pandas中，有多个方法可以选取和重新组合数据。对于DataFrame，表5-4进行了总结

适用于Series和DataFrame的基本统计分析函数：传入axis='columns'或axis=1将会按行进行运算。

.describe() ：针对各列的多个统计汇总，用统计学指标快速描述数据的概要。

.sum() ：计算各列数据的和

.count() ：非NaN值的数量

.mean( )/.median() ：计算数据的算术平均值、算术中位数

.var()/.std() ：计算数据的方差、标准差

.corr()/.cov() ：计算相关系数矩阵、协方差矩阵，是通过参数对计算出来的。Series的corr方法用于计算两个Series中重叠的、非NA的、按索引对齐的值的相关系数。DataFrame的corr和cov方法将以DataFrame的形式分别返回完整的相关系数或协方差矩阵。

.corrwith() ：利用DataFrame的corrwith方法，可以计算其列或行跟另一个Series或DataFrame之间的相关系数。传入一个Series将会返回一个相关系数值Series（针对各列进行计算），传入一个DataFrame则会计算按列名配对的相关系数。

.min()/.max() ：计算数据的最小值、最大值

.diff() ：计算一阶差分，对时间序列很有效

.mode() ：计算众数，返回频数最高的那（几）个

.mean() ：计算均值

.quantile() ：计算分位数（0到1）

.isin() ：用于判断矢量化集合的成员资格，可用于过滤Series中或DataFrame列中数据的子集

适用于Series的基本统计分析函数，DataFrame[列名]返回的是一个Series类型。

.unique() ：返回一个Series中的唯一值组成的数组。

.value_counts() ：计算一个Series中各值出现的频率。

.argmin()/.argmax() ：计算数据最大值、最小值所在位置的索引位置（自动索引）

.idxmin()/.idxmax() ：计算数据最大值、最小值所在位置的索引（自定义索引）

pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。下表对它们进行了总结，其中read_csv()、read_table()、to_csv()是用得最多的。

在数据分析和建模的过程中，相当多的时间要用在数据准备上：加载、清理、转换以及重塑。

在许多数据分析工作中，缺失数据是经常发生的。对于数值数据，pandas使用浮点值NaN（np.nan）表示缺失数据，也可将缺失值表示为NA（Python内置的None值）。

替换值

.replace(old, new) ：用新的数据替换老的数据，如果希望一次性替换多个值，old和new可以是列表。默认会返回一个新的对象，传入inplace=True可以对现有对象进行就地修改。

删除重复数据

利用函数或字典进行数据转换

df.head()：查询数据的前五行

df.tail()：查询数据的末尾5行

pandas.cut()

pandas.qcut() 基于分位数的离散化函数。基于秩或基于样本分位数将变量离散化为等大小桶。

pandas.date_range() 返回一个时间索引

df.apply() 沿相应轴应用函数

Series.value_counts() 返回不同数据的计数值

df.aggregate()

df.reset_index() 重新设置index，参数drop = True时会丢弃原来的索引，设置新的从0开始的索引。常与groupby()一起用

numpy.zeros()

当前标题：pythoncut函数,python lcut函数
网站URL：http://kswsj.cn/article/dscipic.html

关于创新互联

pythoncut函数,python lcut函数

如何用 Python 从海量文本抽取主题

python运行错误怎么办？

Python pandas用法

其他资讯