python的函数存在堆,Python堆

Python对象

众所周知，Python是一门面向对象的语言，在Python无论是数值、字符串、函数亦或是类型、类，都是对象。

创新互联专注于企业成都全网营销、网站重做改版、个旧网站定制设计、自适应品牌网站建设、html5、商城开发、集团公司官网建设、外贸网站建设、高端网站制作、响应式网页设计等建站业务，价格优惠性价比高，为个旧等各大城市提供网站开发制作服务。

对象是在堆上分配的结构，我们定义的所有变量、函数等，都存储于堆内存，而变量名、函数名则是一个存储于栈中、指向堆中具体结构的引用。

要想深入学习Python，首先需要知道Python对象的定义。

我们通常说的Python都是指CPython，底层由C语言实现，源码地址： cpython [GitHub]

Python对象的定义位于 Include/object.h ，是一个名为 PyObject 的结构体：

Python中的所有对象都继承自PyObejct，PyObject包含一个用于垃圾回收的双向链表，一个引用计数变量 ob_refcnt 和一个类型对象指针 ob_type

从PyObejct的注释中，我们可以看到这样一句：每个指向可变大小Python对象的指针也可以转换为 PyVarObject* （可变大小的Python对象会在下文中解释）。 PyVarObejct 就是在PyObject的基础上多了一个 ob_size 字段，用于存储元素个数：

在PyObject结构中，还有一个类型对象指针 ob_type ，用于表示Python对象是什么类型，定义Python对象类型的是一个 PyTypeObject 接口体

实际定义是位于 Include/cpython/object.h 的 _typeobject ：

在这个类型对象中，不仅包含了对象的类型，还包含了如分配内存大小、对象标准操作等信息，主要分为：

以Python中的 int类型为例，int类型对象的定义如下：

从PyObject的定义中我们知道，每个对象的 ob_type 都要指向一个具体的类型对象，比如一个数值型对象 100 ，它的ob_type会指向 int类型对象PyLong_Type 。

PyTypeObject结构体第一行是一个PyObject_VAR_HEAD宏，查看宏定义可知PyTypeObject是一个变长对象

也就是说，归根结底类型对象也是一个对象，也有ob_type属性，那 PyLong_Type 的 ob_type 是什么呢？

回到PyLong_Type的定义，第一行 PyVarObject_HEAD_INIT(PyType_Type, 0) ，查看对应的宏定义

由以上关系可以知道， PyVarObject_HEAD_INIT(PyType_Type, 0) = { { _PyObject_EXTRA_INIT 1, PyType_Type } 0} ，将其代入 PyObject_VAR_HEAD ，得到一个变长对象：

这样看就很明确了，PyLong_Type的类型就是PyType_Typ，同理可知， Python类型对象的类型就是PyType_Type ，而 PyType_Type对象的类型是它本身

从上述内容中，我们知道了对象和对象类型的定义，那么根据定义，对象可以有以下两种分类

Python对象定义有 PyObject 和 PyVarObject ，因此，根据对象大小是否可变的区别，Python对象可以划分为可变对象（变长对象）和不可变对象（定长对象）

原本的对象a大小并没有改变，只是s引用的对象改变了。这里的对象a、对象b就是定长对象

可以看到，变量l仍然指向对象a，只是对象a的内容发生了改变，数据量变大了。这里的对象a就是变长对象

由于存在以上特性，所以使用这两种对象还会带来一种区别：

声明 s2 = s ，修改s的值： s = 'new string' ，s2的值不会一起改变，因为只是s指向了一个新的对象，s2指向的旧对象的值并没有发生改变

声明 l2 = l ，修改l的值： l.append(6) ，此时l2的值会一起改变，因为l和l2指向的是同一个对象，而该对象的内容被l修改了

此外，对于字符串对象，Python还有一套内存复用机制，如果两个字符串变量值相同，那它们将共用同一个对象：

对于数值型对象，Python会默认创建0~2 8 以内的整数对象，也就是 0 ~ 256 之间的数值对象是共用的：

按照Python数据类型，对象可分为以下几类：

Python创建对象有两种方式，泛型API和和类型相关的API

这类API通常以 PyObject_xxx 的形式命名，可以应用在任意Python对象上，如:

使用 PyObjecg_New 创建一个数值型对象：

这类API通常只能作用于一种类型的对象上，如：

使用 PyLong_FromLong 创建一个数值型对象：

在我们使用Python声明变量的时候，并不需要为变量指派类型，在给变量赋值的时候，可以赋值任意类型数据，如：

从Python对象的定义我们已经可以知晓造成这个特点的原因了，Python创建对象时，会分配内存进行初始化，然后Python内部通过 PyObject* 变量来维护这个对象，所以在Python内部各函数直接传递的都是一种泛型指针 PyObject* ，这个指针所指向的对象类型是不固定的，只能通过所指对象的 ob_type 属性动态进行判断，而Python正是通过 ob_type 实现了多态机制

Python在管理维护对象时，通过引用计数来判断内存中的对象是否需要被销毁，Python中所有事物都是对象，所有对象都有引用计数 ob_refcnt 。

当一个对象的引用计数减少到0之后，Python将会释放该对象所占用的内存和系统资源。

但这并不意味着最终一定会释放内存空间，因为频繁申请释放内存会大大降低Python的执行效率，因此Python中采用了内存对象池的技术，是的对象释放的空间会还给内存池，而不是直接释放，后续需要申请空间时，优先从内存对象池中获取。

Python高级数据结构——堆

在一个最小堆 (min heap) 中，如果 P 是 C 的一个父级节点，那么 P 的 key（或 value) 应小于或等于 C 的对应值。正因为此，堆顶元素一定是最小的，我们会利用这个特点求最小值或者第 k 小的值。

在一个最大堆 (max heap) 中，P 的 key（或 value) 大于或等于 C 的对应值。

以python为例，说明堆的几个常见操作，这里需要用到一个内置的包：heapq

python中使用堆是通过传入一个数组，然后调用一个函数，在原地让传入的数据具备堆的特性

需要注意的是，heapify默认构造的是小顶堆（min heap），如果要构造大顶堆，思路是把所有的数值倒转，既* -1，例如：

使用heapq提供的函数： heappop 来实现

具体使用方式参考初始化Heapify

使用heapq提供的函数： heappush 来实现

同时heapq还提供另外一个函数： heappushpop ，能够在一个函数实现pushpop两个操作；顺序是：先push再pop

根据官方文档的描述，这个函数会比先在外围先调用heappush，再调用heappop，效率更高

先pop数据再push数据，和heappushpop的顺序是反着的；同样的，这样调用的性能也会比先调用heappop再调用heappush更好

如果pop的时候队列是空的，会抛出一个异常

可以通过 heapq.merge 将多个已排序的输入合并为一个已排序的输出，这个本质上不是堆；其实就是用两个指针迭代

对于这个问题，有一个算法题可以实现相同的功能

从 iterable 所定义的数据集中返回前 n 个最大/小元素组成的列表。

函数为： heapq.nlargest() | heapq.nsmallest()

heapq - Heap queue algorithm - Python 3.10.4 documentation

python的内存管理机制

论坛

活动

招聘

专题

打开CSDN APP

XCCS_澍

关注

Python 的内存管理机制及调优手段？原创

2018-08-05 06:50:53

XCCS_澍

码龄7年

关注

内存管理机制：引用计数、垃圾回收、内存池。

一、引用计数：

引用计数是一种非常高效的内存管理手段，当一个 Python 对象被引用时其引用计数增加 1，当其不再被一个变量引用时则计数减 1. 当引用计数等于 0 时对象被删除。

二、垃圾回收：

1. 引用计数

引用计数也是一种垃圾收集机制，而且也是一种最直观，最简单的垃圾收集技术。当 Python 的某个对象的引用计数降为 0 时，说明没有任何引用指向该对象，该对象就成为要被回收的垃圾了。比如某个新建对象，它被分配给某个引用，对象的引用计数变为 1。如果引用被删除，对象的引用计数为 0，那么该对象就可以被垃圾回收。不过如果出现循环引用的话，引用计数机制就不再起有效的作用了

2. 标记清除

如果两个对象的引用计数都为 1，但是仅仅存在他们之间的循环引用，那么这两个对象都是需要被回收的，也就是说，它们的引用计数虽然表现为非 0，但实际上有效的引用计数为 0。所以先将循环引用摘掉，就会得出这两个对象的有效计数。

3. 分代回收

从前面“标记-清除”这样的垃圾收集机制来看，这种垃圾收集机制所带来的额外操作实际上与系统中总的内存块的数量是相关的，当需要回收的内存块越多时，垃圾检测带来的额外操作就越多，而垃圾回收带来的额外操作就越少；反之，当需回收的内存块越少时，垃圾检测就将比垃圾回收带来更少的额外操作。

python常用函数

1、complex()

返回一个形如 a+bj 的复数，传入参数分为三种情况：

参数为空时，返回0j；参数为字符串时，将字符串表达式解释为复数形式并返回；参数为两个整数(a,b)时，返回 a+bj；参数只有一个整数 a 时，虚部 b 默认为0，函数返回 a+0j。

2、dir()

不提供参数时，返回当前本地范围内的名称列表；提供一个参数时，返回该对象包含的全部属性。

3、divmod(a,b)

a -- 代表被除数，整数或浮点数；b -- 代表除数，整数或浮点数；根据除法运算计算 a,b 之间的商和余数，函数返回一个元组(p,q) ，p 代表商 a//b ，q 代表余数 a%b。

4、enumerate(iterable,start=0)

iterable -- 一个可迭代对象，列表、元组序列等；start -- 计数索引值，默认初始为0‘该函数返回枚举对象是个迭代器，利用 next() 方法依次返回元素值，每个元素以元组形式存在，包含一个计数元素(起始为 start )和 iterable 中对应的元素值。

Python的函数和参数

parameter 是函数定义的参数形式

argument 是函数调用时传入的参数实体。

对于函数调用的传参模式，一般有两种：

此外，

也是关键字传参

python的函数参数定义一般来说有五种: 位置和关键字参数混合，仅位置参数，仅关键字参数，可变位置参数，可变关键字参数。其中仅位置参数的方式仅仅是一个概念，python语法中暂时没有这样的设计。

通常我们见到的函数是位置和关键字混合的方式。

既可以用关键字又可以用位置调用

或

这种方式的定义只能使用关键字传参的模式

f(*some_list) 与 f(arg1, arg2, ...) （其中some_list = [arg1, arg2, ...]）是等价的

网络模块request的request方法的设计

多数的可选参数被设计成可变关键字参数

有多种方法能够为函数定义输出：

非常晦涩

如果使用可变对象作为函数的默认参数，会导致默认参数在所有的函数调用中被共享。

例子1：

addItem方法的data设计了一个默认参数，使用不当会造成默认参数被共享。

python里面，函数的默认参数被存在__default__属性中，这是一个元组类型

例子2：

在例子1中，默认参数是一个列表，它是mutable的数据类型，当它写进 __defauts__属性中时，函数addItem的操作并不会改变它的id，相当于 __defauts__只是保存了data的引用，对于它的内存数据并不关心，每次调用addItem，都可以修改 addItem.__defauts__中的数据，它是一个共享数据。

如果默认参数是一个imutable类型，情况将会不一样,你无法改变默认参数第一次存入的值。

例子1中，连续调用addItem('world') 的结果会是

而不是期望的

python中函数的作用

Python 函数定义以及参数传递

1.函数定义

#形如def func(args...):

doSomething123

以关键字def 开头，后面是函数名和参数下面是函数处理过程。

举例：

def add( a, b ):

return a+b12

参数可以设定默认值，如：

def add( a, b=10 ): #注意：默认值参数只会运算一次

return a+b12

默认值参数只会运算一次是什么意思？

def func( a, b=[] ): #b的默认值指向一个空的列表，每次不带默认值都会指向这块内存

b.append(a) return b

print(func(1))#向默认的空列表里加入元素1 ，默认列表里已经是[1]print(func(2))#向默认的列表里加入元素2,默认列表里已经是[1,2]print(func(3,[]))#向b指向的空列表里加入元素1 ，默认列表里还是[1,2]print(func(4))#向默认的列表里加入元素4,默认列表里已经是[1,2,4]'''

结果：

[1]

[1, 2]

[3]

[1, 2, 4]

'''12345678910111213141516

这下明白为什么默认参数只计算一次了吧，函数参数不传递时默认值总是指向固定的内存空间，就是第一次计算的空间。

2.参数传递

def func(a, b):

print('a=%d, b=%d' % (a,b) )12

在使用函数时可以如下方式,结果都是相同的

func(10,20) #不使用参数名，需要按参数顺序传递func(a=10,b=20) #使用参数名可以不按顺序传递func(b=20,a=10)#结果：a=10, b=20a=10, b=20a=10, b=201234567

如果函数定义形式如下方式：

def func(*args): #这种定义会把传递的参数包成元组

print(args,type(args))

func(10,20)#结果：#(10, 20) class 'tuple'1234567

举一个和上述过程相反的例子：

def func(a,b):

print('a=%d, b=%d' % (a,b) )

a = (10, 20)

func(*a) #在调用函数使用`*`则会把元组解包成单个变量按顺序传入函数#结果：a=10, b=20123456

总结：*号在定义函数参数时，传入函数的参数会转换成元组，如果 *号在调用时则会把元组解包成单个元素。

另一种定义：

def func(**kw):#使用**定义参数会把传入参数包装成字典dict

print(kw, type(kw) )

func(a=10,b=20)#这种函数在使用时必须指定参数值，使用key=value这种形式#结果：{'b': 20, 'a': 10} class 'dict'12345

相反的例子：

def func(a,b):

print('a=%d, b=%d' % (a,b) )

d = {'a':10, 'b':20 }

func(**d) #在调用时使用**会把字典解包成变量传入函数。12345

def func(*args, **kw):#这种形式的定义代表可以接受任意类型的参数

print(args,kw )12

总结：**号在定义函数参数时，传入函数的参数会转换成字典，如果 **号在调用时则会把字典解包成单个元素。

lambda表达式

lambda表达式就是一种简单的函数

形如 f = lambda 参数1，参数2：返回的计算值

例如：

add = lambda x,y: x+y

print(add(1,2))'''

结果：3

'''12345

当前文章：python的函数存在堆,Python堆
文章URL：http://kswsj.cn/article/hopdhe.html

关于创新互联