第二章-列表和元组
- 数据结构是以某种方式(如通过编号)组合起来的数据元素(如数、字符乃至其他数据结构)的集合。
- Python中,最基本的数据结构为序列(sequence)。
- 序列中每个元素都有编号,即其位置或索引,其中第一个元素的索引为0,第二个元素的索引为1,依此类推。这显得更加自然,同时可以回绕到序列末尾,用负索引表示序列末尾元素的位置。
- 元素是一种特殊的序列,类似与列表,但是不能修改。
2.1 序列概述
- Python内置了多种序列,最常用的两种有列表和元组,另一种重要的序列是字符串(下章)。
- 列表和元组的主要不同在于,列表是可以修改的,而元组不可以。这意味着适用于需要中途添加元素的情形,而元组适用于出于某种考虑需要禁止修改序列的情形。
- 几乎在所有情况下都可以使用列表来代替元组,但一个例外情况是将元组用作字典键,因为字典键是不允许修改的。
- 在处理一系列值时(数据库),序列很有用。例如:
>>> edward = ['Edward Gumby', 42]##如果用列表来表示,所有元素都放在方括号内,并用逗号隔开。 >>> john = ['John Smith', 50] >>> database = [edward, john]##序列中还可包含其他序列。 >>> database [['Edward Gumby', 42], ['John Smith', 50]]
- Python支持一种数据结构的基本概念,名为容器(container)。
- 容器基本上就是可以包含其他对象的对象。两种主要的容器是序列(如列表和元组)和映射(如字典)。
- 在序列中,每个元素都有编号,而在映射中,每个元素都有名称(也叫键)。(映射-第四章)
- 有一种既不是序列也不是映射的容器,叫做集合。(第10章)
2.2 通用的序列操作
- 有几种操作适用于所有的序列,包括索引、切片、相加、相乘和成员资格检查。另外,Python中还提供了一些内置函数,可用于确定序列的长度以及找出序列中最大和最小的元素。
- 另外还有一个重要操作叫做迭代(iteration),对序列进行迭代意味着对其每个元素都执行特定的操作。(第五章)
2.2.1 索引
序列中所有元素都有编号——从0开始递增,可以使用编号来访问各个元素,这称作索引(indexing)。
>>> greeting = 'Hello'
>>> greeting[0]##可以使用索引来获取元素。这种索引方式适用于所有序列。
'H'
>>> greeting[-1]##当使用负数进行索引时,Python将从最后一个元素开始往左数,因此-1是最后一个元素的位置。
'o'
>>> 'Hello'[1]##对于字符串或其他序列字面量,可直接对其进行索引操作,无需将其赋给变量。
'e'
>>> fourth = input('Year: ')[3]##如果函数调用返回一个序列,可直接对其进行索引操作。
Year: 2005
>>> fourth
'5'
2.2.2 切片
除了使用索引来访问单个元素外,还可以使用切片来访问特定范围内的元素。为此,可以使用两个索引,并且用冒号分隔:
##第一个索引是包含的第一个元素的编号,但第二个索引是切片后余下的第一个元素的编号。简而言之,我们用两个索引来指定切片的边界,其中第一个索引指定的元素包含在切片内,但第二个索引指定的元素不包含在切片内。
>>> numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
>>> numbers[3:6]
[4, 5, 6]
>>> numbers[0:1]
[1]
1.绝妙的简写
>>> numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
>>> numbers[7:10]##索引10指的是第11个元素:它并不存在,但确实是到达最后一个元素后再前进一步所处的位置。
[8, 9, 10]
>>> numbers[-3:-1]##如果要从列表末尾开始数,可使用负数索引。
[8, 9]
>>> numbers[-3:0]##在执行切片操作时,如果第一个索引指定的元素位于第二个索引指定的元素后面,结果就为空序列。
[]
>>> numbers[-3:]##如果切片结束于序列末尾,可省略第二个索引。
[8, 9, 10]
>>> numbers[:3]##如果切片始于序列开头,可省略第一个索引。
[1, 2, 3]
>>> numbers[:]##如果要复制整个序列,可将两个索引都省略。
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
2.更大的步长
执行切片操作时,我们显式或隐式地指定起点和终点,但通常省略另一个参数,即步长。在普通切片中,步长为1。这意味着从一个元素移到下一个元素,因此切片包含起点和终点之间的所有元素。
>>> numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
>>> numbers[0:10:1]##步长为1
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
>>> numbers[0:10:2]##步长为2
[1, 3, 5, 7, 9]
>>> numbers[3:6:3]##步长为3
[4]
>>> numbers[::4]##在使用步长操作时,仍可以使用简写
[1, 5, 9]
>>> numbers[8:3:-1]##步长为负数时,从右向左提取元素
[9, 8, 7, 6, 5]
>>> numbers[10:0:-2]
[10, 8, 6, 4, 2]
>>> numbers[::-2]##步长为负数,同样可以使用简写
[10, 8, 6, 4, 2]
>>> numbers[0:10:-2]##步长为负数时,要求第一个索引大于第二个索引,否则会返回空序列
[]
>>> numbers[::-2]
[10, 8, 6, 4, 2]
>>> numbers[5::-2]
[6, 4, 2]
>>> numbers[:5:-2]
[10, 8]
##步长为正数时,它从起点移到终点,而步长为负数时,它从终点移到起点。
2.2.3 序列相加
可以使用加法运算符来拼接序列,但是不能拼接列表和字符串,虽然它们都是序列。一般来说,不能拼接不同类型的序列。
>>> [1, 2, 3] + [4, 5, 6]
[1, 2, 3, 4, 5, 6]
>>> 'Hello, ' + 'world!'
'Hello, world!'
>>> [1, 2, 3] + 'world!'
Traceback (most recent call last):
File "<pyshell#14>", line 1, in <module>
[1, 2, 3] + 'world!'
TypeError: can only concatenate list (not "str") to list
2.2.4 乘法
将序列与数x相乘时,将重复这个序列x次来创建一个新序列:
>>> 'python' * 5
'pythonpythonpythonpythonpython'
>>> [42] * 10
[42, 42, 42, 42, 42, 42, 42, 42, 42, 42]
None、空列表和初始化
- 空列表是使用不包含任何内容的两个方括号([])表示的。
- 如果要创建一个包含10个元素的列表,但列表中没有有用的内容,可以使用[0]*10。
- 有些情况下,可能想要使用表示“什么都没有”的值,如表示还没有在列表中添加任何内容,可使用None。
- 在Python中,None表示什么都没有,因此,要将列表的长度初始化为10,可以如下操作:
>>> sequence = [None] * 10 >>> sequence [None, None, None, None, None, None, None, None, None, None]
2.2.5 成员资格
要检查特定的值是否包含在序列中,可使用运算符in。这个运算符与前面讨论的运算符(如乘法或加法运算符)稍有不同。它检查是否满足指定的条件,并返回相应的值:满足时返回True,不满足时返回False。这样的运算符称为布尔运算符,而前述真值称为布尔值(第五章)。
>>> per = 'rw'
>>> 'w' in per
True
>>> 'x' in per
False
>>> users = ['mlh', 'foo', 'bar']
>>> input('Enter your user name: ') in users##可用于安全策略中的验证
Enter your user name: mlh
True
>>> subject = '$$$ Get rich now!!! $$$'
>>> 'rich' in subject##可验证字符串是否为另一字符串的子串
True
长度、最小值和最大值
函数名 | 功能 |
---|---|
len | 返回序列包含的元素个数 |
max | 返回序列中最大的元素 |
min | 返回序列中最小的元素 |
>>> numbers = [100, 34, 678]
>>> len(numbers)
3
>>> max(numbers)
678
>>> min(numbers)
34
>>> max(2, 3)
3
>>> min(9, 3, 2, 5)
2
##最后两个表达式中,调用max和min时指定的实参并不是序列,而直接将数作为实参。
2.3 列表
本节主要讨论列表不同于元组和字符串的地方——列表是可变的,即可修改其内容。
2.3.1 函数 list
鉴于不能像修改列表那样修改字符串,因此在有些情况下使用字符串来创建列表很有帮助。
- 为此,可以使用函数 list。注意,可以将任何序列(而不仅仅时字符串)作为list的参数。
- 要将字符列表转换为字符串,可以使用 ‘’.join(somelist)。
>>> x = 'Hello' >>> y = list(x) >>> y ['H', 'e', 'l', 'l', 'o'] >>> ''.join(y)##''之间可以加入分隔符,如'/'.join(somelist) 'Hello'
2.3.2 基本的列表操作
可对列表执行所有的标准序列操作,如索引、切片、拼接和相乘,但列表的特点在于它是可以修改的。本节为一些修改列表的方式:给元素赋值、删除元素、给切片赋值以及使用列表的方法。(注:并非所有的列表方法都会修改列表。)
1.修改列表:给元素赋值
修改列表使用普通赋值语句即可,但是使用的是索引表示法来给特定位置的元素赋值,如:
>>> x = [1, 1, 1]
>>> x[1] = 2
>>> x
[1, 2, 1]
##注意不能给不存在的元素赋值,因此如果列表长度为2,就不能给索引为100的元素赋值。
2.删除元素
从列表中删除元素,使用del语句。del语句除用于删除列表元素,还可以用于字典乃至变量。
>>> names = ['Alice', 'Beth', 'Cecil', 'Dee-Dee', 'Earl']
>>> del names[2]
>>> names
['Alice', 'Beth', 'Dee-Dee', 'Earl']
3.给切片赋值
- 使用切片赋值,可以同时给多个元素赋值。
>>> name = list('Perl') >>> name ['P', 'e', 'r', 'l'] >>> name[2:] = list('ar') >>> name ['P', 'e', 'a', 'r']
- 使用切片赋值,可以将切片替换为长度与其不同的序列。
>>> name = list('Perl') >>> name[1:] = list('ython') >>> name ['P', 'y', 't', 'h', 'o', 'n']
- 使用切片赋值还可以在不替换原有元素的情况下插入新元素。
>>> numbers = [1, 5] >>> numbers[1:1] = [2, 3, 4] >>> numbers [1, 2, 3, 4, 5]
- 使用切片赋值还可以删除特定切片。
>>> numbers = [1, 2, 3, 4, 5] >>> numbers[1:4] = []##本操作与del numbers[1:4]等效 >>> numbers [1, 5]
2.3.3 列表方法
方法(第七章)是与对象(列表、数、字符串等)联系紧密的函数。通常使用object.method(arguments)来调用,方法调用与函数调用很想,只是在方法名前加上了对象和句点。
1.append
方法append用于将一个对象附加到列表末尾。
>>> lst = [1, 2, 3]##不给列表取名list的原因是list是Python的一个内置函数,如果给列表命名list,那么将无法使用list函数。
>>> lst.append(4)
>>> lst
[1, 2, 3, 4]
注:append不会返回修改后的新列表,而是直接修改旧列表。
2.clear
方法clear就地清空列表的内容。
>>> lst = [1, 2, 3]
>>> lst.clear()##类似于切片赋值语句 lst[:] = []
>>> lst
[]
3.copy
方法copy复制列表。
- 常规复制只是将另一个名称关联到列表:
>>> a = [1, 2, 3] >>> b = a >>> b[1] = 4 >>> a [1, 4, 3]
- 要将a和b指向不同的列表,就必须将b关联到a的副本:
>>> a = [1, 2, 3] >>> b = a.copy()##这类似于a[:]或list(a),它们也都复制a。 >>> b[1] = 4 >>> a [1, 2, 3] >>> b [1, 4, 3]
4.count
方法count计算指定的元素在列表中出现了多少次。
>>> ['to', 'be', 'or', 'not', 'to', 'be'].count('to')
2
>>> x = [[1, 2], 1, 1, [2, 1, [1, 2]]]
>>> x.count(1)
2
>>> x.count([1, 2])
1
5.extend
方法extend让你能够同时将多个值附加到列表末尾,为此可将这些值组成的序列作为参数提供给方法extend。换而言之,可以使用一个列表来扩展另一个列表。
>>> a = [1, 2, 3]
>>> b = [4, 5, 6]
>>> a.extend(b)
>>> a
[1, 2, 3, 4, 5, 6]
这种情况看起来类似于拼接,但存在一个重要差别,那就是将修改被拓展的序列,在常规拼接(a+b)中,情况是返回一个全新的序列。而如果要修改原序列,则可以使用a=a+b,但拼接的效率比extend低;也可以使用a[len(a):]=b来切片赋值,但可读性不高。
6.index
方法index在列表中查找指定值第一次出现的索引。
>>> knights = ['We', 'are', 'the', 'knights', 'who', 'say', 'ni']
>>> knights.index('who')##找到指定值第一次出现的索引
4
>>> knights.index('herring')##未找到,所以报错
Traceback (innermost last):
File "<pyshell>", line 1, in ?
knights.index('herring')
ValueError: list.index(x): x not in list
7.insert
方法insert用于将一个对象插入列表。
>>> numbers = [1, 2, 3, 5, 6, 7]
>>> numbers.insert(3, 'four')
>>> numbers
[1, 2, 3, 'four', 5, 6, 7]
与extend一样,也可以用切片操作来获得与insert一样的效果,但是可读性无法与insert媲美。
8.pop
方法pop从列表中删除一个元素(末尾为最后一个元素),并返回这一元素。
>>> x = [1, 2, 3]
>>> x.pop()
3
>>> x
[1, 2]
>>> x.pop(0)
1
>>> x
[2]
##注:pop是唯一一个既修改列表又返回一个非None值的方法。
可以使用pop实现一种常见的数据结构——栈(stack)。栈就像一叠盘子,最后加入的盘子最先取走,被称为先进后出(LIFO)。
push和pop是大家普遍接受的两种栈操作(加入和取走)的名称。Python没有提供push,但可以使用append来替代。方法pop和append的效果相反,因此将刚弹出的值压入(或附加)后,得到的栈将与原来相同。
>>> x = [1, 2, 3]
>>> x.append(x.pop())
>>> x
[1, 2, 3]
9.remove
方法remove用于删除第一个为指定值的元素。
>>> x = ['to', 'be', 'or', 'not', 'to', 'be']
>>> x.remove('be')
>>> x
['to', 'or', 'not', 'to', 'be']
>>> x.remove('bee')##无法删除列表中不存在的元素。
Traceback (innermost last):
File "<pyshell>", line 1, in ?
x.remove('bee')
ValueError: list.remove(x): x not in list
##注:remove是就地修改且不返回值的方法之一。不同于pop的是,它修改列表,但不返回任何值。
10.reverse
方法reverse按相反的顺序排列列表中的元素。
>>> x = [1, 2, 3]
>>> x.reverse()
>>> x
[3, 2, 1]
##不返回值
如果按照相反的顺序迭代序列,可使用函数reversed。这个函数不返回列表,而是返回一个迭代器(第九章)。可以使用list将返回的对象转换为列表。
>>> x = [1, 2, 3]
>>> reversed(x)
<list_reverseiterator object at 0x000002DFAA1C5588>##迭代器((@_@;)? [不懂])
>>> list(reversed(x))
[3, 2, 1]
11.sort
方法sort用于对列表就地排序。就地排序意味着对原来的列表进行修改,使其元素按照顺序排列,而不是返回排序后的列表的副本。
>>> x = [4, 6, 2, 1, 7, 9]
>>> x.sort()
>>> x
[1, 2, 4, 6, 7, 9]
在需要排序后的列表副本并保留原始列表不变时,不能直接将x赋给y,因为这样x和y将指向同一个列表。以下为两种方法:
##先将y关联到x的副本,再对y进行排序:
>>> x = [4, 6, 2, 1, 7, 9]
>>> y = x.copy()
>>> y.sort()
>>> x
[4, 6, 2, 1, 7, 9]
>>> y
[1, 2, 4, 6, 7, 9]
##使用函数sorted
>>> x = [4, 6, 2, 1, 7, 9]
>>> y = sorted(x)
>>> x
[4, 6, 2, 1, 7, 9]
>>> y
[1, 2, 4, 6, 7, 9]
#注:实际上,这个函数可用于任何序列,但总是返回一个列表。
>>> sorted('Python')
['P', 'h', 'n', 'o', 't', 'y']
如果要将元素按相反的顺序排列,可先使用sort(或sorted),再调用方法reverse,也可以使用参数reverse(下节)。
12.高级排序
方法sort接受两个可选参数:key和reverse。这两个参数通常是按照名称指定的,称为关键字参数(第六章)。参数key类似于参数cmp:你将其设置为一个用于排列的函数。然而,不会直接使用这个函数来判断一个元素是否比另一个元素小,而是使用它来为每个元素创建一个键,再根据这些键对元素进行排列。
- 因此,要根据长度对元素进行排列,可将参数key设置为函数len。
>>> x = ['aardvark', 'abalone', 'acme', 'add', 'aerate'] >>> x.sort(key=len) >>> x ['add', 'acme', 'aerate', 'abalone', 'aardvark']
- 对于另一个关键字参数reverse,只需要将其指定为一个真值(第五章),以指出是否要按相反的顺序对列表进行排列。
函数sorted也接受参数key和reverse。在很多情况下,将参数key设置为一个自定义函数(第六章)很有用。>>> x = [4, 6, 2, 1, 7, 9] >>> x.sort(reverse=True) >>> x [9, 7, 6, 4, 2, 1]
2.4 元组:不可修改的序列
与列表一样,元组也是序列,唯一的差别在于元组是不能修改的(字符串也不能修改)。
>>> 1, 2, 3##将一些值用逗号分隔,即可创建一个元素
(1, 2, 3)
>>> (1, 2, 3)##通常做法:将元组用圆括号括起
(1, 2, 3)
>>> ()##空元组
()
>>> 42##即使一个值的元组也必须加上逗号
42
>>> 42,
(42,)
>>> (42)##有括号也要加逗号才可以创建元组,在元组的创建中逗号至关重要。
42
>>> (42,)
(42,)
>>> 3 * (40 + 2)
126
>>> 3 * (40 + 2,)
(42, 42, 42)
函数tuple的工作原理与list很像:它将一个序列作为参数,并将其转换为元组。如果参数已经是元组,就原封不动地返回它。
>>> tuple([1, 2, 3])
(1, 2, 3)
>>> tuple('abc')
('a', 'b', 'c')
>>> tuple((1, 2, 3))
(1, 2, 3)
元组并不太复杂,而且除了创建和访问其元素外,可对元组执行的操作不多。元组的创建及其元素的访问方式与其他序列相同。
>>> x = 1, 2, 3
>>> x[1]
2
>>> x[0:2]
(1, 2)
元组的切片也是元组,就像列表的切片也是列表一样。为何要熟悉元组,原因如下:
- 它们用作映射(第四章)中的键(以及集合的成员),而列表不行。
- 有些内置函数和方法返回元组。
2.5 小结
- 序列:序列是一种数据结构,其中的元素带编号(编号从0开始)。列表、字符串和元组都属于序列,其中列表是可变的,而元组和字符串是不可变的。要访问序列的一部分,可以使用切片操作:提供两个指定切片起始和结束位置的索引。要修改列表,可给其元素赋值,也可以使用赋值语句给切片赋值。
- 成员资格:要确定特定的值是否包含在序列(或其他容器)中,可使用运算符in。将运算符in用于字符串时情况比较特殊——这样可查找子串。
- 方法:一些内置类型(如列表和字符串,但不包括元组)提供了很多有用的方法。方法有点像函数,只是与特定的值相关联。方法是面向对象编程的一个重要方面(第七章)。