以下文章来源于DataCharm ,作者宁海涛
定期更新 数据分析、数据可视化(商业、学术图表)教程,同时也会涉及机器学习、深度学习模型的构建及应用。所用工具主要包括Python、R、Processing等。
今天这篇推文我们就汇总下Python中常用的字符串处理小技巧,字符串在Python数据处理中是非常常见且极易忽略的常用数据类型,且Python本身也提供大量运算符、函数和方法来处理字符串。话不多说,接下来我们就汇总下字符串处理小技巧(ps:都是小编经常用到的处理技巧,可能不是很全哦)
这个操作相对简单,就是对字符串进行组合,如下:
a = "Data"
b = "Charm"
print(a+b)
# DataCharm
* 操作一般都是重复字符串的个数,举例如下:
a="DataCharm"
print(a*3)
# DataCharmDataCharmDataCharm
这个操作在我的数据处理过程中经常使用到,用于判断某个字符是否在指定的字符串中,进而进行下一步的操作,这个和pandas数据筛选结合使用,可以快速选择出对应的数据。
s = "DataCharm"
print(s in "The best place to learn Python is DataCharm")
#True
根据返回的 True 或False 结果就可以灵活进数据判断和数据选择了(结合pandas布尔类型),而 not in 则是 in 的反操作,其他都是一样的。
这两个字符串操作是使用频次较多的操作了:
下面我们通过具体例子进讲解,首先,有字符串如下(标注了索引号和反索引号,注意:python正序索引是从0开始,倒序索引从-1开始)
接下来的内容我们将直接通过代码进行展示:
s = "DataCharm"
s[0]
#'D'
s[1]
#'a'
# 一旦取值超过索引范围,则会显示出错,如下:
s[9]
#IndexError: string index out of range
s = "DataCharm"
s[-1]
#'m'
s = "DataCharm"
s[0:4]
#'Data'
s[:4]
#'Data'
还可以:
s[:4] + s[4:]
#'DataCharm'
s[:4] + s[4:] == s
#True
s = "DataCharm"
s[-5:-2]
#'Cha'
#相当于正序取数如下:
s[4:7]
#'Cha'
s[-5:-2] == s[4:7]
#True
s = "DataCharm"
s[0:6:2] # 索引位置0~5,每隔1个进行取数
#'DtC'
s = "DataCharm"
s[::2]# 忽略第一个和第二个索引
# 'DtCam'
s[2::2]# 忽略第二个索引,默认为最后一个字符
# 'tCam'
s = "DataCharm"
s[9:0:-2]
# 'maCt'
s[::-2]
# 'maCtD'
当设置为-1时,则将原字符串进行反转,这也是较常用的操作之一哦,如下:
s = "DataCharm"
s[::-1]
# 'mrahCataD'
python 字符串操作内置了许多处理方法,这里我们只列举出我在实际使用中常用的的内置方法。
s = "dataCharm"
s.capitalize()
#'Datacharm'
s = "DataCharm"
s.lower()
#'datacharm'
s = "DataCharm"
s.swapcase()
# 'dATAcHARM'
s = "data charm"
s.title()
#'Data Charm'
s = "datacharm"
s.upper()
#'DATACHARM'
这两个字符串内置方法为常用方法,特别是数据选择过程中,当然和pandas结合,实现高效取数。
s = "DataCharm"
s.startswith("Data")
#True
s.endswith("Data")
#False
该方法为较常使用在数据清洗过程中,如爬取的字符串数据需要去除多余空格。
s = " DataCharm "
s.strip()
#'DataCharm'
s.lstrip()
#'DataCharm '
s.rstrip()
#' DataCharm'
s.find(str, beg=0, end=len(s)):检测str是否包含在s 中,如果在 beg 和 end 指定范围,则检查是否包含在指定范围内,如果是返回开始的索引值,否则返回-1。
s.count(str, beg=0, end=len(s)):返回 str 在 s 里面出现的次数,如果 在beg 或者 end 指定指定范围内,则返回 str 出现的次数
s.split("str"):以指定字符(str)分割字符串,返回多个字符串组成的列表。
这个小技巧也是我在数据处理过程中经常使用的,所以单独进行讲解。
list_test = ['foo', 'bar', 'baz', 'qux']
str_from_list = " ".join(list_test)
str_from_list
# 'foo bar baz qux'
type(str_from_list)
# str
str_test = "foo bar baz qux"
list_from_str = str_test.split(" ")
list_from_str
#['foo', 'bar', 'baz', 'qux']
type(list_from_str)
#list
这里建议大家使用str.format() 方法进行字符串格式化输出。str.format()基本格式为
"xxx{ }xxx".format(参数)
这里我们列出几种常见的形式,具体详细的大家可自行搜索(主要是太多,我列出常用的几个即可)
#方式一:
'{0}, {1}, {2}'.format('a', 'b', 'c')
#方式二:
'{}, {}, {}'.format('a', 'b', 'c')
'π is {:.2f}'.format(3.1415926)
# 'π is 3.14'
'{:,}'.format(123456789)
#'123,456,789'
"{:.0%}".format(3/10)
#'30%'
"{:.3%}".format(3/10)
#'30.000%'
import datetime
date = datetime.datetime(2020, 2, 1, 23, 20, 58)
'{:%Y-%m-%d %H:%M:%S}'.format(date)
#'2020-02-01 23:20:58'
以上就是关于我在实际使用过程中常用的Python字符串操作方法,由于是小编常用到的,可能不是很全,但绝对是常用操作,希望对大家有所帮助,更多Python 字符串操作,小伙伴们可自行搜索哦!
微信扫一扫
关注该公众号
前往“发现”-“看一看”浏览“朋友在看”