文本数据

【问题一】 str对象方法和df/Series对象方法有什么区别?

str.replace针对的是object类型或string类型,默认是以正则表达式为操作,目前暂时不支持DataFrame上使用;replace针对的是任意类型的序列或数据框,如果要以正则表达式替换,需要设置regex=True,该方法通过字典可支持多列替换。

【问题二】 给出一列string类型,如何判断单元格是否是数值型数据?

pd.Series(['1', None, '3a', '3b', '03c'], dtype="string").str.contains(r'[0-9]')

【问题三】 rsplit方法的作用是什么?它在什么场合下适用?

通过指定分隔符对字符串进行分割并返回一个列表,默认分隔符为所有空字符,包括空格、换行(\n)、制表符(\t)等。类似于 split() 方法,只不过是从字符串最后面开始分割。

【问题四】 在本章的第二到第四节分别介绍了字符串类型的5类操作,请思考它们各自应用于什么场景?

str.split

方法场景
str.split对字符进行分割
str.cat对字符进行拼接
str.replace对字符进行替换
str.extract对字符进行提取
str.extractall找出所有符合条件的字符串,并建立多级索引
str.contains和str.match检测是否包含某种字符
    原文作者:supermanwasd
    原文地址: https://blog.csdn.net/supermanwasd/article/details/106976955
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞