小贝子编程

提取熊猫数据帧列中的单词

本文关键字：单词熊猫数据帧提取 python pandas
更新时间 : 2023-09-17
英文 : Extract words in pandas dataframe's column

如何在满足以下条件的数据框列中选择字符串的一部分？

如果该行包含www，则在第一个.之后提取单词
如果该行不包含www，则在//之后提取单词

例：

Column
https://www.test.com
https://train.co.uk

在第一种情况下，我应该在第一个句号之后提取单词，即test;在第二种情况下，我应该考虑//之后的第一个词，即train

这是尝试获取域

import pandas as pd
import tldextract

df['domain'] = df.Column.map(lambda x : tldextract.extract(x).domain)

另一种选择是将正则表达式与非标题组一起使用：

df.Column.str.extract('//(?:www.)?([^.]*)')

输出：

0
0   test
1  train

最新更新

如何下载完整的雅典娜查询结果到CSV文件
pyspark:在执行join - restrict相同列名选择时设置别名
如何在Eclipse RCP中隐藏/删除Preferences对话框中的导入/导出按钮
在自定义jackson反序列化器中以响应式方式从db加载实体
使用RestSharp从API返回JSON数据
OAuth同意屏幕不显示正确的AppName
使用ByRef更新记录集字段
提取多个XML文件中所有标签之间的文本，并将提取的文本复制到csv文件中
在Laravel和Vue之间共享数据的糟糕方式
可以在Azure Devops中找到需求文本文件
如何在tensorflow keras中引用ground truth变量?
Json解析并分配给DTO
如何通过不重复结果来正确地循环一个范围
给出零最优值的AMPL程序
再次出现身份验证问题，GCP源存储库使用publickey
打印添加到数据库的记录数有问题
如何插入一行到一个表在sql是完全相同的另一个表，但只有一个列不同?
如何在jupyter notebook中导入两个或多个包?
对product类型的访问器进行泛型迭代
如何在 react 中"remember"昂贵的递归函数中先前计算的值？
在eclipse IDE上使用Tomcat服务器在本地机器上修复eclipse上的编译错误，我能做些什么?
在使用reactjs和Material UI上传组件向API发送图像/文件时遇到麻烦
Firebase 事务方法是否与所有写入操作(包括云函数的写入操作)兼容？
违反了竞争条件和主键约束
使用REGEX捕获SGM标记之间的文本
为什么我无法分配所有填充值？
如何以编程方式将"LINK/URL"复制到 android 应用程序中的剪贴板？
用sql验证hive中的数据类型decimal(5.2)
如何在Redux状态更新时更新功能组件?
使用jsonata的日期范围

提取熊猫数据帧列中的单词

相关内容

最新更新

热门标签：