pythoncasewhen用法Pandas中case_when方法使用小

在 Python 数据分析中，Pandas 一个强大的库，用于处理和分析数据。它提供了各种各样的技巧和函数，使数据转换和操作变得更加容易。在这篇文章小编将中，将深入探讨 Pandas 中的case_when()技巧，它可以用于条件性地创建新的列，类似于 SQL 中的CASE WHEN语句。我们将详细讨论该技巧的用法，并提供丰富的示例代码。

什么是case_when()技巧？

case_when()技巧是 Pandas 库中的一个函数，它允许我们根据条件创建新的列。这个技巧通常用于根据数据的某些特征或条件来生成新的数据列，类似于使用 if-else 语句进行条件判断。

在 Pandas 中，case_when()技巧通常与apply()技巧结合使用，以便根据条件对每一行数据进行操作。它提供了一种更灵活的方式来处理数据，而不需要编写大量的条件判断语句。

case_when()技巧的语法

case_when()技巧的语法如下：

pandas.Series.case_when(conditions, values, default=None, *args, kwargs)

参数说明：

conditions：条件列表，用于定义什么时候应用哪个值。
values：与条件列表中的每个条件相对应的值列表，用于指定满足条件时要应用的值。
default：可选参数，用于指定默认值，当没有条件匹配时将使用该值。
*args和kwargs：其他参数，用于传递给apply()技巧。

示例代码

通过多少示例来演示case_when()技巧的用法。

示例 1：基本用法

假设有一个包含学生分数的数据集，我们想根据分数判断他们的等级。

可以使用case_when()技巧来实现这个任务：

import pandas as pd 创建示例数据集data = ‘学生姓名’: [‘Alice’, ‘Bob’, ‘Charlie’, ‘David’, ‘Eva’], ‘分数’: [85, 70, 95, 60, 75]}df = pd.DataFrame(data) 定义条件和对应的值conditions = [df[‘分数’] >= 90, (df[‘分数’] >= 80) & (df[‘分数’] < 90), df[‘分数’] < 80]values = [‘杰出’, ‘良好’, ‘及格’] 使用 case_when() 技巧创建新列df[‘等级’] = df[‘分数’].case_when(conditions, values, default=’不及格’) 输出结局print(df)

以上代码将根据学生的分数创建一个新的等级列，并根据条件将相应的等级分配给每个学生。

示例 2：使用默认值

有时候，某些数据可能不满足任何条件。在这种情况下，可以使用默认值来处理这些情况：

import pandas as pd 创建示例数据集data = ‘学生姓名’: [‘Alice’, ‘Bob’, ‘Charlie’, ‘David’, ‘Eva’], ‘分数’: [85, 70, 95, 60, None]}df = pd.DataFrame(data) 定义条件和对应的值conditions = [df[‘分数’] >= 90, (df[‘分数’] >= 80) & (df[‘分数’] < 90), df[‘分数’] < 80]values = [‘杰出’, ‘良好’, ‘及格’] 使用 case_when() 技巧创建新列，并设置默认值为 ‘未知’df[‘等级’] = df[‘分数’].case_when(conditions, values, default=’未知’) 输出结局print(df)

在这个示例中，使用了一个包含空值的数据集，并使用default参数将没有匹配条件的行标记为“未知”。

示例 3：使用 apply() 技巧

case_when()技巧通常与apply()技巧一起使用，以便根据多个条件对数据集的每一行进行操作。

下面内容一个示例，根据学生的分数和出勤情况来计算他们的最终成绩：

import pandas as pd 创建示例数据集data = ‘学生姓名’: [‘Alice’, ‘Bob’, ‘Charlie’, ‘David’, ‘Eva’], ‘分数’: [85, 70, 95, 60, 75], ‘出勤率’: [90, 80, 95, 70, 85]}df = pd.DataFrame(data) 使用 apply() 技巧将多个条件应用于每一行def calculate_grade(row): if row[‘分数’] >= 90 and row[‘出勤率’] >= 90: return ‘杰出’ elif row[‘分数’] >= 80 and row[‘出勤率’] >= 80: return ‘良好’ elif row[‘分数’] >= 60 and row[‘出勤率’] >= 70: return ‘及格’ else: return ‘不及格’df[‘最终成绩’] = df.apply(calculate_grade, axis=1) 输出结局print(df)

在这个示例中，使用apply()技巧定义了一个自定义函数calculate_grade()，该函数基于多个条件来计算最终成绩，并将其应用于数据集的每一行。

示例 4：多条件的复杂情况

有时候，需要根据多个条件的组合来生成新的列。

例如，可以根据学生的分数和出勤情况来确定他们是否能够获得奖学金：

import pandas as pd 创建示例数据集data = ‘学生姓名’: [‘Alice’, ‘Bob’, ‘Charlie’, ‘David’, ‘Eva’], ‘分数’: [85, 70, 95, 60, 75], ‘出勤率’: [90, 80, 95, 70, 85]}df = pd.DataFrame(data) 定义多条件和对应的值conditions = [(df[‘分数’] >= 90) & (df[‘出勤率’] >= 90), (df[‘分数’] >= 80) & (df[‘出勤率’] >= 80), (df[‘分数’] >= 60) & (df[‘出勤率’] >= 70)]values = [‘获奖学金’, ‘荣誉奖’, ‘合格’] 使用 case_when() 技巧创建新列df[‘奖励’] = df.apply(lambda row: row[‘分数’].case_when(conditions, values, default=’未获奖’), axis=1) 输出结局print(df)

在这个示例中，定义了多个条件和对应的值，并使用apply()技巧将case_when()技巧应用于每一行数据，根据多个条件的组合来确定是否获得奖学金。

示例 5：根据多列生成新列

有时候，需要根据多列的值生成新的列。

例如，可以根据学生的分数和出勤情况来生成一个总分列：

import pandas as pd 创建示例数据集data = ‘学生姓名’: [‘Alice’, ‘Bob’, ‘Charlie’, ‘David’, ‘Eva’], ‘分数1’: [85, 70, 95, 60, 75], ‘分数2’: [90, 80, 85, 70, 90]}df = pd.DataFrame(data) 使用 apply() 技巧生成新列df[‘总分’] = df.apply(lambda row: row[‘分数1’] + row[‘分数2’], axis=1) 输出结局print(df)

在这个示例中，使用apply()技巧将两列分数相加，生成了一个新的总分列。

示例 6：处理缺失值

case_when()技巧也可以用于处理缺失值。

例如，可以根据分数是否缺失来为学生分配等级：

import pandas as pdimport numpy as np 创建示例数据集data = ‘学生姓名’: [‘Alice’, ‘Bob’, ‘Charlie’, ‘David’, ‘Eva’], ‘分数’: [85, np.nan, 95, 60, 75]}df = pd.DataFrame(data) 定义条件和对应的值conditions = [df[‘分数’].notna() & (df[‘分数’] >= 90), df[‘分数’].notna() & (df[‘分数’] >= 80), df[‘分数’].notna() & (df[‘分数’] >= 60)]values = [‘杰出’, ‘良好’, ‘及格’] 使用 case_when() 技巧创建新列，并处理缺失值df[‘等级’] = df[‘分数’].case_when(conditions, values, default=’不及格’) 输出结局print(df)

在这个示例中，使用notna()技巧来检查分数是否缺失，并根据条件来为每个学生分配等级。

拓展资料

在这篇文章小编将中，深入探讨了 Pandas 中的case_when()技巧的用法，包括基本用法和高质量用法。这个技巧对于数据分析和数据转换任务非常有用，可以根据条件创建新的列，处理多条件组合和缺失值，并生成新的数据集。希望通过这篇文章小编将的示例代码和解释，能更好地领会和运用case_when()技巧。这将有助于更灵活地处理各种数据分析和数据处理任务。

到此这篇关于Pandas中case_when()技巧使用的文章就介绍到这了,更多相关Pandas case_when()技巧内容请搜索风君子博客以前的文章或继续浏览下面的相关文章希望大家以后多多支持风君子博客！

无论兄弟们可能感兴趣的文章:

pandas read_excel()和to_excel()函数解析
python pandas.DataFrame.loc函数使用详解
python时刻日期函数与利用pandas进行时刻序列处理详解
pandas的连接函数concat()函数的具体使用技巧
详解pandas.DataFrame.plot() 画图函数
对pandas中Series的map函数详解
对pandas replace函数的使用技巧

系统笔记网