pandas - 文件处理



数据文件常用格式: csv (以某间隔符分割数据)

pandas 还支持其它的文件类型:

  • json、XML、HTML、数据库、pickle、excel


pandas 读取文件

从文件名、URL、文件对象中加载数据

  • read_csv: 默认分隔符为逗号
  • read_table: 默认分隔符为制表符


read_csv、read_table 函数主要参数:

  • sep: 指定分隔符, 可用正则表达式如 '\s+'
  • header=None: 指定文件无列名
  • names: 指定列名
  • index_col: 指定某列作为索引
  • skip_row: 跳过某些行
  • na_values: 指定某些字符串表示缺失值
  • parse_dates: 指定某些列是否被解析为日期, 类型为布尔值或列表


pandas 写入文件

写入到 csv 文件: pd.to_csv 函数

写入文件函数的主要参数:

  • sep: 指定文件分隔符
  • na_rep: 指定缺失值转换的字符串, 默认为空字符串
  • header=False: 不输出列名一行
  • index=False: 不输出行索引一列
    cols: 指定输出的列, 传入列表