数据文件常用格式: csv (以某间隔符分割数据)
pandas 还支持其它的文件类型:
- json、XML、HTML、数据库、pickle、excel
pandas 读取文件
从文件名、URL、文件对象中加载数据
- read_csv: 默认分隔符为逗号
- read_table: 默认分隔符为制表符
read_csv、read_table 函数主要参数:
- sep: 指定分隔符, 可用正则表达式如 '\s+'
- header=None: 指定文件无列名
- names: 指定列名
- index_col: 指定某列作为索引
- skip_row: 跳过某些行
- na_values: 指定某些字符串表示缺失值
- parse_dates: 指定某些列是否被解析为日期, 类型为布尔值或列表
pandas 写入文件
写入到 csv 文件: pd.to_csv 函数
写入文件函数的主要参数:
- sep: 指定文件分隔符
- na_rep: 指定缺失值转换的字符串, 默认为空字符串
- header=False: 不输出列名一行
- index=False: 不输出行索引一列
cols: 指定输出的列, 传入列表