Python小白來了

Jarryft · 发表于 2024-6-3 11:29:14

不想有大糞就來發些精英內容（笑）
場景：有四百多萬條數據要做分析，要用幾個Excel導成dataframe再合併，搞一次就要十分鐘以上，太折磨了。
有沒有快些的導入方法，或者導入之後能保存，這樣方便作後續微調，碩博論壇ball ball hot

Jarryft · 发表于 2024-6-5 08:42:32

後續：pd.read_csv解君愁

来自 11塔 2024-6-5 08:42:32 回复收起回复

憂傷的老闆兒 · 发表于 2024-6-3 11:56:44

Power BI符不符合需求

2塔 2024-6-3 11:56:44 收起回复

Jarryft 2024-6-3 12:16 来自加沙难民营

回复举报

需要動態運算

我要说一句

godish · 发表于 2024-6-3 11:56:59

要處理大量數據並加速導入和分析過程，可以考慮以下幾種方法：

1. **使用更高效的數據格式**：
- **CSV**：比Excel更快，可以直接使用`pandas`的`read_csv`方法導入。
- **HDF5**：適合存儲大規模數據，並且支持部分讀取。
- **Parquet**：專為大數據設計的格式，讀寫速度快。

2. **分批讀取和處理數據**：
- 可以將數據分成較小的部分，逐步讀取和處理。

3. **儲存中間結果**：
- 將處理後的數據儲存為中間結果，方便後續微調。
- 可以使用Pandas的`to_pickle`方法將DataFrame儲存為二進制文件，之後可以快速讀取。

下面是一個示例代碼，展示如何使用上述方法加速數據處理：

```python
import pandas as pd

# 假設有多個Excel文件需要導入
file_list = ['data1.xlsx', 'data2.xlsx', 'data3.xlsx'] # 添加所有文件名稱

# 使用read_csv或read_excel讀取數據
df_list = [pd.read_excel(file) for file in file_list]

# 合併所有DataFrame
combined_df = pd.concat(df_list, ignore_index=True)

# 儲存為HDF5格式
combined_df.to_hdf('combined_data.h5', key='df', mode='w')

# 儲存為Parquet格式
combined_df.to_parquet('combined_data.parquet')

# 儲存為pickle格式
combined_df.to_pickle('combined_data.pkl')

# 讀取儲存的文件
df_from_hdf = pd.read_hdf('combined_data.h5', key='df')
df_from_parquet = pd.read_parquet('combined_data.parquet')
df_from_pickle = pd.read_pickle('combined_data.pkl')

# 檢查數據
print(df_from_hdf.head())
print(df_from_parquet.head())
print(df_from_pickle.head())
```

這樣可以加速數據讀取和處理過程，並且方便後續進行微調。你可以根據需要選擇合適的數據格式來儲存中間結果。

3塔 2024-6-3 11:56:59 回复收起回复

ayok768 · 发表于 2024-6-3 11:59:10

access?

4塔 2024-6-3 11:59:10 收起回复

Jarryft 2024-6-3 13:38 来自加沙难民营

回复举报

聽說很強大但之前沒動力學，類似powerbi嗎？

我要说一句

乡下南瓜0 · 发表于 2024-6-3 12:18:22

十几分钟算快的了吧

5塔 2024-6-3 12:18:22 回复收起回复

哈士奇头人 · 发表于 2024-6-3 13:13:33

很久以前用过feather，现在应该有类似的新技术

6塔 2024-6-3 13:13:33 回复收起回复

格里高里 · 发表于 2024-6-3 13:35:35

分块并发读入

7塔 2024-6-3 13:35:35 收起回复

Jarryft 2024-6-3 13:39 来自加沙难民营

回复举报

能卜能展開一哈

格里高里回复Jarryft 2024-6-3 14:25 来自加沙难民营

回复举报

python的并发可以用来解决这类I/O性能瓶颈。就是把文件按照一定规则分成几个部分，使用多线程或者多进程库并发读入，之后在合并（甚至都不需要合并，reduce这种情况还蛮有用的）。你可以自己实现一个任务调度器避免线程等待。

没有其他瓶颈还是对性能优化蛮多的。

我要说一句

卜严骏 · 发表于 2024-6-5 05:26:21

你问题应该是数据格式的读取吧，我不知道能不能pandas直接读excel，但excel应该可以转csv然后pandas读csv？

8塔 2024-6-5 05:26:21 回复收起回复

别克君悦 · 发表于 2024-6-5 06:36:58

excel应该可以转csv然后pandas读csv？

9塔 2024-6-5 06:36:58 回复收起回复

粉色狂战斧 · 发表于 2024-6-5 07:22:25

搞数据库吧 excel太慢了

10塔 2024-6-5 07:22:25 回复收起回复

qazw2424 · 发表于 2024-6-5 15:28:45

csv一把梭

12塔 2024-6-5 15:28:45 回复收起回复

		自动登录	找回密码
密码			开始流浪*

Python小白來了

已有 0 人打赏作者