如何批量提取pdf文件名到excel（一键提取pdf文件名到表格）

如何批量提取pdf文件名到excel

①答案简述：要批量提取PDF文件名到Excel，可以使用Python编程语言的第三方库——PyPDF2来完成。

②详细步骤：

Step 1: 安装所需的库

在开始之前，需要确保已经安装了Python编程语言以及PyPDF2库。可以通过以下命令来安装PyPDF2库：

```python

pip install PyPDF2

```

Step 2: 编写Python代码

打开文本编辑器，创建一个新的Python文件，并将以下代码粘贴到文件中：

```python

import os

import PyPDF2

import pandas as pd

pdf_folder = 'path_to_folder_with_pdfs' # 替换为包含PDF文件的文件夹的路径

output_file = 'output.xlsx' # 替换为要保存结果的Excel文件的路径，可以是新文件或已存在的文件

pdf_files = [f for f in os.listdir(pdf_folder) if f.endswith('.pdf')]

file_names = []

for pdf_file in pdf_files:

pdf_path = os.path.join(pdf_folder, pdf_file)

with open(pdf_path, 'rb') as file:

pdf_reader = PyPDF2.PdfFileReader(file)

file_names.append(pdf_reader.getDocumentInfo().title)

df = pd.DataFrame({'File Name': file_names})

df.to_excel(output_file, index=False)

```

在上面的代码中，需要将`pdf_folder`变量替换为包含PDF文件的文件夹的路径，并将`output_file`变量替换为要保存结果的Excel文件的路径。

Step 3: 运行代码

保存Python文件并运行它。代码将遍历指定文件夹中的所有PDF文件，并将其文件名提取到一个列表中。然后，该列表将使用Pandas库转换为DataFrame，并最终保存到Excel文件中。

③相关延伸补充：

- 如果PDF文件的名称不满足要求，可以使用Python的字符串操作函数来对文件名进行处理，例如去除不需要的字符或添加前缀后缀。

- 如果需要提取PDF文件的其他元数据信息，可以使用PyPDF2库的其他函数，例如作者、主题等。

- 上述代码仅适用于提取单个PDF文件的名称，如果需要提取PDF文件中的多个页面的名称，可以使用更复杂的方法，例如解析PDF文件的目录结构或使用OCR技术识别文本。

可以通过以下步骤将PDF文件名批量提取到Excel中：

1. 在电脑中创建一个新文件夹，用于存放待处理的PDF文件；

2. 打开该文件夹，在文件夹空白处点击右键，选择“Git Bash Here”；

3. 在弹出的Git Bash中输入命令“ls *.pdf > pdf_list.txt”，回车执行，即可将该文件夹中所有PDF文件的文件名导出到一个文本文件“pdf_list.txt”中；

4. 打开Excel文件，并在第一行输入“文件名”；

5. 将“pdf_list.txt”文件打开，并将其中的文件名复制；

6. 在Excel中选择第二行第一列的单元格，粘贴复制的文件名；

7. 如果需要去掉文件名的后缀“pdf”，可以在第二行的第二列中按照公式“=LEFT(A2,LEN(A2)-4)”进行处理，并在该单元格拖拽，以便将公式应用到所有文件名上；

8. 最后，将第二行中的文件名复制，按照需要粘贴到其他的Excel表格或文档中。

以上是一种较为简便的方法，但需要在Windows或者Mac中安装Git软件。如果不了解Git的操作，也可以在文件夹空白处按住Shift键并右击，选择“在此处打开命令窗口”，之后在命令窗口中输入“dir /b *.pdf > pdf_list.txt”，回车执行，操作步骤与上述相同。另外，也可以在Windows的PowerShell中输入相应命令实现类似的功能。