python提取pdf中图片和文本_python原生代码,提取pdf图片中的文字-程序员宅基地

技术标签: python  pdf  开发语言  

import fitz
import docx
#PyMuPDF对于中文识别还是比较理想的,安装模块pip3 install PyMuPDF
pdf_document1 = "2.pdf"
doc = fitz.open(pdf_document1)
# print ("number of pages: %i" % doc.pageCount)
# print(doc.metadata)
#word文件用于存储提取的内容
'''提取文本'''
file =docx.Document()
for current_page in range(doc.page_count):
  page = doc.load_page(current_page)
  pagetext = page.get_text("text")
  file.add_paragraph(pagetext)
file.save('3.docx')

'''提取图片'''
pdf_document2 = "2.pdf"
pdf_document = fitz.open(pdf_document2)
count=0
for current_page in range(pdf_document.page_count):
    for image in pdf_document.get_page_images(current_page):
        xref = image[0]
        pix = fitz.Pixmap(pdf_document, xref)
        count=count+1
        if pix.n < 5:        # this is GRAY or RGB
            pix.save(".\image\\"+str(current_page)+"_"+str(count)+".png")
        else:                # CMYK: convert to RGB first
            pix1 = fitz.Pixmap(fitz.csRGB, pix)
            pix.save(".\image\\"+str(current_page)+"_"+str(count)+".png")
            pix1 = None
        pix = None
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/zy215215/article/details/130456960

智能推荐

PowerDesigner16.7详细安装下载以及简要使用_powerdesigner官网下载-程序员宅基地

文章浏览阅读2.3w次,点赞9次,收藏59次。powerdesigner16.7安装和使用_powerdesigner官网下载

清华汪玉等电子设计自动化ML论文综述:180篇文献、ACM TODAES接收-程序员宅基地

文章浏览阅读354次。来源:机器之心本文约3400字,建议阅读8分钟44页综述、180篇参考文献、16位作者。近年来,机器学习的快速发展使其在各行各业迎来了更加广泛和深入的应用,电子设计自动化领域也不..._eda算法 清华

android gravity和layout_gravity区别-程序员宅基地

文章浏览阅读939次。LinearLayout有两个非常相似的属性:android:gravity与android:layout_gravity。区别在于:android:gravity 用于设置组件本身里面内容或者子控件的对齐方式,比如Button里面的文字,如果android:gravity="left",那么文字文字就会靠左显示android:layout_gravity 用于设置组件在layout容

【SE】Week3 : 四则运算式生成评分工具Extension&Release Version(结对项目)-程序员宅基地

文章浏览阅读165次。Foreword  此次的结对项目终于告一段落,除了本身对软件开发的整体流程有了更深刻的了解外,更深刻的认识应该是结对编程对这一过程的促进作用。    在此想形式性但真心地啰嗦几句,十分感谢能端同学能够不厌其烦地接受我每次对软件的修改提议,并在代码实现过程中为团队贡献了许多人性化的tips;    另外,他积极好学的心态也很让我佩服。从初入面向对象,数据结构的使..._信息四则运算自动打分

HCS 基本概念(三)_hcs global-程序员宅基地

文章浏览阅读716次。6、VIMS心跳网络:如果FC上使用的是VIMS文件系统,则需要部署该网络,可以在数据存储页面选择关闭,关闭之后VIMS心跳流量走管理面,如果单独规划,所有使用虚拟化数据存储的主机都必须单独规划该网络。7、存储网络:CNA后端存储平面,用来为FC提供存储平面的网络,如果使用高级SAN、FS、IP SAN、NAS等后端存储时,需要规划,如果使用FC不需要单独规划。OBS:对象存储服务,一个基于对象的海量存储服务,为客户提供海量、安全、高可靠性、低成本的数据存储能力,适用于任意场景。_hcs global

rust外服组建战队_[新手教程]模组服服务器指令大全(最新版)-程序员宅基地

文章浏览阅读1.7w次。该楼层疑似违规已被系统折叠隐藏此楼查看此楼帮助菜单指令:/bz /help (国服基本为第一条指令,第二天多用于外服)设置家:/sethome_1 /addhome_1 /homeadd_1 (大部分服务器使用第一条指令即可,少数外服使用后两条指令“_”为空格,1为家的名字,可随意更换)查看已设置家的列表:/listhome删除家:/removehome_1 ("_"为空格,1为你想..._rust外服指令

随便推点

【CO101】计算机组成原理笔记4 —— 单周期、多周期、流水线处理器_单周期指令和多周期指令-程序员宅基地

文章浏览阅读1.1w次,点赞38次,收藏116次。笔者:YY同学生命不息,代码不止。好玩的项目尽在GitHub文章目录单周期处理器特点多周期处理器特点单周期处理器特点CPI = 1以指令为单位,对于每条指令而言,都需要耗费 1 个时钟周期在物理设计上,cycle time 必须为统一标准,因此 cycle time 取决于耗时最长的指令 lw(lw需要干的事情最多),而指令中只有少数 lw 指令,因此会有时间上的浪费多周期处理器特点提出划分阶段的思想,将每一条指令拆分为 5 个阶段:IF(Instruction Fetch_单周期指令和多周期指令

Kibana:如何开始使用 Kibana_kibana使用-程序员宅基地

文章浏览阅读1.6w次,点赞12次,收藏79次。Kibana是用于在Elasticsearch中可视化数据的强大工具。 这是开始探索您的Elasticsearch数据的方法。Kibana是一种开免费及开放的分析和可视化工具,可通过基于浏览器的界面轻松搜索,可视化和探索大量数据。 除了Elasticsearch,Logstash和Beats之外,Kibana是Elastic Stack(以前称为ELK Stack)的核心部分。Elasticsearch..._kibana使用

【Comet OJ - Contest #14 E 飞翔的小鸟】【图论】_comet 飞翔的小鸟-程序员宅基地

文章浏览阅读226次。题意给一个nnn个点mmm条边的有向图,对每个点xxx求从111到xxx的所有路径中边权极差最大是多少。n≤200000,m≤500000n\le200000,m\le500000n≤200000,m≤500000分析先缩点,这样新图里的点也有了点权。假设先经过最小值再经过最大值,那么枚举经过最大值之前经过的最后一条边,预处理fxf_xfx​表示走到xxx经过的最大权值,就可以知道每一条..._comet 飞翔的小鸟

从内核驱动到android app_inux驱动为android提供接口-程序员宅基地

文章浏览阅读5.1k次,点赞8次,收藏10次。了解android驱动开发。_inux驱动为android提供接口

Unity3D技术栈-程序员宅基地

文章浏览阅读308次,点赞7次,收藏5次。这款引擎支持多种编程语言,包括C#、UnityScript和Boo,使得开发者可以根据自己的习惯和需求选择合适的工具。同时,Unity3D还提供了丰富的API和工具集,包括物理引擎、动画系统、音频处理、UI设计等,使得开发者能够轻松地构建出高质量的游戏和应用程序。它以其强大的功能、友好的界面和高效的性能,赢得了广大开发者的青睐。但Unity3D的魅力远不止于此,它更是一个完整的技术栈,涵盖了从游戏设计到最终发布的每一个环节。它以其强大的功能、友好的界面和高效的性能,为开发者提供了从设计到发布的全方位支持。

工控: WinCC之OPCUA 使用总结_wincc opc ua服务器设置-程序员宅基地

文章浏览阅读1.6k次。4. 将 C:\Program Files\Siemens\WinCC\opc\UAWrapper\PKI\CA\rejected\certs\ OPC.SimaticNET.S7.der。拷贝到 C:\Program Files\Siemens\WinCC\opc\UAWrapper\PKI\CA\certs 并且安装。3. wincc变量管理 -> opc -> opc groups -> opc条目管理器 -> opc ua 服务器 -> 浏览服务器。_wincc opc ua服务器设置