用PHP换个思路读取WORD内容
项目:问卷
需求:WORD 导入问卷
背景:运营那里有几百个 WORD 格式问卷,如果去后台手动录入,无疑工作量很大,希望能直接导入。
心情:接到需求之后五味杂陈,因为以前做过 excel 导入,而且有现成的插件,代码也是一搜索一堆。
word 导入无疑涉及到了知识盲点,但是需求就在那里,又怼不过产品同学!只能硬着头皮上了。
难点:word 不好读取内容,内容读出来不好结构化。
解决问题思路:
先读取 WORD, 再说怎么结构化。
读取 WORD:
一开始想着用 PHPWORD, 毕竟 PHPOFFICE 这么成熟的插件应该可以直接读取到 WORD 内容吧。
然而现实很骨感,找遍了文档并没有找到直接读取到 WORD 内容的方法。PHPWORD 只提供了把 WORD 转换成 HTML,TDF 的方法。
转换思路:
既然不能读取 WORD, 那我可以读取 HTML, 只需要把 WORD 转换成 HTML 就可以了,然后读取 HTML 内容就行。
代码:
<?php namespace App\Console\Commands; use Illuminate\Console\Command; use PhpOffice\PhpSpreadsheet\Reader\Html; use PhpOffice\PhpWord\Reader\Word2007; class Test extends Command { /** * The name and signature of the console command. * * @var string */ protected $signature = 'word'; /** * The console command description. * * @var string */ protected $description = 'word'; /** * Create a new command instance. * * @return void */ public function __construct() { parent::__construct(); } /** * Execute the console command. * * @return int */ public function handle(Word2007 $word) { //WORD转换HTML $result=$word->load(storage_path('测试.docx')); $write=new \PhpOffice\PhpWord\Writer\HTML($result); $write->save(storage_path().'/测试.html'); //读取HTML内容 $document=new \DOMDocument(); $document->loadHTML(file_get_contents(storage_path('测试.html'))); $html=simplexml_import_dom($document); dd((array)$html->body); } }
开始测试:新建 测试.docx
测试.docx 内容:
执行脚本:
php artisan word
结果:
相关阅读 更多
-
Linux常用命令awk的用法 grep、awk、sed三者的区别 时间:2025-09-09
-
C++中命名空间的定义、使用、作用、类型、和类的区别 时间:2025-09-09
-
batchplot插件用法 batchplot插件安装教程 时间:2025-09-09
-
%s在c语言中含义和用法 %s和其他格式化符号的区别 时间:2025-09-09
-
%s在python中含义和用法 %s和其他格式化符号的区别 时间:2025-09-09
-
计算机MAR代表什么 MAR和MDR的区别 时间:2025-09-09
今日更新
-
瞳孔地震是什么梗?揭秘网络热词背后的爆笑瞬间!
阅读:18
-
统一六国的梗是什么梗?揭秘秦始皇爆笑网络热梗背后的真相!
阅读:18
-
捅西瓜梗是网络流行语,源自搞笑视频中夸张捅西瓜动作,暗指用极端方式解决问题,幽默又带讽刺意味。
阅读:18
-
怪兽八号手游核爆配队详解-适用所有主C
阅读:18
-
逆水寒手游十月版本前瞻-航母联动特色逆水杀曝光
阅读:18
-
女神异闻录:夜幕魅影P5X-片山久未技能简读搭配推荐
阅读:18
-
时空绘旅人幕叙心事活动预告-可获得罗夏CR独白等奖励
阅读:18
-
桶是什么梗?揭秘网络热词桶的搞笑来源和流行用法,看完秒懂!
阅读:18
-
CF手游MK5哪吒怎么样-MK5哪吒武器前瞻
阅读:18
-
恋与深空限定喵呜币额外掉落-秋游喵喵系列徽章上新
阅读:18