当前位置

去掉Word转HTML后多余的代码

James Qi 在 2013年11月10日 - 17:25 提交

  最近想把一些下载到的Word或者PDF文档放置到以前的MediaWiki网站中去,格式转换有些麻烦,网上可以找到一些工具,但似乎都不是很适合我来用。

  Word文档可以另存HTML文件(使用过滤的HTML格式可以去掉图片等附加文件),但打开HTML查看源文件会发现大量字体css代码需要清理。

  我想尝试搞个PHP小程序来进行过滤,如下:

输入框
复制原始内容到以上输入框中
输出框1
输出简化HTML代码
按ctrl-a全选,按ctrl-c复制
输出框2
输出MediaWiki代码
按ctrl-a全选,按ctrl-c复制

  另外一种现成的工具Microsoft Office Word Add-in For MediaWiki请看补充留言。

自由标签:

评论

为了实现Word内容转Wiki格式,我在以前那台笔记本电脑中安装过下面这个插件,从微软官方网站下载的:

Microsoft Office Word Add-in For MediaWiki 

如果都可以用这个转换,其实可以不用先转HTML再转Wiki的,但实际使用中发现对有些Word文件无法转Wiki成功,就只能让可以转换成功的就直接转,不能转换成功的就用上面Word -> HTML -> Wiki的办法间接转。

James Qi / 祁劲松

添加新评论

Plain text

  • 不允许使用HTML标签。
  • 自动将网址与电子邮件地址转变为链接。
  • 自动断行和分段。