下面就來介紹一下Linux系統查找替換非UTF-8編碼文件的方法。
開始之前,請先安裝enca這個軟件包。enca是Linux等系統下用來查看文件編碼和轉換文件編碼的工具。
下面一行Linux命令能夠查找當前目錄下所有文件中,哪些文件不是UTF-8編碼。我對文件加了些限制,用find命令時候,排除了所有目錄下的.svn目錄,且只查找后綴為.php的文件。
命令1:
jw@~/sqlite>
find 。 ! -iregex ‘.*.svn.*’ -type f -name ‘*.php’ -exec bash -c “enca -L zh_CN {}|grep GB2312 》 /dev/null && echo {}” ;
./sqlite_utility.php
./sqlite_result.php
./sqlite_forge.php
./sqlite_driver.php
既然找到了這些非UTF8編碼的文件,接下來再用一條命令將他們都轉換成UTF8編碼。
命令2:
jw@~/sqlite>
find . ! -iregex ‘.*.svn.*’ -type f -name ‘*.php’ -exec bash -c “enca -L zh_CN {} | grep GB2312 》/dev/null && enconv -L zh_CN -x UTF-8 {}” ;
當你用命令2 全部轉換完成后,如果你期待命令1的輸出為空,那么你就錯了。實際上英語字母的utf8編碼和ASCII編碼是一樣的。當一個全是英文字母的文件用UTF8 w/o BOM編碼保存,那么enca會識別他是一個ACSII編碼的文件。所以,你猜到了,命令2做了一些無用功。
好啦,以上就是華軍小編帶給大家的全部內容了,是不是很簡單呢?你學會了么?想了解更多的相關內容,請隨時關注華軍資訊動態吧,歡迎到華軍來下載哦!