2017-08-06 3254 views
1

我使用下面的函数来编码URL /在我的bash脚本标题编码URL UTF8 - 壳脚本

urlencode() { 
    # urlencode <string> 
    old_lc_collate=$LC_COLLATE 
    LC_COLLATE=C 

    local length="${#1}" 
    for ((i = 0; i < length; i++)); do 
     local c="${1:i:1}" 
     case $c in 
      [a-zA-Z0-9.~_-]) printf "$c" ;; 
      *) printf '%%%02X' "'$c" ;; 
     esac 
    done 

    LC_COLLATE=$old_lc_collate 
} 

了出来放了一些PARAMS如下:

description=%627%644%639%628%627%62F%64A 
downloadurl=http%3A%2F%2Fmedia.myhomepage.com%2Fmedia%2FVT-142437WE-WEB-IRQ-MOSUL-PROGRESS-HAWAMDA_2017-03-08_14%3A28%3A12.mp4 
title=%623%647%644GKxS7otlAsujiRxXHTvshUE9 

也使用下面的java代码来编码相同的参数

URLEncoder.encode(video.getHeadline() , UTF_8_ENCODING).replace("+", "%20"); 
URLEncoder.encode(video.getHeadline() , UTF_8_ENCODING) 

和out是不同的bash

description=%D8%A7%D9%82%D8%AA%D8%AD%D9%85%D8%AA%20%D8%A7%D9%84%D9%82%D9%88%D8%A7%D8%AA%20%D8%A7%D9%84%D8%B9%D8%B1%D8%A7%D9%82%D9%8A%D8%A9%20%D8%AD%D9%8A%20%D8%A7%D9%84%D9%85%D9%86%D8%B5%D9%88%D8%B1%20%D8%BA%D8%B1%D8%A8%20%D8%A7%D9%84%D9%85%D9%88%D8%B5%D9%84%20%D8%B6%D9%85%D9%86%20%D8%AA%D9%82%D8%AF%D9%85%D9%87%D8%A7%20%D9%81%D9%8A%20%D8%A7%D9%84%D8%B3%D8%A7%D8%AD%D9%84%20%D8%A7%D9%84%D8%BA%D8%B1%D8%A8%D9%8A%20%D9%85%D9%86%20%D8%A7%D9%84%D9%85%D8%AF%D9%8A%D9%86%D8%A9%20%D8%AA%D9%85%D9%87%D9%8A%D8%AF%D8%A7%20%D9%84%D8%A7%D8%B3%D8%AA%D8%B9%D8%A7%D8%AF%D8%AA%D9%87%D8%A7%20%D9%85%D9%86%20%D8%AF%D8%A7%D8%B9%D8%B4.%20%D9%85%D9%86%20%D8%AC%D9%87%D8%A9%20%D8%A3%D8%AE%D8%B1%D9%89%20%D8%AE%D9%8A%D9%91%D8%B1%20%D8%B1%D8%A6%D9%8A%D8%B3%20%D8%A7%D9%84%D9%88%D8%B2%D8%B1%D8%A7%D8%A1%20%D8%A7%D9%84%D8%B9%D8%B1%D8%A7%D9%82%D9%8A%20%D8%AD%D9%8A%D8%AF%D8%B1%20%D8%A7%D9%84%D8%B9%D8%A8%D8%A7%D8%AF%D9%8A%20%D9%85%D8%B3%D9%84%D8%AD%D9%8A%20%D8%A7%D9%84%D8%AA%D9%86%D8%B8%D9%8A%D9%85%20%D8%A8%D9%8A%D9%86%20%D8%A7%D9%84%D8%A7%D8%B3%D8%AA%D8%B3%D9%84%D8%A7%D9%85%20%D9%88%D8%A7%D9%84%D9%82%D8%AA%D9%84. 


downloadurl=http%3A%2F%2FFmedia.myhomepage.com%2Fmedia%2Fvideos%2F2017%2F03%2F08%2FVT-142437WE-WEB-IRQ-MOSUL-PROGRESS-HAWAMDA_2017-03-08_14%3A28%3A12.mp4 


title=%D8%A7%D9%84%D8%B9%D8%A8%D8%A7%D8%AF%D9%8A%20%D9%8A%D8%AE%D9%8A%D8%B1%20%D9%85%D8%B3%D9%84%D8%AD%D9%8A%20%D8%AF%D8%A7%D8%B9%D8%B4%20%D8%A8%D9%8A%D9%86%20%D8%A7%D9%84%D8%A7%D8%B3%D8%AA%D8%B3%D9%84%D8%A7%D9%85%20%D9%88%D8%A7%D9%84%D9%82%D8%AA%D9%84 

请告知我怎么能achgive Java具有的相同输出喜欢在bash shell中java.net.URLEncoder.encode()的对应

+0

看起来像你的标题和描述是多字节的UTF-8序列,你能证实吗? –

+0

是的,这是正确的 – Jecki

+0

你可以调用外部命令(即'curl')还是仅限于纯粹的bash? –

回答

0

这oneliner依靠xxd得到hexdump都庆典字符串,则预先将逃逸:

string="العبادي يخير مسلحي داعش بين الاستسلام والقتل" 
echo $string | xxd -g 1 | cut -d' ' -f2-17 | sed 's/\([0-9a-f][0-9a-f]\) /%\1/g' | sed -e ':a' -e 'N' -e '$!ba' -e 's/\n//g' 

结果:

%D8%A7%D9%84%D8%B9%D8%A8%D8%A7 %D8%AF%D9%8A%20d9%8A%D8%AE%D9%8A%D8%B1%20%D9%85%D8%B3%D9%84%d8ad%D9%8A%20%D8%AF %D8%A7%D8%B9%D8%B4%20%D8%A8%d98a%D9%86%20%D8%A7%D9%84%D8%A7%D8%B3%D8%AA%D8%b3d9 %84%D8%A7%D9%85%20%D9%88%D8%A7%D9%84%D9%82%d8aa%D9%84%0A

1

如果需要URL编码数据只是稍后将它传递给curl(正如你在评论中提到的那样),我会建议让curl负责使用--data-urlencode <data>选项的编码。

例如:

title="Mačka" 
url="http://google.com/?q=mačka" 
curl -G example.com/?foo=bar --data-urlencode "title=$title" --data-urlencode "url=$url" 

使得像请求:

GET /?foo=bar&title=Ma%C4%8Dka&url=http%3A%2F%2Fgoogle.com%2F%3Fq%3Dma%C4%8Dka 

通知使用-G迫使GET方法;没有它,任何--data-*选项默认为POST方法和正文中的参数。