JavaScript的字符串是UCS-2编码,但可以表示基本多窗格外Unicode代码点(U+0000
- U+D7FF
和U+E000
- U+FFFF
),使用2个16位数字(一个UTF-16 代理对),第一它必须在范围U+D800
- U+DFFF
。
基于此,很容易检测字符串是否包含位于基本多语言平面之外的任何字符(这正是我想问的问题:您希望能够识别字符串是否包含任何字符谎言的代码的范围之外指向的JavaScript表示为单个字符):
function containsSurrogatePair(str) {
return /[\uD800-\uDFFF]/.test(str);
}
alert(containsSurrogatePair("foo")); // false
alert(containsSurrogatePair("f")); // true
工作出精确其中码点集中包含的字符串是有点困难,并且需要UTF-16的解码器。下面将一个字符串转换为Unicode代码点的数组:
var getStringCodePoints = (function() {
function surrogatePairToCodePoint(charCode1, charCode2) {
return ((charCode1 & 0x3FF) << 10) + (charCode2 & 0x3FF) + 0x10000;
}
// Read string in character by character and create an array of code points
return function(str) {
var codePoints = [], i = 0, charCode;
while (i < str.length) {
charCode = str.charCodeAt(i);
if ((charCode & 0xF800) == 0xD800) {
codePoints.push(surrogatePairToCodePoint(charCode, str.charCodeAt(++i)));
} else {
codePoints.push(charCode);
}
++i;
}
return codePoints;
}
})();
alert(getStringCodePoints("f").join(",")); // 102,119558
正则表达式? – Marco 2011-02-02 17:06:17
要测试什么? – nickf 2011-02-02 17:27:36