深入理解ES6-2.字符串与正则表达式


主要知识点:新增的字符串处理方法、模板字面量以及正则表达式上的改动

字符串与正则表达式的知识点.png

1. 字符串处理方法

codePointAt()方法

ES6 为全面支持 UTF-16 而新增的方法之一是 codePointAt() ,它可以在给定字符串中按位
置提取 Unicode 代码点。该方法接受的是码元位置而非字符位置,并返回一个整数值。

String.fromCodePoint()方法

可以使用codePointAt() 来提取字符串内中某个字符的代码点,也可以借助 String.fromCodePoint()用给定的代码点来产生包含单个字符的字符串

normalize()方法

Unicode 另一个有趣之处是,不同的字符在排序或其它一些比较操作中可能会被认为是相同
的。有两种方式可以定义这种关联性:第一种是规范相等性(canonical equivalence ) ,
意味着两个代码点序列在所有方面都被认为是可互换的。例如,两个字符的组合可以按规范
等同于另一个字符。第二种关联性是兼容性(compatibility ) ,两个兼容的代码点序列看起
来有差别,但在特定条件下可互换使用。

ES6 给字符串提供了 normalize() 方法,以支持 Unicode 标准形式。因此,在比较字符时,可以先将字符用同一种标准化方法,让它们标准化,再进行比较,例如,比较字符数组中的大小:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
let compare = function(values=[]){
values.sort((first,second)=>{
let firstNormalized = first.normalize();
let secondNormalized = second.normalize();

if (firstNormalized < secondNormalized) {
return -1;
} else if (firstNormalized === secondNormalized) {
return 0;
} else {
return 1;
}
})

}

let arr = ['a','z','c','g'];
compare(arr);
console.log(arr);//["a", "c", "g", "z"]

识别子字符串的方法

为了识别字符串是否存在于其他字符串中,ES6提供了相应的方法来满足这类需求:

  • includes()方法:在给定文本存在于字符串中的任意位置时会返回 true,否则会返回 false
  • startsWith() 方法:在给定文本出现在字符串起始处时返回 true ,否则返回 false
  • endsWith() 方法:在给定文本出现在字符串结尾处时返回 true ,否则返回 false

每个方法都接受两个参数:需要搜索的文本,以及可选的搜索起始位置索引。当提供了第二
个参数时, includes()startsWith()方法会从该索引位置开始尝试匹配;当第二个参数未提供时, includes()startsWith() 方法会从字符串起始处开始查找,而 endsWith()方法则从尾部减去第二个参数后的位置作为起始位置。

repeat()方法

ES6 还为字符串添加了一个 repeat() 方法,它接受一个参数作为字符串的重复次数,返回一个将初始字符串重复指定次数的新字符串。例如:

1
2
3
4
//repeat()方法

console.log('x'.repeat(3)); //xxx
console.log('hello world'.repeat(2)); //hello worldhello world

2. 模板字面量

基本语法

模板字面量的最简单语法,是使用反引号 )` 来包裹普通字符串,而不是用双引号或单引号,例如:

1
2
3
4
5
6
//模板字面量

let message = `hello world`;
console.log(message); //hello world
console.log(typeof message); //string
console.log(message.length); //1

若想字符串中包含反引号,可以使用反斜杠(\)进行转义即可:

1
2
let  message = `\`hello world\``;
console.log(message); //`hello world`

多行字符串

使用模板字面量可以轻松创建多行字符串,例如:

1
2
3
4
5
6
7
8
let message = `hello

world`;
console.log(message);
输出:
hello

world

替换位

替换位可以嵌入到模板字面量中,替换位最终可以转换为字符串的一部分输出。替换位可以是任意的js表达式。替换位的语法采用 ${} 表示。

例如,替换位为变量:

1
2
3
let msg = 'hello';
let message = `${msg} world`;
console.log(message); //hello world

替换位不仅仅可以是简单的变量,还可以嵌入计算表达式、函数调用等,甚至还可以将模板字面量作为替换位嵌入到另一个模板字面量中。

3. 模板标签

一个模板标签(template tag ) 能对模板字面量进行转换并返回最终的字符串值,标签在模板的起始处被指定,即在第一个 ` 之前。例如:

1
let message = tag`Hello world`;

tag 就是会被应用到 Hello world 模板字面量上的模板标签。

定义标签

一个标签(tag ) 仅是一个函数,它被调用时接收需要处理的模板字面量数据。标签所接收的数据被划分为独立片段,并且必须将它们组合起来以创建结果。第一个参数是个数组,包含被 JS 解释过的字面量字符串,随后的参数是每个替换位的解释值。

标签函数的参数一般定义为剩余参数形式,以便更容易处理数据,如下:

1
2
3
function tag(literals, ...substitutions) {
// 返回一个字符串
}

使用模板字面量中的原始值

模板标签也能访问字符串的原始信息,主要指的是可以访问字符在转义之前的形式。获取原始字符串值的最简单方式是使用内置的 String.raw() 标签。例如:

1
2
3
4
5
let message1 = `Multiline\nstring`,
message2 = String.raw`Multiline\nstring`;
console.log(message1); // "Multiline
// string"
console.log(message2); // "Multiline\nstring"

4. 正则表达式的改动

1.正则表达式u标识:你可以使用正则表达式来完成字符串的很多通用操作。但要记住,正则表达式假定单个字符使用一个 16 位的码元来表示。为了解决这个问题, ES6 为正则表达式定义了用于处理Unicode 的 u 标志。当一个正则表达式设置了 u标志时,它的工作模式将切换到针对字符,而不是针对码元。
2.正则表达的y标志: y 标志影响正则表达式搜索时的粘连( sticky ) 属性,它表示从正则表达式的 lastIndex 属性值的位置开始检索字符串中的匹配字符。如果在该位置没有匹配成功,那么正则表达式将停止检索;
3.复制正则表达式:使用RegExp构造器时允许使用第二个参数,并且让它覆盖第一个参数中的标志;
4.flag属性:ES6 新增了 flags 属性用于配合 属性,让标志的获取变得更容易。例如:

1
2
3
var re = /ab/g;
​console.log(re.); // ab
​console.log(re.flags); // g

本例查找了 re 的所有标志并将其打印到控制台,所用的代码量要比 toString() 方式少得多。同时使用 flags 允许你直接提取正则表达式的组成部分,而不必将正则表达式转换为字符串。

热门推荐
解构使得在 JS中操作对象与数组变得更容易。使用熟悉的对象字面量与数组字面量语法,可以将数据结构分离并只获取你感兴趣的信息。对象解构模式允许你从对象中进行提取,而数组模式则能用于数组。
点击阅读全文

 评论