欧美日韩在线第一页-欧美日韩在线观看精品-欧美日韩在线观看一区二区-欧美日韩在线免费看-欧美日韩在线视频不卡一区二区三区

編程代碼
新聞詳情

C++與正則表達式入門(二)

發布時間:2020-10-16 16:28:54 最后更新:2020-11-23 14:32:07 瀏覽次數:2937

正則表達式編程 

 接下來我們會看到更多的示例。同時,也會看到C++正則表達式API的更多功能。 為了便于下文示例的講解,我們以維基百科上對于正則表達式的介紹文本為基礎。

我們將這段文字保存在名稱為content.txt的文本文件中。下面幾個示例會在這個文本上操作。

迭代器

在上文中,為了從字符串中查找出所有匹配的字符,我們的做法是遍歷原始字符串的每一個子字符串來進行查找,這樣做很明顯效率很低。更好的做法當然是使用迭代器。


正則表達式迭代器一共有四種,分別對應了是否是寬字符,是否是字符串類型:

在一大段文本中查找所有匹配的目標,這是一個非常常見的需求。而迭代器正好滿足這一需求,它會依次返回它從文本中找到的匹配內容。

  • 示例:統計出文本中一共出現了多個單詞。
思路:組成單詞的字母可以使用[[:alpha:]]字符類來表達,一個單詞至少有一個字母,因此這個正則表達式可以寫成:[[:alpha:]]+。然后借助迭代器便可以統計出總數量。
代碼示例如下:

這段代碼的說明如下:

  1. 匹配單詞的正則表達式
  2. 通過ifstream讀取文本文件
  3. 依次讀取文本文件中的每一行
  4. 通過正則表達式迭代器從文本行的逐個匹配
  5. 迭代器的末尾
  6. 迭代器遍歷
  7. 每遇到一個匹配進行一次計數
  8. 如果需要,可以輸出匹配的內容

這段代碼輸出如下:

接下來的幾個代碼示例的主體結構和這里會很相似,我們總是先打開文本文件,然后讀取每一行來進行處理。

正則表達式選項

前面的示例中我們已經看到,通過std::regex并傳遞字符串就可以構造正則表達式對象。實際上,除了std::regex,還有寬字符版本的std::wregex。它們都源自std::basic_regex

在創建正則表達式對象的時候,除了描述規則本身的字符串之外,還可以傳遞一個flag_type類型的參數,該參數的值定義在std::regex_constants::syntax_option_type中。它們中與“文法”相關的已經在上文介紹過了。


剩下的還有幾個說明如下:

這其中,第一個是我們最常用的。

示例:匹配文本中“regular expression”所有的單復數,并且不區分大小寫。

思路:單詞的首字母有些會大寫,我們可以通過[Rr]來匹配大寫或者小寫的R字母,但實際上,使用icase無疑會更方便。


代碼示例:

這段代碼與前面的結構是一樣的,我們最需要關注的可能就是下面這一行:

通過std::regex::icase我們指定了這個正則表達式是不區分大小寫的。

另外還有一個值得注意的就是正則表達式末尾的...s?,它意味著單詞可能是單數或者復數,因此結尾的“s”可以出現0次或者1次。

這段代碼輸出如下:

匹配結果與分組

std::match_results用來存儲匹配結果。與迭代器類似,匹配結果也有四種類型:

當我們使用正則表達式時,我們的目標常常不單單是判斷或者查找完整匹配的內容。而是需要捕獲匹配結果中的子串。例如:我們不僅要匹配出日期,還要捕獲日期中的年份,月份等信息。這個時候就要使用分組功能。

我們在介紹正則表達式特殊字符的時候,提到過圓括號()。它們的作用就是分組。當你在正則表達式中配對的使用圓括號時,就會形成一個分組,一個正則表達式中可以包含多個分組。分組通過編號0, 1, 2, …來區分。編號0的分組是匹配的整體,其他編號根據括號的順序來確定。

這些分組最終可以在匹配完成之后,可以通過std::match_results的API來獲取。這些API如下表所示:

在C++中,分組叫做子匹配(sub_match)。std::sub_match 這個類型只有一個默認構造函數,通常你不會主動創建它,而是使用std::match_results的接口來獲取它的對象。

示例:查找出文本中所有的年代,并分離出世紀的部分和年份的部分。 思路:年代的格式是四位數字加上“s”作為后綴。我們可以通過分組的形式分離出兩個部分。圖示如下:

代碼示例:

這段代碼說明如下:

  1. 這個正則表達式請注意其中的圓括號
  2. 先打印匹配的字符串整體
  3. 所有的分組數量,應該是 2 + 1 = 3
  4. 打印出世紀的部分
  5. 獲取編號2的分組,其類型是sub_match

這段代碼輸出如下:

稍微深入一點的內容

同一個符號的不同含義

前面的表格中,我們看到了正則表達式的特殊字符。但需要進一步說明的是,這些特殊字符在不同的環境可能有著不同的含義。


例如,特殊字符-只有在字符組[...]內部才是元字符,否則它只能匹配普通的連字符符號。并且,即便在字符組內部,如果連字符是在開頭,它依然是一個普通字符而不是表示一個范圍。


相反的,問號?和點號.不在字符組內部的時候才是特殊字符。因此[?.]中的這兩個符號僅僅代表這兩個字符自身。


還有,字符^出現在字符組中的時候表示的是否定,例如:[a-z]和[^a-z]表示的是正好相反的字符集。但是當字符^不是用在字符組中的時候,它是一個錨點,具體內容下文會說到。

量詞的占有欲

還是以content.txt的內容為基礎,現在假設我們的目標是:找出所有雙引號中的內容。

根據之前的知識,你可能很輕松就寫出了下面這個正則表達式:

  • 兩邊的雙引號通過反斜杠轉義
  • 待捕獲的內容通過圓括號形成分組
  • 雙引號中可以是任意內容,因此使用.+

但是當你運行程序的時候卻發現它可能有點問題。它捕獲的結果是:

為什么?其實很簡單,因為雙引號本身也可以與.匹配。上面這個正則表達式的含義是:匹配一個兩端是雙引號,中間是任意文字的內容。


當然,你馬上想到一個改進方法那就是:將正則表達式圓括號中的.+改為[^"]+,它的含義是:一個或多個非雙引號字符。這么做是可以的。但其實我們還有更好的做法。


我們再回頭看一下原先的正則表達式,不考慮分組和轉義,它可以寫成:".+"。其實我們知道下面這三個字符串都是與其匹配的:

而將整個文本交給正則表達式的時候,它找出了最長的那個串。可見,原先的正則表達式太過“貪婪”(greedy)。是的,量詞在默認情況都是貪婪的。即:它們會盡可能多的占有內容。


那我們能不能控制量詞讓其盡可能少的占有內容,只要滿足匹配要求就可以呢?


答案是肯定的,而且做法很簡單:在量詞的后面加上一個?。即,將圓括號中.+修改為.+?即可。量詞的默認形式稱之為“匹配優先量詞”,現在這種寫法稱之為“忽略優先量詞”。


現在它找到的是下面兩個匹配:

小結一下:

錨點

錨點是一類特殊的標記,它們不會匹配任何文本內容,而是尋找特定的標記。你可以簡單理解為它是原先表達式的基礎上增加了新的匹配條件。如果條件不滿足,則無法完成匹配。

錨點主要分為三種:

下面是代碼示例:

它的輸出如下:

環視

現在假設我們有下面兩個需求:

  1. 匹配出所有sometimes中的前四個字符“some”
  2. 匹配出所有的單詞some,但是要排除掉“some birds”中的“some”

對于第一個問題,我們可以分兩步:先找出所有的單詞sometimes,然后取前四個字符。對于第二個問題,我們可以先找出所有的單詞“some”,然后把后面是“birds”的丟掉。

以上的解法都是分兩步完成。但實際上,借助環視(lookaround)我們可以一步就完成任務。

環視是對匹配位置的附加條件,只有條件滿足時才能完成匹配。環視有:順序(向右),逆序(向左),肯定和否定一共四種:

環視說起來有些拗口,但看具體的例子就容易理解了:

這段代碼并不復雜所以就不多做說明,它的輸出結果如下:

對于包含環視的正則表達式來說,環視之外的內容是匹配的主體,環視本身只是一個附件條件。(?=sometimes)這個肯定順序環視要求從這個位置開始,接下來的字符串必須是"sometimes"才能完成匹配。(?!some birds)這個否定順序環視要是接下來的字符串一定不能是"some birds"才能完成匹配。


為了進一步幫助你理解,我們以圖示的方式將(?=sometimes)some匹配"something"的過程描述出來。


圖示中,虛線的上面是待匹配的文本,下面是正則表達式。對于環視,我們可以將其環視條件和主體分開來看。我們以一個下標三角箭頭表示當前匹配的搜索位置。


剛開始的時候,搜索的位置是第一個字符的前面:

接下來,搜索位置往后走一個字符:

img

這個過程可以一直進行,直到匹配完"some"

img

雖然正則表達式的主體"some"完成了匹配,但是接下來環視的條件卻無法滿足,于是匹配失敗:

img

但是,如果要匹配內容正好是"sometimes",則條件是滿足的,于是就完成了匹配。

img


在線客服 雙翌客服
客服電話
  • 0755-23712116
  • 13822267203
主站蜘蛛池模板: 中文字幕日本一级高清片| 国产黄频| 成人国产亚洲| 97日韩| 激情性爽三级成人| 国产肉丝在线| 中文字幕专区在线亚洲| 亚洲 欧美 综合| 精品在线免费观看视频| 免费能看的黄色网址| 一级毛片网| 精品国产自在现线看久久| 国产视频三区| 日韩视频免费看| 色综合天天娱乐综合网| 黄色在线观看视频网站| 成人做爰全过程免费看视频| 91精品国产综合久| 国产乱码视频| 国产真实乱人视频在线看| 东京道一本热大交乱| 亚洲成人国产精品| 黄色影视大全| 在线观看免费黄色| 亚洲欧美制服丝袜一区二区三区| 99这里只有精品66视频| 欧美 日韩 国产 成人 在线观看| 一级毛片免费一级直接观看| 精品国产福利久久久| 国产毛片一级| 五月天爱爱| 久久精品在这里| 国产在线观看黄色| 女人天堂网在线观看2019 | 女人精69xxxxx免费视频| 视频在线亚洲| 风间由美中文字幕亚洲一区| 色偷偷尼玛图亚洲综合| 美女免费视频网站| 东京不热视频在线观看| 色视频国产|