现在问题出来了,文章内容里面包含了很多HTML标签,用SubString进行截取那会把HTML标签也给截断,也在可能会在标签的属性中截开,这样我们得出来的字符串就是错乱的了。 因此在截取时,对HTML标签进行过滤。
自己的表达能力有限,直接上代码。
代码如下 | 复制代码 |
/// /// 得到分页后的数据 /// /// 按字节长度截取字符串(支持截取带HTML代码样式的字符串) ]*?>.*? ", "$2", RegexOptions.IgnoreCase);temp_result = Regex.Replace(temp_result, @"(?is)]*?>.*?", "$2", RegexOptions.IgnoreCase); temp_result = Regex.Replace(temp_result, @"(?is)]*>", "$2", RegexOptions.IgnoreCase); temp_result = Regex.Replace(temp_result, @"(?is) ]*>", "$2", RegexOptions.IgnoreCase); //用正则表达式取出标记 Pattern = ("([a-zA-Z]+)*>"); m = Regex.Matches(temp_result, Pattern); ArrayList bengHTML = new ArrayList(); foreach (Match mt in m) { bengHTML.Add(mt.Result("$1")); } //补全前面不成对的HTML标记 for (int nn = bengHTML.Count - 1; nn >= 0; nn--) { result.Insert(0, "<" + bengHTML[nn] + ">"); } //用正则表达式取出标记 Pattern = ("<([a-zA-Z]+)[^<>]*>"); m = Regex.Matches(temp_result, Pattern); ArrayList endHTML = new ArrayList(); foreach (Match mt in m) { endHTML.Add(mt.Result("$1")); } //补全后面不成对的HTML标记 for (int nn = endHTML.Count - 1; nn >= 0; nn--) { result.Append(""); result.Append(endHTML[nn]); result.Append(">"); } return result.ToString(); } |
总结:
对文章分页与和数据库分页有一定的区别,它可以有很多种方法有一点就是大家常用的把文件分段保存到数据库,然后读出时判断来分页,另一种方法是我常用的就是利用编辑器的分页符在要分页的地方插入,然后读出时再利用分切函数分开,再利用for来进行分页,上面实现也是如此。