聊聊Excel解析：如何处理百万行EXCEL文件？( 四 ) _Excel

< skus>
< skuid= "345000">
< name> 电脑A </ name>
< price> 5999.0 </ price>
</ sku>
< skuid= "345001">
< name> 手机C </ name>
< price> 4599.0 </ price>
</ sku>
</ skus>
对照 XML 结构，创建 Java 实体类：
importlombok.Data;
@Data
publicclassSku{
privateLongid;
privateString name;
privateDoubleprice;
}
自定义事件处理类 SkuHandler：
importcom.alibaba.fastjson.JSON;
importorg.shy.domain.pojo.Sku;
importorg.xml.sax.Attributes;
importorg.xml.sax.SAXException;
importorg.xml.sax.helpers.DefaultHandler;
publicclassSkuHandler extendsDefaultHandler {
/**
* 当前正在处理的sku
*/
privateSku sku;
/**
* 当前正在处理的节点名称
*/
privateStringtagName;
@Override
publicvoidstartElement( Stringuri, StringlocalName, StringqName, Attributes attributes) throws SAXException {
if( "sku".equals(qName)) {
sku = newSku;
sku.setId(Long.valueOf((attributes.getValue( "id"))));
}
tagName = qName;
}
@Override
publicvoidendElement( Stringuri, StringlocalName, StringqName) throws SAXException {
if( "sku".equals(qName)) {
System.out.println( JSON.toJSONString(sku));
// 处理业务逻辑
// ...
}
tagName = null;
}
@Override
publicvoidcharacters(char[] ch, int start, int length) throws SAXException {
if( "name".equals(tagName)) {
sku.setName( newString(ch, start, length));
}
if( "price".equals(tagName)) {
sku.setPrice(Double.valueOf( newString(ch, start, length)));
}
}
}
其中，SkuHandler 重写了三个事件响应方法：
startElement—— 每当扫描到新 XML 元素时，调用此方法，传入 XML 标签名称 qName，XML 属性列表 attributes；
characters—— 每当扫描到未在 XML 标签中的字符串时，调用此方法，传入字符数组、起始下标和长度；
endElement—— 每当扫描到 XML 元素的结束标签时，调用此方法，传入 XML 标签名称 qName 。
我们用一个变量 tagName 存储当前扫描到的节点信息，每次扫描节点发送变化时，更新 tagName；
用一个 Sku 实例维护当前读入内存的 Sku 信息，每当该 Sku 读取完成时，我们打印该 Sku 信息，并执行相应业务逻辑。这样，就可以做到一次读取一条 Sku 信息，边解析边处理。由于每行 Sku 结构相同，因此，只需要在内存维护一条 Sku 信息即可，避免了一次性把所有信息读入内存。
调用 SAX 解析器时，使用 SAXParserFactory 创建解析器实例，解析输入流即可，Main 方法如下：
importorg.shy.xlsx.sax.handler.SkuHandler;
importjavax.xml.parsers.SAXParser;
importjavax.xml.parsers.SAXParserFactory;
importjava.io.InputStream;
publicclassMySax{
publicstaticvoidmain(String[] args)throwsException {
parseSku;
}
publicstaticvoidparseSkuthrowsException {
SAXParserFactory saxParserFactory = SAXParserFactory.newInstance;
SAXParser saxParser = saxParserFactory.newSAXParser;
InputStream inputStream = ClassLoader.getSystemResourceAsStream( "skus.xml");
saxParser.parse(inputStream, newSkuHandler);
}
}
输出结果如下：
{ "id": 345000, "name": "电脑A", "price": 5999.0}
{ "id": 345001, "name": "手机C", "price": 4599.0}
以上演示了 SAX 解析的基础原理。EventModel 的 API 更复杂，同样通过重写 Event handler，实现 SAX 解析。有兴趣的读者，请参见 POI 官网的示例代码： https://poi.apache.org/components/spreadsheet/how-to.html
EventModel 的局限
POI 官方提供的 EventModel API 虽然使用 SAX 方式解决了 DOM 解析的问题，但是存在一些局限性：
① 属于 low level API，抽象级别低，相对比较复杂，学习使用成本高。
② 对于 HSSF 和 XSSF 类型的处理方式不同，代码需要根据不同类型分别做兼容。
③ 未能完美解决内存溢出问题，内存开销仍有优化空间。
④ 仅用于 Excel 解析，不支持 Excel 写入。
因此，笔者不建议使用 POI 原生的 EventModel，至于有哪些更推荐的工具，请看下文。

聊聊Excel解析：如何处理百万行EXCEL文件？( 四 )

推荐阅读

磋商又生波澜，中方态度依旧！

现代快报|返程小高峰来了！江苏高速车多缓行累计超110公里

香菇隔夜能吃吗

LCK|S10淘汰赛对阵分析：LPL和LCK各凭实力，胜者为王！

大S|85岁马玉琴公园和老头热舞，李玉成反应惹争议，网友：占有欲真强

中国新说唱■从《中国新说唱》到《说唱听我的》，这一次，该他们“火”了

ZAKER精选|那潜力新星王泉泽呢？林书豪晒出了1大好消息！，张镇麟在CBA大放异彩

微软|日本网友反对微软收购抖音，理由令中国人没想到！

白岩松又出金句，60到80是最好的年龄！惊醒千万老人！

冰变成水最快的方法是什么打一数字冰变成水最快的方法是什么

社交障碍|美方考虑关停一些中方社交软件？中国外交部：不要选择性设置障碍

「」清明前，钓鱼用2滴，10分钟上鱼，农村大哥靠这个钓鱼能装两大筐

一刀斩斩斩男的女的。我是幕后大佬烂尾了吗

中国五大淡水湖五大淡水湖

梅西|只差8球了！梅西即将打破球王尘封46年纪录，C罗或将成为背景板！

武神美军一架战机突然坠毁，俄：这不是巧合，伊朗下令舰队逼近美本土

此间少年|是一种幸福”，简安颜创始人简练：“成为自己想成为的人

体检|雄安新区：“未来之城”拔节生长 “智慧蓝图”轮廓渐明

湖北首次出现8个0|湖北首次出现8个0！加油！坚持！

知道老板为什么让你“薪资保密”么？