2012年12月2日日曜日

MSXML6のgettext()が異常に遅い件

MSXML6をXMLの読み込みに使っているが、国土地理院のページで配布されている標高メッシュのXMLを読み込ませたところ、これがとにかく遅い!

問題のXMLは以下のように values要素が約84万個大量に並んでいるもので、容量はおよそ100MB程度である。
<jps:CV_GridValuesMatrix> <jps:values> <jps:memberValue> <type>その他</type> <alti>-9999.00</alti> </jps:memberValue> </jps:values> <jps:values> <jps:memberValue> <type>その他</type> <alti>-9999.00</alti> </jps:memberValue> </jps:values> ... </jps:CV_GridValuesMatrix>
これを以下のようなコードで読み込ませてみると、数10分かかっても処理が終わらない。
MSXML2::IXMLDOMNodePtr p = pCV_GridValuesMatrix->firstChild; while (p) { if (p->GetnodeName() == _bstr_t(L"jps:values")) { MSXML2::IXMLDOMNodePtr pAlti = p->firstChild->firstChild; double d = _wtof(pAlti->Gettext()); } p = p->nextSibling; }
プロファイルをとってみると、Gettext()関数が処理の大半を占めている。
同じフォーマットで10MB程度のXMLは数秒で終わることから、どうやらGettext()がファイルサイズに対してO(N^2)のような処理オーダーになっている印象を受ける。
これは奇妙だ。Gettext()の処理内容を想像すると定数時間で済みそうなものなのに!

試行錯誤して、Gettext()の変わりにfirstChild->nodeValue を呼ぶようにしたら処理は数秒で終わるようになった。たったこれだけで数千倍も処理時間が違う。
MSXML2::IXMLDOMNodePtr p = pCV_GridValuesMatrix->firstChild; while (p) { if (p->GetnodeName() == _bstr_t(L"jps:values")) { MSXML2::IXMLDOMNodePtr pAlti = p->firstChild->firstChild; double d = static_cast(pAlti->firstChild->nodeValue); } p = p->nextSibling; }
ってことで、いまいち理由がわからないが巨大なXMLを扱うときには Gettext()は呼び出したらアウトのようだ。

ちなみに今回の現象で悩んだ際にMSXML関連の情報をあさってみたが、以下のようなコードで遅いと言っている人もいた。
MSXML2::IXMLDOMNodeListPtr l = pCV_GridValuesMatrix->GetchildNodes(); for (int i = 0; i < l->Getlength(); ++i) { MSXML2::IXMLDOMNodePtr p = l->Getitem(i); ... }
これを上記のXMLでやると、このトラバースだけで数10分かかっても終わらない。
これはおそらく DOMNodeListは線形リストの実装になっていて、ランダムアクセスにO(N)の時間がかかるためだろう。
MS公式のFAQにも「こういうトラバースはしないで!」という情報があったが、だったら初めからGetitem()なんて関数用意しなきゃいいのに。