418 I'm a teapot: 12月 2012

MSXML6をXMLの読み込みに使っているが、国土地理院のページで配布されている標高メッシュのXMLを読み込ませたところ、これがとにかく遅い！

問題のXMLは以下のように values要素が約84万個大量に並んでいるもので、容量はおよそ100MB程度である。


<jps:CV_GridValuesMatrix>
  <jps:values>
    <jps:memberValue>
      <type>その他</type>
      <alti>-9999.00</alti>
    </jps:memberValue>
  </jps:values>

  <jps:values>
    <jps:memberValue>
      <type>その他</type>
      <alti>-9999.00</alti>
    </jps:memberValue>
  </jps:values>
    ...
</jps:CV_GridValuesMatrix>

これを以下のようなコードで読み込ませてみると、数10分かかっても処理が終わらない。


MSXML2::IXMLDOMNodePtr p = pCV_GridValuesMatrix->firstChild;
while (p) {
  if (p->GetnodeName() == _bstr_t(L"jps:values")) {
    MSXML2::IXMLDOMNodePtr pAlti = p->firstChild->firstChild;
    double d = _wtof(pAlti->Gettext());
  }

  p = p->nextSibling;
}

プロファイルをとってみると、Gettext()関数が処理の大半を占めている。
同じフォーマットで10MB程度のXMLは数秒で終わることから、どうやらGettext()がファイルサイズに対してO(N^2)のような処理オーダーになっている印象を受ける。
これは奇妙だ。Gettext()の処理内容を想像すると定数時間で済みそうなものなのに!

試行錯誤して、Gettext()の変わりにfirstChild->nodeValue を呼ぶようにしたら処理は数秒で終わるようになった。たったこれだけで数千倍も処理時間が違う。


MSXML2::IXMLDOMNodePtr p = pCV_GridValuesMatrix->firstChild;
while (p) {
  if (p->GetnodeName() == _bstr_t(L"jps:values")) {
    MSXML2::IXMLDOMNodePtr pAlti = p->firstChild->firstChild;
    double d = static_cast(pAlti->firstChild->nodeValue);
  }

  p = p->nextSibling;
}

ってことで、いまいち理由がわからないが巨大なXMLを扱うときには Gettext()は呼び出したらアウトのようだ。

ちなみに今回の現象で悩んだ際にMSXML関連の情報をあさってみたが、以下のようなコードで遅いと言っている人もいた。


MSXML2::IXMLDOMNodeListPtr l = pCV_GridValuesMatrix->GetchildNodes();
for (int i = 0; i < l->Getlength(); ++i) {
  MSXML2::IXMLDOMNodePtr p = l->Getitem(i);
  ...
}

これを上記のXMLでやると、このトラバースだけで数10分かかっても終わらない。
これはおそらく DOMNodeListは線形リストの実装になっていて、ランダムアクセスにO(N)の時間がかかるためだろう。
MS公式のFAQにも「こういうトラバースはしないで!」という情報があったが、だったら初めからGetitem()なんて関数用意しなきゃいいのに。

418 I'm a teapot

2012年12月2日日曜日

MSXML6のgettext()が異常に遅い件

フォロワー