Wikipedia:データベースダウンロード

ナビゲーションに移動 検索に移動

ウィキペディアのコンテンツなどのデータは、再配布や再利用のために利用できる一元化されたデータベース・ダンプでの提供が行われています。クローラを用いてコンテンツを収集しないでください。このデータベース・ダンプの生成は不定期に行われています。 ウィキペディアのコンテンツは Creative Commons Attribution-ShareAlike 3.0 Unported License (CC-BY-SA) および GNU Free Documentation License (GFDL) の下にライセンスされています(Wikipedia:著作権利用規約を参照)。

より詳しい解説はmeta:Data dumps(英語)を参照してください。

データベース・ダンプの提供場所

ウィキペディアは、主なソフトウェアとしてMediaWikiに、データベースソフトウェアにMySQLで動作しています。

通常のページ[編集]

ウィキページのデータは、SQLのテーブル形式ではなく、XMLのデータ形式で提供されます。文字エンコーディングはUTF-8です。 ファイルサイズが巨大なため、解凍したXMLを通常のエディタやブラウザで開かないようにご注意ください。

  • pages-articles.xml.bz2 : ノートページ、利用者ページを除く最新版のダンプ
  • pages-meta-current.xml.bz2 : 全ページの最新版のダンプ
  • all-titles-in-ns0.gz : 全項目のページ名一覧 (標準名前空間)
  • 全ページの全ての版のダンプを取得するためには、ファイル名が「pages-meta-history」で始まるすべての7zファイルをダウンロードしてください。

これらのXMLファイルをMySQLデータベースにインポートするには、MediaWiki配布物に含まれるimportDump.phpスクリプトを使用します。

例:

$ bunzip2 -c pages-articles.xml.bz2 | php maintenance/importDump.php

要約[編集]

ページの最初の段落とリンクのみを抽出したXMLデータが提供されます。

  • abstract.xml.gz

画像[編集]

現在、メディア・ファイルの提供は中止されています。

画像等のメディア・ファイルは単一のtarアーカイブ(無圧縮)で提供されます。

  • upload.tar - 全メディア・ファイル

その他のテーブル[編集]

その他の補助テーブルは、MySQLダンプで提供されます。

  • page.sql.gz
  • user_groups.sql.gz
  • logging.sql.gz
  • interwiki.sql.gz
  • langlinks.sql.gz
  • externallinks.sql.gz
  • templatelinks.sql.gz
  • imagelinks.sql.gz
  • categorylinks.sql.gz
  • pagelinks.sql.gz
  • oldimage.sql.gz
  • image.sql.gz
  • site_stats.sql.gz

データベース・スキーマについてはMediaWiki配布物に含まれるtables.sqlを参照してください。

コンテンツの二次利用に関して[編集]

ウィキペディア日本語版のテキストを再利用する際は、Text of Creative Commons Attribution-ShareAlike 3.0 Unported License (CC-BY-SA) の下で配布してください(詳しくはWikipedia:著作権および利用規約を参照)。ウィキペディア日本語版以外のプロジェクトでは、採用しているライセンスが異なる場合がありますので、各プロジェクトの解説を参照してください。

画像のダンプには CC-BY-SA で利用可能でないものが含まれています。それぞれの画像に関して、テキストのダンプに含まれている、画像ページでライセンス等の著作権情報を確認してください(詳しくはWikipedia:アップロードされたファイルのライセンスを参照)。

テキスト・画像ともに、おそらく他者の著作権を侵害しているものが含まれていますが、誰も気づいていないため除去されていません。このことを理解したうえで、すべて自己責任で利用してください。また、あなたがこのような著作権侵害に気づいた場合は、私たちに知らせてください

その他の諸注意に関して、Wikipedia:免責事項#ウィキペディア内コンテンツの2次利用についてCopyright and license (英語)も参照してください。

クローラを使わない[編集]

記事を大量にダウンロードするためにクローラを使わないで下さい。強引なクローリングは、ウィキペディアが劇的に遅くなる原因となります。

ウィキペディアのデータベースから自動的にデータの収集がなされた場合、システム管理者によってあなたのサイトからウィキペディアへのアクセスを禁止する措置が取られることもあります。

参考リンク[編集]

外部リンク[編集]