Atur cara mengikut wikipedia2xml.sf.net

  • wikipedia2XML Percuma

    Koleksi skrip python untuk mencipta dan mengendalikan korpus XML (koleksi teks yang besar untuk tujuan linguistik) dari longgokan sandaran pangkalan data Wikipedia asal. Ia termasuk penghurai berasaskan ungkapan biasa untuk b