Skip to content

How to create data-sample.txt from the NYT corpus? #4

@GaiYu0

Description

@GaiYu0

Hi! Thanks for sharing your code! My question is how to create data-sample.txt from the NYT corpus? Below is the directory structure of the corpus I got.

├── data
│   ├── 1987
│   ├── 1988
│   ├── 1989
│   ├── 1990
│   ├── 1991
│   ├── 1992
│   ├── 1993
│   ├── 1994
│   ├── 1995
│   ├── 1996
│   ├── 1997
│   ├── 1998
│   ├── 1999
│   ├── 2000
│   ├── 2001
│   ├── 2002
│   ├── 2003
│   ├── 2004
│   ├── 2005
│   ├── 2006
│   └── 2007
├── docs
│   ├── file.tbl
│   ├── new_york_times_annotated_corpus.pdf
│   ├── nyt_corpus_overview.pdf
│   └── README
├── dtd
│   ├── nitf-3-3.dtd
│   ├── nitf-3-3-ruby-include.dtd
│   └── xhtml-ruby-1.mod
├── index.html
└── tools
    ├── APACHE-LICENSE-2.0.txt
    ├── build
    │   └── timestools.jar
    ├── build.xml
    ├── docs
    │   ├── allclasses-frame.html
    │   ├── allclasses-noframe.html
    │   ├── com
    │   │   └── nytlabs
    │   │       └── corpus
    │   │           ├── NYTCorpusDocument.html
    │   │           ├── NYTCorpusDocumentParser.html
    │   │           ├── package-frame.html
    │   │           ├── package-summary.html
    │   │           └── package-tree.html
    │   ├── constant-values.html
    │   ├── deprecated-list.html
    │   ├── help-doc.html
    │   ├── index-all.html
    │   ├── index.html
    │   ├── overview-tree.html
    │   ├── package-list
    │   ├── resources
    │   │   └── inherit.gif
    │   └── stylesheet.css
    └── src
        └── com
            └── nytlabs
                └── corpus
                    ├── NYTCorpusDocument.java
                    └── NYTCorpusDocumentParser.java

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions