LEX-ik import

LEX-ik modul importu

Modul importu LEX-iku je nástroj pro konverzi rozsáhlých formátovaných textů do strukturovaných databázových záznamů.

Uf, až mě vylekalo, jak strašně ta věta zní 🙂  Ale nějak mě nenapadá, jak to říci stručně a srozumitelně. Snad jenom na příkladu. Zkusme si představit, jak vypadá zápis v nějakém slovníku:

{céhbeli} [cé-] adj 1 <zast.> příslušející do cechu, cechovní 2 <kniž., čast. iron.> (člověk) z oboru, <ob.> z branže

Jak vidíte, jde o formátovaný text využívající tučné písmo, kurzívo i normální text, používá různé druhy závorek atd. Také si asi umíte představit, že slovník s takovýmto nesrozumitelným jazykem bude určitě hoooodně tlustý, alespoň tisíc stran. No a rázem máme příklad rozsáhlého formátovaného textu.

LEX-ik udělá to, že uvedený zápis rozškatulkuje podle předem stanovené struktury. Tu strukturu LEX-ik sám bohužel nevymyslí, to musíme udělat my, jeho tvůrci, společně s Vámi, našimi zadavateli. Struktura pak může vypadat třeba takto:

  • heslo
    • výslovnost
    • slovní druh
    •  význam
      • oblast použití
        • vysvětlivka
        • český překlad
        • příklad

A LEX-ik převede původní heslový zápis do následující struktury takto:

  • heslo: céhbeli
    • výslovnost: cé-
    • slovní druh: adj
  • 1. význam
    • oblast použití: zast.
      • český překlad: příslušející do cechu, cechovní
  • 2. význam
    • oblast použití: kniž., čast. iron.
      • vysvětlivka: člověk
      • český překlad: z oboru
    • oblast použití: ob.
      • český překlad: z branže

Výstup může být v různých formátech, od XML, přes Excel až po nějakou databázi, třeba MS SQL.

A teď se asi ptáte: „A k čemu je to dobré??“ My Vám s LEX-ikem napovíme, že s takto rozškatulkovaným textem můžete dále pracovat. Například si snadno můžete říci, že chcete úplně přeformátovat podobu zápisu ve slovníku, ale obsah ponechat úplně stejný. Anebo ze slovníku čítajícího 70 tisíc hesel vytáhnout jenom hesla ekonomická a vytvořit tak ekonomický slovník. Anebo chcete vytvořit jen rychlý překladový slovník skládající se pouze z hesla a jeho českých překladů (bez slovního druhu, bez oblasti použití a dalších „zbytečností“).

Chtěli byste tento modul využít a konvertovat svůj slovník do strukturované databáze? Rádi Vám s tím pomůžeme:

Analýza vstupní struktury

Toto je nejdůležitější a nejsložitější část celé zakázky. Jak se nadefinuje struktura špatně, celý převod je k ničemu. Podíváme se na Váš heslový záznam a společně s Vámi ho rozebereme na jednotlivé částečky. Odhalíme, které části záznamu jsou povinné, které volitelné, které doplňkové a postupně sestavíme strukturu Vašeho heslového záznamu. Za analýzu si účtujeme 10.000 Kč.

Převedení do strukturované databáze z elektronických dat

Zadáme nadefinovanou strukturu do modulu importu LEX-iku a proženeme Vaše data modulem importu. Poté data zkontrolujeme. Zní to sice poměrně jednoduše, ale je to poměrně náročný výkon. Samozřejmě složitost závisí i na rozsahu dodaných dat. Za každých 100 NS si účtujeme 1.700 Kč. Výstupem je Vámi požadovaná strukturovaná databáze, např. SQL, XML apod.

Převedení do strukturované databáze z tištěných dat

Pokud máte svůj slovník v tištěné podobě a chcete ho zdigitalizovat, skvěle se na to hodí náš modul importu LEX-iku. Nejprve je potřeba data naskenovat, poté prohnat OCR systémem a provést korektury. Práce to není až tak složitá, ale je nesmírně pracná a musí se dělat extrémně pečlivě. Osvědčilo se nám provádění trojích korektur. Dvě korektury děláme po naskenování a převedení pomocí OCR do textové podoby. Třetí korekturu děláme po samotném importu dat do databázové struktury. Za každých 100 NS si účtujeme 4.200,- Kč.

Analýza výstupní struktury a export do Wordu (PDF, …)

Pokud si přejete výstup jako naformátovaný text ve Wordu, pak je potřeba udělat ještě analýzu výstupní struktury. Přesně nadefinovat jednotlivé formáty, oddělovače, závorky, stanovit povinné a doplňkové položky atd. Výstupem naší práce je pak naformátovaný text celého slovníku ve Wordu (PDF, …). Za analýzu výstupní struktury si účtujeme 5.000 Kč.

Příklad zakázky – digitalizace tištěného slovníku, 1000 tištěných stran slovníku, výstupem má být slovník ve Wordu s vlastní strukturou heslového záznamu.

  1. Analýza vstupní struktury 10.000,- Kč
  2. Převedení 1000 tištěných stran do strukturované databáze (pro tuto zakázku plat 1 tištěná strana = 2 NS). 2000 NS / 100 x 4.200 = 84.000,- Kč
  3. Analýza výstupní struktury a export do Wordu 5.000,- Kč

Cena této zakázky by tedy byla 99.000,- Kč

Máte zájem o převedení (konverzi) Vašeho slovníku do elektronické podoby ve strukturované databázi? Pak nás neváhejte zkontakotvat.