Document to Structure (D2S) 是从文档中提取化学信息的多功能应用程序。
咨询订购
申请试用

产品介绍

在ChenAxon的Naming(化学结构与名称相互转化)技术的强力支持下,Document to Structure (D2S) 成为从文档中提取化学信息的多功能应用程序。不同格式的文档中的不同类型的化学信息都能够被识别、提取出来。它还应用OCR(Optical Content Recognition,图片文本识别)和OSR(Optical Structure Recognition, 图片化学结构识别)技术来从图片格式的PDF文档中提取化学结构。一旦化学结构被提取出来,每个化学结构对应的文档位置也会一同返回。所有这些特性都是D2S成为化学文本挖掘、专利分析和内部文档管理的可选工具。


从文档中提取化学信息

化学信息识别

基于ChemAxon的化学结构和名称转化技术,各种类型的化学信息可以被识别出来并转化为化学结构,例如IUPAC名称,通用名,药物商品名,SMILES, InChI, CAS注册编号等。D2S还应用OSR技术将化学结构图片转化为化学结构。(D2S目前支持CLiDE, OSRA和Imago这三个OSR工具,但不提供这些工具的授权。用户需要通过它们的供应商获得授权。其中OSRA和Imago可免费获得授权。)D2S可以将化学结构图片与非结构图片(如IC50曲线图)区分开来,减少结果中的噪音。

多样性

D2S可支持各种文档,包括PDF, TXT, HTML, XML, MS Office文档 (DOC, DOCX, PPT, PPTX, XLS, XLSX), OpenOffice ODT等。Office文档中内嵌的化学结构对象(ChemDraw, SymyxDraw, MarvinSketch等)可以直接提取为化学结构。各种图片格式(如TIFF, BMP等)也可以支持。

可读性

从5.9版本开始,D2S可以开始处理图片格式的PDF文档,而不仅是文本格式的PDF文档。D2S采用OCR技术将图片PDF转化为文本,然后定位所有的化学信息。由于OCR技术的局限性,转化后的文本可能包含有错误。D2S通过一个内部纠错算法来识别常发生的OCR错误,并修正这些文本为正确的化学名称。因为很多的化学专利都是图片格式的PDF文档,这个功能对于专利信息挖掘十分有价值。

07536.png

可追溯性

具有化学意义的文档(例如化学专利)可能有几百页的长度。研发人员如果想要在文档中找到某个特定的化合物,要花费很长的时间,尤其是这个化学结构是以文本的格式存在。通过D2S,PDF文档中提取出来的每个化学结构都和它对应的位置信息以及原始的化学信息(IUPAC名称,图片,SMILES等)一起提取出来。这可以为研发人员阅读化学专利节约数小时的时间。

51526.png

实用性

D2S可以作为单独的工具使用。文档可以直接用MarvinView打开,提取的结果将在一个扁平表格中显示出来。如处理多个文档,可以通过命令行来运行D2S。D2S同时也整合到了ChemAxon的数据库管理工具Instant JChem和JChem for Office(在Instant JChem和JChem for Office中使用D2S需要额外的授权)。文档可以在这些工具中直接打开,D2S处理的结果可以作为数据表导入。D2S也可以作为ChemAxon组件包中的一部分在工作流工具中使用,如Pipeline Pilot和KNIME。跟ChemAxon的很多工具一样,D2S也可以通过命令行来进行批量处理,也可以通过API来开发客户化系统。


申请与订购

您正在申请的产品: 产品 >研发信息管理 > Document to Structure

您的服务是

申请试用
咨询订购
需求说明
提交