解析Adobe InDesign的HTML文本 - 其他标签内的标签

问题描述:

在InDesign中,我将文本从XML文件中提取出来并放入文本框中。由于textFrame不支持某些标签,因此我必须使用编程方式应用格式化来替换textFrame中的粗体,斜体和boldItalic标签。我原本使用Adobe的GREP搜索/替换功能来做这件事,但如果标签位于另一个标签内,它就无法正常工作(例如'<b>a<i>b</i>c</b>')。所以我决定使用蛮力并通过标签拆分字符串,然后遍历每个项目。代码我想出了一些作品,但我很好奇,如果有更好,更有效的方法来做到这一点?解析Adobe InDesign的HTML文本 - 其他标签内的标签

目前,它存储字体以及将该字体添加到的文本位置。标签也被删除。

注意:有一个单独的字体,样式文本粗体和斜体。如果我对<bi>标签造成混淆,我很抱歉。它本意是成为一个角色的标签,需要大胆和斜体。 <b><i>text</i></b>可能是更好的解决方案。无论如何,对于适当的字符而言,它绝对需要作为单独的样式。

var TAGSOBJ = {'<b>': 'Arial\tBold', 
       '<i>': 'Arial\tItalic', 
       '<bi>': 'Arial\tBold Italic', 
       '</b>': 'Arial\tBold', 
       '</i>': 'Arial\tItalic', 
       '</bi>': 'Arial\tBold Italic'}; 
var BGNTAGSOBJ = {'<b>': null, '<i>': null, '<bi>': null}; 
var ENDTAGSOBJ = {'</b>': null, '</i>': null, '</bi>': null}; 

var txt = 'This is some <b>really important <i>text</i></b> with <i>some <b>very <bi>very <br> very</bi> important</b> things</i> in it.'; 

var n = 0; 
var prevTag = ''; 
var noTagTxt = ''; 
var dataArray = [['none']]; 

var txtArray = txt.split(/(<\/?(?:b|i|bi)>)/); 

for (var i = 0; i < txtArray.length; i++) { 
    var iTxt = txtArray[i]; 

    if (iTxt in BGNTAGSOBJ) { 
     dataArray.push([TAGSOBJ[iTxt]]); 
     prevTag = iTxt; 
    } else if (iTxt in ENDTAGSOBJ) { 
     if (prevTag in ENDTAGSOBJ) { 
      dataArray[dataArray.length - 1][0] = TAGSOBJ[iTxt]; 
     } 

     dataArray.push(['none']); 
     prevTag = iTxt; 
    } else if (iTxt.length > 0) { 
     var iTxtLen = iTxt.length; 

     dataArray[dataArray.length - 1].push([n, n + (iTxtLen - 1)]); 

     noTagTxt += iTxt; 

     n += iTxtLen; 
    } else { 
     dataArray[dataArray.length - 1][0] = 'none'; 
    } 
} 

for (var i = 0; i < dataArray.length; i++) { 
    $.writeln(dataArray[i]); // print to console in extendscript 
} 
$.writeln(noTagTxt); 

/* Outputs to console in extendscript: 
none,0,12 
Arial Bold,13,29 
Arial Italic,30,33 
Arial Bold 
none,34,39 
Arial Italic,40,44 
Arial Bold,45,49 
Arial Bold Italic,50,63 
Arial Bold,64,73 
Arial Italic,74,80 
none,81,87 
This is some really important text with some very very <br> very important things in it. 
Result: undefined 
*/ 
+0

首先,如果您选择的是实际名称而不是“user1626601”,那么您会更加尊重和关注您的问题。其次,什么是标签?没有这样的事情。 – ErikE

+0

选民致关闭:这个问题出了什么问题? – ErikE

+0

我们正在处理自定义字体,因此我们为一个斜体和粗体字体组成了标记。这是否有一个标准?也许文字? – j2112

我在等待<bi>标签的解释,但在此期间,这里有一些剔除标签和收集你所需要的信息的代码。我也没有100%清楚字体的东西。 TAGSOBJ中的值是实际应用格式所需的值吗?

var 
    content = 'This is some <b>really important <i>text</i></b> with <i>some <b>very very <br>very important</b> things</i> in it.', 
    tagPattern = /<\/?(i|b)\b[^>]*>/ig, 
    stack = [], 
    tags = [], 
    offset = 0, 
    match, 
    tag; 

while (match = tagPattern.exec(content)) { 
    if (match[0].substr(1, 1) !== '/') { 
     stack.push(match.index - offset); 
    } else { 
     tags.push({ 
      tag: match[1], 
      from: stack.splice(-1, 1)[0], 
      to: match.index - offset 
     }); 
    } 
    offset += match[0].length; 
} 
content = content.replace(tagPattern, ''); 
// now use tags array and perform needed actions. 

这是a fiddle demonstrating this

最后,对于它的价值,我认为在JavaScript中使用大写标识符并不是标准做法。

+0

是的,TAGSOBJ中的值将用于将字体/样式应用于文本。 – j2112