解析Adobe InDesign的HTML文本 - 其他标签内的标签
在InDesign中,我将文本从XML文件中提取出来并放入文本框中。由于textFrame不支持某些标签,因此我必须使用编程方式应用格式化来替换textFrame中的粗体,斜体和boldItalic标签。我原本使用Adobe的GREP搜索/替换功能来做这件事,但如果标签位于另一个标签内,它就无法正常工作(例如'<b>a<i>b</i>c</b>
')。所以我决定使用蛮力并通过标签拆分字符串,然后遍历每个项目。代码我想出了一些作品,但我很好奇,如果有更好,更有效的方法来做到这一点?解析Adobe InDesign的HTML文本 - 其他标签内的标签
目前,它存储字体以及将该字体添加到的文本位置。标签也被删除。
注意:有一个单独的字体,样式文本粗体和斜体。如果我对<bi>
标签造成混淆,我很抱歉。它本意是成为一个角色的标签,需要大胆和斜体。 <b><i>text</i></b>
可能是更好的解决方案。无论如何,对于适当的字符而言,它绝对需要作为单独的样式。
var TAGSOBJ = {'<b>': 'Arial\tBold',
'<i>': 'Arial\tItalic',
'<bi>': 'Arial\tBold Italic',
'</b>': 'Arial\tBold',
'</i>': 'Arial\tItalic',
'</bi>': 'Arial\tBold Italic'};
var BGNTAGSOBJ = {'<b>': null, '<i>': null, '<bi>': null};
var ENDTAGSOBJ = {'</b>': null, '</i>': null, '</bi>': null};
var txt = 'This is some <b>really important <i>text</i></b> with <i>some <b>very <bi>very <br> very</bi> important</b> things</i> in it.';
var n = 0;
var prevTag = '';
var noTagTxt = '';
var dataArray = [['none']];
var txtArray = txt.split(/(<\/?(?:b|i|bi)>)/);
for (var i = 0; i < txtArray.length; i++) {
var iTxt = txtArray[i];
if (iTxt in BGNTAGSOBJ) {
dataArray.push([TAGSOBJ[iTxt]]);
prevTag = iTxt;
} else if (iTxt in ENDTAGSOBJ) {
if (prevTag in ENDTAGSOBJ) {
dataArray[dataArray.length - 1][0] = TAGSOBJ[iTxt];
}
dataArray.push(['none']);
prevTag = iTxt;
} else if (iTxt.length > 0) {
var iTxtLen = iTxt.length;
dataArray[dataArray.length - 1].push([n, n + (iTxtLen - 1)]);
noTagTxt += iTxt;
n += iTxtLen;
} else {
dataArray[dataArray.length - 1][0] = 'none';
}
}
for (var i = 0; i < dataArray.length; i++) {
$.writeln(dataArray[i]); // print to console in extendscript
}
$.writeln(noTagTxt);
/* Outputs to console in extendscript:
none,0,12
Arial Bold,13,29
Arial Italic,30,33
Arial Bold
none,34,39
Arial Italic,40,44
Arial Bold,45,49
Arial Bold Italic,50,63
Arial Bold,64,73
Arial Italic,74,80
none,81,87
This is some really important text with some very very <br> very important things in it.
Result: undefined
*/
我在等待<bi>
标签的解释,但在此期间,这里有一些剔除标签和收集你所需要的信息的代码。我也没有100%清楚字体的东西。 TAGSOBJ中的值是实际应用格式所需的值吗?
var
content = 'This is some <b>really important <i>text</i></b> with <i>some <b>very very <br>very important</b> things</i> in it.',
tagPattern = /<\/?(i|b)\b[^>]*>/ig,
stack = [],
tags = [],
offset = 0,
match,
tag;
while (match = tagPattern.exec(content)) {
if (match[0].substr(1, 1) !== '/') {
stack.push(match.index - offset);
} else {
tags.push({
tag: match[1],
from: stack.splice(-1, 1)[0],
to: match.index - offset
});
}
offset += match[0].length;
}
content = content.replace(tagPattern, '');
// now use tags array and perform needed actions.
这是a fiddle demonstrating this。
最后,对于它的价值,我认为在JavaScript中使用大写标识符并不是标准做法。
是的,TAGSOBJ中的值将用于将字体/样式应用于文本。 – j2112
首先,如果您选择的是实际名称而不是“user1626601”,那么您会更加尊重和关注您的问题。其次,什么是标签?没有这样的事情。 –
ErikE
选民致关闭:这个问题出了什么问题? – ErikE
我们正在处理自定义字体,因此我们为一个斜体和粗体字体组成了标记。这是否有一个标准?也许文字? –
j2112