Skip to content

[bug] When task_type='howto', sometimes images are generated and sometimes only pure text is generated #45

@extraordinary126

Description

@extraordinary126

expected: only text is generated.

running info:

cfg.prompts: [('000', {'prompt': '打开微博,映入眼帘的就是这幅清新无比的图片,你来识别看看这里面有几个插着花的花瓶?\n:', 'reference_image': [<PIL.Image.Image image mode=RGB size=400x600 at 0x7FC3ECD76500>]})]
[INFO] 1 reference images are provided
[INFO] Handling prompt: <|extra_203|>You are a helpful assistant for story task. USER: 打开微博,映入眼帘的就是这幅清新无比的图片,你来识别看看这里面有几个插着花的花瓶?
:<|IMAGE|> ASSISTANT: <|extra_100|>
[INFO] Auto height, width
[INFO] hw_str: 55*37, H_px: 880, W_px: 592
[INFO] Generating image#1...
[INFO] Generating image#1...
[INFO] Generating image#1...
�[32m2025-11-14 15:36:11,991 - custom_logger - INFO - mmout: [('global_cot', '为了回答关于书籍中包含多少张页面的问题,故事以一个宁静而诱人的场景展开:一本打开的旧书静静地放在一块复古木桌上,旁边是一杯茶和一束粉红色的郁金香。这种视觉布置营造出一种平静而沉思的氛围,邀请观众进行思考。叙述随后过渡到展示一本现代书籍中一页翻开的画面,突出其整齐的白色纸张和清晰的排版,强调与旧书朴素设计的对比。接着,故事深入探讨书籍的结构,通过特写镜头展示书脊、边缘以及单页纸张,以展现印刷品的精细工艺和工艺水平。这些视觉元素强化了关于书籍的页面数量以及它们有序排列的信息。最后,叙述以一本空书的特写镜头结束,邀请观众思考书籍中包含多少张页面。整个故事的逻辑核心是将视觉元素与关于书籍构造的教育性叙述相结合,采用真实摄影风格,捕捉书籍材质和工艺的细节,以一种吸引人且信息丰富的手法呈现。'), ('text', '画面中,一本打开的旧书放在一块复古木桌上,书页微微泛黄,旁边是一杯茶和一束粉红色的郁金香。木桌的天然纹理为画面增添了一种温暖、复古的氛围。茶杯和茶托与书本相得益彰,营造出宁静而沉思的氛围。'), ('image_cot', '鉴于故事摘要和片段提示,我们预计画面将从宁静的书本、茶杯和郁金香布置的场景过渡到对现代书籍内部结构的详细、特写视角。木桌的复古纹理和茶杯的柔和温暖色调将逐渐退居背景,焦点将转向书页。这些书页很可能是整齐排列、洁白无瑕的,将占据画面主体,展示书籍的精细工艺和印刷精确度。书页的边缘略显毛边,暗示着一个具有触感的触感,而文字的清晰度则突出印刷的质量。书页的柔软折痕以及微妙的光影效果将增强画面的真实感,强调书籍内容的有序和系统性。背景将被虚化,从而引导观众的注意力聚焦于书页和书籍的结构,进一步强化教育性和信息性的叙事。'), ('image', <PIL.Image.Image image mode=RGB size=896x576 at 0x7FC3ECD8D090>), ('text', '这本打开的书页面上,整齐地排列着白色纸张,带有淡淡的蓝色网格线,提供了清晰的阅读表面。书页略微向右倾斜,角落部分翻出,暗示有人最近翻阅过。背景是纯白色,突出了书籍内容的简洁与有序。'), ('image_cot', '鉴于叙述的重点是书籍的结构和工艺,我们可以预见到从物理书本特写镜头向更概念性的表现形式转变。之前的画面展示了一本敞开的书,带有蓝色网格线,为理解书籍的构造奠定了基础。随着故事的发展,视觉效果很可能会从对实体书本的写实描绘,转变为更加抽象和简化的设计,强调书籍页面的数量和有序排列。背景将从木质书桌和深色背景转变为纯白色背景,突出清晰度和简洁性。书页的材质和质感将发生变化,从真实的纸张转变为光滑、平坦的白色表面,带有微妙的蓝色网格线,象征书籍内容的有序性和一致性。书页的排列将变得对称且整齐,书页略微向右倾斜,营造出一种深度和动感。这种转变将突出书籍的工艺和精细细节,与故事的教育性叙述相一致。整体的视觉风格将保持写实,但更具极简和抽象的审美,专注于书籍构造的基本元素。'), ('image', <PIL.Image.Image image mode=RGB size=896x576 at 0x7FC3ECCC1000>), ('text', '这张图片展示了书籍的装订情况。从侧面可以看到书脊,其边缘用棕色材料包裹。白色的书页从一端露出,表明书本略微打开。深色背景增强了书籍精致工艺的突出效果。'), ('image_cot', '鉴于叙述的重点在于书籍的结构和工艺,我们预计会有一个详细的特写镜头,展示书脊和页面的边缘。先前展示的干净白色页面和蓝色网格线将转变为更聚焦的视角,突出书本装订的精细细节。书脊的材料很可能是棕色皮革或布料,将被突出显示,展现出其质感和缝线工艺。白色页面的边缘将清晰可见,展示出整齐的折痕以及书籍打开时所呈现的层次感。深色背景将保持一致,确保观众的注意力集中在书本结构的复杂细节上。这种视角的变化将强调书籍构造的有序性和工艺水平,与故事的教育性叙述相一致。整体的视觉风格将保持写实,捕捉书籍表面的细微差别和材质,以吸引人且信息丰富的形式呈现。'), ('image', <PIL.Image.Image image mode=RGB size=896x576 at 0x7FC3ECD8F280>), ('text', '一只手轻轻地翻开书本,露出一个干净的白色页面。书页略微分开,让光线透出,呈现出微妙的光泽。手的指节和指甲清晰可见,突显了翻页这一细腻的动作。背景是深色且模糊的,从而将注意力集中在书本和手上。'), ('image_cot', '场景预计将从展示一本打开书本的特写镜头演变,转变为更加动态的视觉效果,手与书本的互动成为焦点。先前整齐排列的页面现在会略微分开,露出一个干净的白色页面,光线透过这种分离而透出柔和的光泽。手部,包括可见的指节和指甲,会轻柔地握住书本的边缘,营造出翻页这一细腻而亲密的动作。背景将转变为黑暗且模糊的环境,从而增强对书本和手部的突出效果,以及它们在场景中的互动。整体构图将保持写实的摄影风格,捕捉书本的质感和材质,以及光线与阴影在手上和页面上的微妙变化。这种转变将突出书籍的结构和工艺,同时通过手部的触觉互动,增添一份人性化的联系。'), ('image', <PIL.Image.Image image mode=RGB size=896x576 at 0x7FC3ECDB50F0>), ('text', '特写镜头展示了一页纸上印刷的文字。字母深色而均匀,整齐排列成行,形成清晰可读的段落。背景为浅色,增强了文字的对比度和清晰度。页面略微向右倾斜,增添了深度和立体感。'), ('image_cot', '画面预计将从书本的特写镜头过渡到一页纸上的详细视图,重点展示印刷文字的复杂性。先前展示的手与书本的互动将转变为静态的页面呈现,页面略微向右倾斜,以增加层次感。纸张的质感将更加明显,呈现出略微粗糙、有颗粒感的表面,与文字深色、均匀的墨迹形成鲜明对比。字母整齐排列成行,形成清晰易读的段落,背景为浅色,确保文字突出醒目。灯光将微妙地照亮文字,突出印刷工艺的精细细节,并增强页面的立体感。整体构图将强调书籍构造的有序性和工艺性,符合教育性叙事的主旨。'), ('image', <PIL.Image.Image image mode=RGB size=896x576 at 0x7FC3EC0FAFE0>), ('text', '这本书是空白的,书页干净整洁,没有任何文字或图片。背景是一片深色、模糊的区域,突出了书本洁白的纸页。这本书似乎刚打开过,邀请读者想象这空白的页面上可能写下的内容。'), ('image_cot', '在这一转变过程中,场景预计会从带有文字的页面特写镜头,演变为完全空白的书页,强调书籍未被触动的纯净与潜力。原本布满文字和隐约阴影的纸张质感,现在应呈现出均匀的白色,没有任何标记或阴影,从而突出其干净整洁的外观。空间布局会略有变化,书页会更加张开,形成对称而开阔的视角,邀请观众想象可能的内容。背景原本是带有细微文字细节的,现在则会转变为深色、模糊的环境,进一步凸显书页的洁白。这种对比增强了书籍结构和工艺的视觉效果,使观众关注书籍空白页面的有序与整齐排列。整体的转变将保持写实的摄影风格,细致捕捉纸张的细微纹理和书页的微妙折痕,进一步强化书籍构造的教育性叙述。'), ('image', <PIL.Image.Image image mode=RGB size=896x576 at 0x7FC3ECD741C0>)]�[0m

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions